Indlæg - CBS
Indlæg - CBS
Indlæg - CBS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
NoRdteRM 16<br />
Ontologier og taksonomier<br />
RedaktøReR: Bodil NistRup MadseN & HaNNe eRdMaN tHoMseN<br />
NoRdteRM 2009<br />
københavn 9.-12. juni 2009
NORDTERM 16<br />
Ontologier og taksonomier<br />
<strong>Indlæg</strong> fra NORDTERM 2009<br />
København, Danmark<br />
9.‐12. juni 2009<br />
Redaktører:<br />
Bodil Nistrup Madsen<br />
& Hanne Erdman Thomsen<br />
Arrangører:<br />
Institut for Internationale Sprogstudier og Vidensteknologi<br />
& DANTERMcentret, Handelshøjskolen i København (<strong>CBS</strong>)<br />
Institut for Fagsprog, Kommunikation og Informationsvidenskab,<br />
Syddansk Universitet (SDU)<br />
Værter:<br />
Institut for Internationale Sprogstudier og Vidensteknologi<br />
& DANTERMcentret<br />
<strong>CBS</strong><br />
Sponsorer:<br />
Nordplus, FUHU, Hedorfs Fond<br />
NORDTERM 2009, København 9.-12. juni 2009 1
FORORD<br />
NORDTERM 2009 fandt sted ved Institut for Internationale Sprogstudier og Vidensteknologi, <strong>CBS</strong>,<br />
Handelshøjskolen i København, den 9.-12. juni 2009 (www.cbs.dk/nordterm2009). Arrangementet<br />
bestod af et kursus, en konference, en workshop, NORDTERM-forsamlingen og styregruppemøder.<br />
Kurset varede én dag og blev afholdt tirsdag de n 9. juni, m ens konferencen fandt sted fra onsdag<br />
den 10. til torsdag 11. juni. Den 12. juni blev de r afholdt workshop, styre- og arbejdsgruppemøder<br />
samt NORDTERM-forsamling.<br />
Tema<br />
Hovedtemaet for NORDTERM 2009 var udarbejdelse og anvendelse af ontologier og taksonom ier,<br />
især hos organisationer og offentlige myndigheder i de nordiske lande. P.t. er der et stort b ehov for<br />
terminologer hos det offentlige, hvor bl.a. term inologiske ontologier (begrebssystemer) bliver brugt<br />
til optimering af it-arkitektur, i d igitale forvaltningssystemer, til af klaring af organisationernes<br />
terminologi og til meget mere.<br />
Kurset og de inviterede indlæg på konferencen vedrørte principper for term inologiske ontologier,<br />
andre typer ontologier, værktøje r og for mater for ontologier sa mt deres anvendelse hos det<br />
offentlige.<br />
Til konferencen var der inviteret to foredragsholdere, som holdt følgende indlæg:<br />
David Markwell (Principal Consultant, CIC Ltd): Making sense of health - the challenge for<br />
clinical terminology<br />
Kristian Hjort-Madsen (Finansministeriet, Den Digitale Taskforce):<br />
Forretningsreferencemodellen FORM<br />
Herudover blev der indkaldt i ndlæg fra forskere og udøvende te rminologer til konferencen. Som<br />
sædvanlig var der – ud over hovedtemaet - mulighed for<br />
indlæg om terminologiarbejde i Norden<br />
teoretisk orienterede indlæg fra forsknings- og uddannelsesinstitutioner<br />
praktisk orienterede indlæg fra virksomheder og organisationer.<br />
Kurset gav en introduk tion til principper for den kendte sundhedsontologi, SNOMED CT (ved<br />
David Markwell: http://www 1.clininfo.co.uk/snomed) og tilpasni ngen af SNOMED CT til dansk<br />
(ved Birthe Toft, SDU). Herudover om fattede kurset en introduktion til te rminologiske ontologier<br />
samt deres anvendels e hos det offentlig e bl.a. som grundlag for klass ifikationer og datamodeller<br />
(ved Bodil Nistrup Madsen, Hanne Erdman Thomsen og Anna Odgaard, <strong>CBS</strong>).<br />
Målgruppe<br />
Arrangementet samlede terminologer og terminologiinteresserede fra såvel forskningsinstitutioner<br />
som erhvervsliv og offentlige institutioner i hele Norden.<br />
Proceedings<br />
Vi har valgt at opdele proceedings fra NORDTERM 2009 i hhv. trykte og elektroniske proceedings.<br />
De trykte p roceedings omfatter alle m odtagne abstracts fra konferencen sam t informationer om<br />
kurset, workshoppen, styregruppemøderne og NORDTERM-forsamlingen.<br />
NORDTERM 2009, København 9.-12. juni 2009 2
Bagest i de trykte proceedings findes en CD med alle modtagne indlæg og præsentationer fra<br />
konferencen og workshoppen. De elektroniske proceed ings omfatter især de akadem iske indlæg,<br />
idet ikke alle virksomheder og offentlige myndigheder har benyttet sig af tilbuddet om at publicere<br />
deres indlæg. Dog findes de fles te af konferencens PowerPoint-p ræsentationer i de elektroniske<br />
proceedings på den vedlagte CD, som endvidere indeholder abstracts og rapporter fra de trykte<br />
proceedings. Endelig findes link til både tryk te og elek troniske proceedings på konferencens<br />
hjemmeside http://www.cbs.dk/forskning/konferencer/nordterm_2009 samt på NORDTERMs<br />
hjemmeside http://www.nordterm.net/info/public-en.html.<br />
Arrangementskomité<br />
Planlægningen blev udført af en arrangementskomité bestående af Bodil Nistrup Madsen og Hanne<br />
Erdman Thomsen (begge Institut for Internationale Sprogstudier og Vi densteknologi, <strong>CBS</strong>, Lotte<br />
Weilgaard og Annelise Grinsted (Institut for Fagsprog, Kommunikation og Infor mationsvidenskab,<br />
Syddansk Universitet (SDU), Annne mette Wenzel / Lone Bo Sisseck, daglig leder ved<br />
DANTERMcentret samt Anna Odgaard, projektleder, ved DANTERMcentret, <strong>CBS</strong>.<br />
En særlig tak til Mere te Borch fra Institutadm inistrationen i Dalgas Have, IADH, <strong>CBS</strong>, som har<br />
bistået med planlægning, afvikling og udarbejdelse af proceedings.<br />
Sponsorer<br />
Arrangementet har modtaget støtte fra NordPlus Sprog, Hedord Fonden, FUHU og <strong>CBS</strong>.<br />
Bodil Nistrup Madsen og Hanne Erdman Thomsen<br />
NORDTERM 2009, København 9.-12. juni 2009 3
Proceedings<br />
ONTOLOGIARBEJDE I SUNDHEDSSEKTOREN<br />
Stefano Testi: Terminologi, Klassifikation, Begreppsmodellering<br />
Troels Thomsen: Sikring af Datakvalitet ved Hjælp af Ontologier<br />
Anne-Mette Skou: ’Specialer’ i sundhedsvæsnet i Danmark<br />
ONTOLOGIER INDEN FOR OMRÅDET BIOMEDICIN OG BIOKEMI<br />
Damhus, Olesen Larsen, Nistrup Madsen & Zambach: Begrebsafklaring inden for området<br />
enzymkemi<br />
Zambach & Nistrup Madsen: Terminologiske ontologier og beskrivelseslogik: Et eksperiment inden<br />
for domænet enzymkemi<br />
Nistrup Madsen, Erdman Thomsen, Lassen & Zambach: Insulinontologi til Søgeprojekt<br />
ONTOLOGIER OG BEGREBSRELATIONER<br />
Camilla Wiberg Danielsen: Working Towards a Common Danish Upper Ontology<br />
Cecilia Lind: TNCs arbete med en basordlista – en ontologi med definitioner?<br />
Anita Nuopponen: Begreppsrelationer som verktyg för begreppsanalysen<br />
ONTOLOGIER OG DATAMODELLER<br />
Nistrup Madsen & Odgaard: From concept models to conceptual data models<br />
SEMANTIK OG SAMMENHÆNG I DIGITAL FORVALTNING<br />
Lars Johnsen: Interoperabilitet 2.0: Sømløse emnekort i digital forvaltning<br />
DEN SVENSKE RIKSTERMBANKEN<br />
Anna-Lena Bucher: Terminologisamordning inom svenska myndigheter. Ny språklag på väg.<br />
Dobrina & Nilsson: Koll på innehåll igen: Vad har kommit med i Rikstermbanken?<br />
Peter Svanberg: Från Termdok på cd-rom till Rikstermbanken<br />
TEORI OG PRAKSIS I TERMINOLOGIARBEJDE<br />
Birthe Toft: Domænemodellering som grundlag for terminologier og ontologier:<br />
afgrænsningsproblemet<br />
Jørgen Burchardt: Personaliseret information<br />
Henrik Nilsson: Ordningen i redan – om uppräkningar i begreppsbeskrivningar<br />
NORDTERM 2009, København 9.-12. juni 2009 4
TERMINOLOGI OG UDDANNELSE<br />
Nilsson & Nissilä: TERMDIST: nordisk terminologiutbildning i ljuset av europeiskt utbildningsoch<br />
certifieringsarbete inom terminologi<br />
Nissilä & Pilke: Begreppsstrukturer i språkbadselevers ämnesspecifika skriftliga produktion<br />
Päivi Pasanen: Compiling a Glossary for a Special Language Learning Tool<br />
TERMINOLOGISK INFRASTRUKTUR OG TERMBASER<br />
Andersen & Kristiansen: Terminor og Termportalen – nye initiativer for norsk terminologisk<br />
infrastruktur<br />
Eija Puttonen: En termbank växer fram: Från kostnadsnyttoanalys via terminologisk analys till<br />
praktisk tillämpning<br />
Igor Kudashev: Documentation of Sources in Terminology Management Systems, with Particular<br />
Emphasis on Collaborative Platforms<br />
TERMINOLOGI I PRAKSIS<br />
Jeanette Ørsted: CLS Terminology Adapting to the Needs of the Market<br />
Grinsted & Erdman Thomsen: Cost-benefit begrebsafklaring<br />
INFORMATIONSEKSTRAKTION OG INFORMATIONSSØGNING<br />
Merkel, Foo, Andersson, Edholm, Gidlund & Åsberg: Automatic Extraction and Manual Validation<br />
of Hierarchical Swedish Patent Terminology<br />
Seppälä, Hyvönen, Tuominen & Viljanen: ONKI-ontologibiblioteket: tjänster för upprätthållare,<br />
indexerare och informationssökare<br />
TERMINOLOGIPROJEKTER<br />
Susanne Lervad: Etablering af termbase over dragt- og tekstilbegreber<br />
Torbjørg Breivik: Arbeid med nordiske termer i språkteknologi<br />
Olesen Larsen & Nistrup Madsen: Forskningsbegreber og terminologi<br />
KONTRASTIVE ANALYSER<br />
Mourier & Vesterli: KNowaboUT - A Work-In-Progress Study On How To Fruitfully Combine The<br />
Theories Of Terminology And Lexicography<br />
Fumiko Kano: Ontology-based Triangulated Terminology Management<br />
WORKSHOP: STANDARDISERING AV SPRÅKTEKNOLOGISKE TERMER I NORDEN<br />
NORDTERM 2009, København 9.-12. juni 2009 5
Torbjørg Breivik: Oppsummering – arbeidsseminar om språkteknologiske termer på de nordiske<br />
språkene<br />
Karlsson &Nilsson: Språkteknologisk (meta)terminologi – situationen i Sverige<br />
NORDTERM 2009, København 9.-12. juni 2009 6
Terminologi, Klassifikation,<br />
Begreppsmodellering<br />
Stefano Testi<br />
Socialstyrelsen, Sverige<br />
Abstract. Inom fackområdet vård och omsorg, som innefattar både hälso- och sjukvård och<br />
socialtjänst, bedrivs i Sverige projekt med sikte på en gemensam nationell informationsstruktur<br />
och ett nationellt fackspråk. Socialstyrelsen har regeringens uppdrag att driva dessa projekt. För<br />
att uppnå dessa mål krävs olika metoder. Terminologiarbete används för att reda ut begreppen<br />
inom fackområdet i fråga. Begreppsmodellering används för att visa hur begreppen i en viss<br />
verksamhet eller process relaterar till varandra och kan resultera i underlag till en<br />
informationsmodell. För statistiska ändamål och för att underlätta sökandet och användandet av<br />
information behövs klassifikationer. Denna artikel vill visa på att många blandar ihop de tre<br />
metoderna, men att de bör hållas isär och användas för sina respektive syften.<br />
INLEDNING<br />
Inom fackområdet vård och omsorg, som innefattar både hälso- och sjukvård och<br />
socialtjänst, bedrivs i S verige projekt med sikte på en gemensam nationell<br />
informationsstruktur och ett nationellt fackspråk. Socialstyrelsen har regeringens<br />
uppdrag att driva dessa projekt. För att uppnå dessa mål krävs olika metoder.<br />
Terminologiarbete används för att reda ut begreppen inom fackområdet i fråga.<br />
Begreppsmodellering används för att visa hur begreppen i en viss verksamhet eller<br />
process relaterar till varandra och kan resultera i underlag till en informationsmodell.<br />
För statistiska ändamål och för att underlätta sökandet och användandet av information<br />
behövs klassifikationer. Det är viktigt att hålla isär metoderna och använda dem för<br />
sina respektive syften.<br />
Denna artikel vill visa på att många blandar ihop metoderna, vad de har för syften<br />
och vad de ska användas till. Artikeln är skriven utifrån en terminologs perspektiv och<br />
kommer inte att beskriva terminologiläran utan visa exempel på sammanblandning.<br />
Eftersom problemen kan skilja sig mellan de nordiska länderna är det svenska<br />
förhållanden som beskrivs, dessutom begränsat till fackområdet vård och omsorg.<br />
När det gäller terminologiarbete gentemot klassifikation är det inte helt ovanligt att<br />
personer som söker i Socialstyrelsens termbank undrar varför de inte hittar samma<br />
information som i t.ex. ICF (Klassifikation av funktionstillstånd, funktionshinder och<br />
hälsa). Det händer också att klassifikationer används som om de vore uppslagsverk<br />
eller termlistor.<br />
NORDTERM 2009, København 9.-12. juni 2009 7
TERMINOLOGIARBETE OCH KLASSIFIKATION<br />
Skillnaden mellan terminologiarbete och klassifikation kan kortfattat uttryckas på<br />
följande sätt: Terminologiarbete syftar till att undvika tolkningstvister och<br />
missförstånd genom att reda ut och definiera begreppen inom ett fackområde samt ge<br />
lämpliga termer till b egreppen. Klassifikation syftar till a tt underlätta sökandet och<br />
användandet av information genom att gruppera, indela eller inordna objekt eller<br />
individer i olika klasser, för statistiskt ändamål.<br />
Terminologiska definitioner finns oftast inte i k lassifikationer. Vissa<br />
klassifikationer, som ICF och ICD-10 (på svenska Klassifikation av sjukdomar och<br />
hälsoproblem, KSH97) har någon form av beskrivningar, som i klassifikationen i fråga<br />
ibland kallas för definitioner. Dessa beskrivningar ska ses inom ramen för<br />
klassifikationen eller klassifikationens delområden. När det gäller kriterier, alltså det<br />
som avgör att något ska klassificeras som just det, hänvisas man nästan alltid till<br />
medicinsk sakkunskap (böcker, artiklar, forskningsfynd).<br />
I den svenska versionen av ICD-10 står följande under rubriken ”Klassifikation och<br />
inte nomenklatur”: Genom klassifikationens breda användning inom sjukvården blir<br />
dess språk och terminologi av betydelse för det medicinska fackspråket. Det förtjänar<br />
dock understrykas att det här primärt är fråga om en statistisk klassifikation och inte<br />
en nomenklatur, dvs. en förteckning över riktiga eller rekommenderade beteckningar<br />
eller termer. Klassifikationens språk är sålunda inte bindande för formuleringen av de<br />
diagnoser som anges i patientjournaler eller annan medicinsk dokumentation.<br />
Klassifikationer har följaktligen ett annat syfte än att definiera begrepp inom ett<br />
fackområde. Klassifikationen ICF används till exempel för att kunna klassificera<br />
funktionstillstånd och olika typer av funktionsnedsättningar, bland annat utifrån vad en<br />
person kan eller inte kan göra. ICF består av fyra huvudavsnitt, kroppsfunktioner,<br />
kroppsstrukturer, aktivitet och delaktighet samt omgivningsfaktorer. Varje avsnitt är<br />
indelat i kapitel, som i sin tur kan vara ytterligare underindelade.<br />
Terminologiskt skulle man kanske definiera begreppet ”äta” ungefär så här: inta<br />
fast eller flytande föda via munnen med hjälp av något verktyg. I ICF hittar man ”att<br />
äta” i kapitel 5 Personlig vård i avsnittet Aktiviteter och delaktighet, se figur 1 nedan.<br />
FIGUR 1. Exempel från ICF (avkortat).<br />
NORDTERM 2009, København 9.-12. juni 2009 8
ICF är uppbyggd efter en hierarkisk struktur men det handlar snarare om klasser<br />
eller kategorier än om begrepp. Att klä sig och att äta tillhör båda kategorin personlig<br />
vård (som kan ses som en rubrik i sammanhanget), men man skulle knappast<br />
terminologiskt definiera ”att äta” och ”att klä sig” utifrån det överordnade begreppet<br />
”personlig vård”. Beskrivningen i ICF till ”att äta” lyder Att genomföra samordnade<br />
uppgifter och handlingar för att äta mat som serveras, att föra maten till munnen och<br />
konsumera den på ett kulturellt acceptabelt sätt, skära eller bryta maten i bitar, öppna<br />
flaskor och burkar, använda matbestick, äta sina måltider till fest och vardags. Denna<br />
beskrivning innehåller kännetecken som inte har med begreppet äta att göra, till<br />
exempel skära eller bryta maten i bitar, öppna flaskor och burkar, äta sina måltider<br />
till fest och vardags. Här handlar det om en beskrivning i sitt sammanhang, man får<br />
tänka sig ett scenario där man ska kunna bedöma vad en person kan. Kan personen<br />
öppna en burk eller skära maten? I avsnittet Kroppsfunktioner finns ”funktioner vid<br />
intagande av föda” i kapitel 5 Matsmältnings- och ämnesomsättningsfunktioner och<br />
endokrina funktioner, se figur 2 nedan.<br />
FIGUR 2. Exempel från ICF (avkortat).<br />
Beskrivningen till ”funktioner vid intagande av föda” lyder Funktioner som hänger<br />
samman med att inta och hantera fasta eller flytande ämnen till kroppen genom<br />
munnen. En kombination av vissa av kännetecknen från att äta och funktioner vid<br />
intagande av föda skulle kunna ge en definition av begreppet ”äta”, men syftet med<br />
ICF är inte att definiera begrepp utan att kunna klassificera funktionstillstånd.<br />
ISO-standard<br />
Inom ISO (International Organization for Standardization) finns en teknisk kommitté<br />
för hälsoinformatik, ISO/TC 215 Health informatics. En av de standarder som denna<br />
kommitté har utarbetat heter ISO 17115 1<br />
Health informatics – Vocabulary for<br />
terminological systems. Som terminolog blir man nyfiken på vad ett terminologiskt<br />
system är, eftersom det inte brukar användas som term inom terminologiläran, och en<br />
ordlista för sådana system låter intressant. I avsnittet Main purposes står det följande:<br />
1 Jag har utgått från version 17115:2007.<br />
NORDTERM 2009, København 9.-12. juni 2009 9
The principles established by ISO/TC 37 are extended here into a formal system suited<br />
to health informatics. Eftersom ISO/TC 37 är den tekniska kommitté som arbetar med<br />
terminologi och andra språkliga resurser så blir man än mer intresserad. I standarden<br />
finns dessutom en bilaga med utvalda definitioner från ISO 1087-1:2000<br />
(Terminology work – Vocabulary – Part 1: Theory and application). I bilagan till ISO<br />
17115 föregås varje termpostnummer av ”A”, som hänvisning till ISO 1087-1.<br />
Vad är då ett terminologiskt system enligt denna standard? Det finns ingen<br />
definition av det begreppet, men däremot ett avsnitt med definitioner av olika typer av<br />
sådana system, nämligen classification, coding scheme, coding system, reference<br />
terminology och clinical terminology. Definitionen av classification lyder<br />
exhaustive set of mutually exclusive categories (2.1.4) to aggregate data at a preprescribed<br />
level of specialization (2.1.3) for a specific purpose<br />
Som exempel på en klassifikation ges ICD-10. Men som tidigare nämnts står det i<br />
inledningen till ICD-10 att det här primärt är fråga om en statistisk klassifikation och<br />
inte en nomenklatur. På vilka grunder är det då ett terminologisystem?<br />
Reference terminology har definitionen<br />
set of atomic level designations structured to support representations of both simple<br />
and compositional concepts independent of human language (within machine)<br />
med en anmärkning: Reference terminology is designed to uniquely represent<br />
concepts (A.2.3.1). Om nu terminologi är en uppsättning benämningar som hör till ett<br />
fackspråk, och ett fackspråk är en språkform som används för kommunikation inom ett<br />
fackområde, kan man då säga att en referensterminologi är något som är oberoende av<br />
mänskligt språk? Och vad är egentligen ett sammansatt (compositional) begrepp?<br />
För att återgå till d efinitionen av classification, den innehåller termen category.<br />
Figur 3 visar hur termposten för detta begrepp ser ut.<br />
FIGUR 3. Termposten category i ISO 17115:2007.<br />
I figur 3 framgår att category är synonym till generic concept. Termen generic<br />
concept och definitionen av begreppet är i sin tur hämtade från ISO 1087, som på<br />
svenska inte har någon direkt motsvarighet men som avser ett överordnat begrepp i en<br />
generisk relation. Det innebär att classification enligt ISO 17115 ä r en uttömmande<br />
uppsättning av ömsesidigt uteslutande överordnade begrepp i generiska relationer.<br />
För mig känns det inte riktigt att säga att klass eller kategori skulle vara synonymt med<br />
överordnat begrepp i en generisk relation. I klassifikationssammanhang väljer man att<br />
NORDTERM 2009, København 9.-12. juni 2009 10
kategorisera efter någon viss egenskap (att klä sig och att äta har man valt att lägga<br />
under samma kategori i ICF), men begreppsmässigt så ärver ett underbegrepp alla<br />
kännetecken från överbegreppet. Observera att ISO 1087 inte har med category som<br />
synonym till generic concept!<br />
Det finns flera exempel på när ISO 17115 krockar med terminologins terminologi,<br />
trots att man utgår från denna, till exempel begreppet concept name. Detta begrepp har<br />
definitionen<br />
term (A.3.4.3) which uniquely designates a concept (A.3.2.1) within a concept<br />
system (A.3.2.11)<br />
Allt som inleds med ett ”A” kommer alltså från ISO 1087. Men en terminolog är<br />
noga med att skilja mellan term och (egen)namn (där term är benämning för ett<br />
allmänbegrepp som tillhör ett fackområde medan egennamn är benämning på ett<br />
individualbegrepp). Att säga att ett begreppsnamn är en term blir ganska förvirrande<br />
och missvisande. I ISO 1087 oc h i bilagan till ISO 17115 f inns begreppet<br />
”appellation” med, med synonymen ”name” och definitionen verbal designation of an<br />
individual concept.<br />
Terminologiarbete och begreppsmodellering<br />
Syftena med terminologiarbete respektive begreppsmodellering kan förenklat<br />
beskrivas som i figur 4 nedan.<br />
FIGUR 4. Syftet med metoderna.<br />
Det väsentliga här är vad som är skillnaden mellan ett fackområde och en verksamhet.<br />
Man skulle kunna se det som att ett fackområde, som till exempel vård och omsorg,<br />
kan innefatta en mängd olika verksamheter (ambulanssjukvårdens verksamhet i ett<br />
område kan se annorlunda ut jämfört med ambulanssjukvårdens verksamhet i ett annat<br />
område, men de tillhör samma fackområde). Ofta är begreppsmodeller ett stöd för att<br />
utveckla informationsmodeller för en verksamhet.<br />
I Sverige görs mycket arbete med modellering av olika slag inom vård och omsorg.<br />
I arbetet med att ta fram en nationell informationsstruktur för vård och omsorg<br />
utarbetar man process-, begrepps- och informationsmodeller. Själva projektet<br />
förkortas NI (nationell informationsstruktur) och ett utkast 2<br />
med bilagor finns<br />
2 Reviderad begreppsmodell samt informationsmodell för vård och omsorg − Utgångspunkt för fortsatt utveckling av den<br />
nationella informationsstrukturen. Utkast 3 från projektet Nationell Informationsstruktur (2009-05-18).<br />
NORDTERM 2009, København 9.-12. juni 2009 11
tillgängligt för synpunkter på adress http://www.socialstyrelsen.se/NI. I bilaga 1 till<br />
detta utkast beskrivs bland annat begreppsmodellering. Där sägs följande:<br />
Beroende på om målet är att beskriva ett fackspråk eller att göra en<br />
begreppsmodell för en verksamhet så används olika metoder för begreppsanalys.<br />
Begreppsanalys i begreppsmodellering syftar till att identifiera begrepp inom en<br />
verksamhet genom att åskådliggöra dem och deras relationer till varandra.<br />
Terminologisk begreppsanalys syftar till att identifiera begrepps unika kännetecken<br />
för att kunna formulera textuella definitioner till begreppen inom ett fackområde.<br />
I projektet NI är verksamheten vård och omsorg. Men om verksamheten är lika med<br />
fackområdet borde det inte behövas olika metoder för begreppsanalys utan innehållet i<br />
begreppsmodell och terminologiskt begreppsdiagram borde överensstämma med<br />
varandra. Såsom begreppsanalys är beskrivet i bilaga 1 tycks det snarare handla om en<br />
verksamhetsanalys med fokus på begreppsanvändning och inte en analys av begreppet<br />
självt.<br />
Man måste kunna beskriva hur en verksamhet fungerar och vilken information som<br />
man behöver hålla i verksamheten, men det är inte detsamma som att identifiera och<br />
definiera begrepp (men för att kunna hålla information om begrepp måste begreppen<br />
vara utredda).<br />
Ett annat citat från bilaga 1 lyder<br />
Ett begrepp förklaras av sina samband till andra begrepp. Ju fler samband ett<br />
begrepp beskrivs med desto tydligare blir det.<br />
Ett begrepp blir knappast tydligare ju fler samband det beskrivs med, om inte dessa<br />
samband är särskiljande gentemot relaterade begrepp. För att definiera ett begrepp<br />
behöver man identifiera de särskiljande kännetecknen gentemot relaterade begrepp.<br />
I bilaga 1 finns följande text som förklaring till figur 5 nedan:<br />
Ett begrepp har flera samband som tillsammans förklarar vad som menas med<br />
begreppet. Ordet ”person” kan till exempel betyda många saker. Om vi däremot säger<br />
att ”person äger en bil” så har vi begränsat person till bilägande personer. Om vi<br />
lägger till ett samband till ”person har konto”, så har vi begränsat person ytterligare<br />
till ”bilägande personer med konto”. Om man lägger på ett samband till begreppet<br />
”konto” (till exempel ”konto knutet till oljebolag”) så begränsas inte bara ”konto”<br />
utan också ”person”. Förklaringen eller beskrivningen (”definitionen”) i detta<br />
sammanhang blir alltså ”bilägande personer med konto knutet till oljebolag”.<br />
NORDTERM 2009, København 9.-12. juni 2009 12
FIGUR 5. Exempel på begreppsmodell från bilaga 1 till NI:s Utkast 3.<br />
Det är svårt att förstå syftet med modellen i figur 5 (även om det bara är just ett<br />
exempel). För det första, kan ”person” verkligen betyda många saker? För det andra,<br />
vad är det egentligen som ”definieras” i exemplet? Man får inte veta något om<br />
begreppet person, inte heller om begreppen bil, konto eller oljebolag. Man får veta att<br />
det kan finnas personer som äger bil(ar) och har konto knutet till oljebolag. Men att<br />
säga att detta skulle vara en definition är inte lätt att förstå. En definition av vad? I<br />
vilket sammanhang? På vilka grunder är det en begreppsmodell? Ovanstående<br />
påminner snarare om en informationsmodell (men utan tillhörande attribut), för att<br />
hålla information om att någon kan äga bil och ha konto i oljebolag.<br />
Ytterligare ett citat från bilaga 1:<br />
Man kan också säga att en subklass är en delmängd av superklassen. Till exempel;<br />
mängden av alla Kunder är en delmängd av alla Personer eller med andra ord, en<br />
Kund är också en Person.<br />
Här känns det som man blandar ihop två saker. Det är referenterna till det<br />
underordnade begreppet som utgör en delmängd av referenterna till det överordnade<br />
begreppet. Mängden av alla barrträd är en delmängd av alla träd (på referentnivå), men<br />
begreppet barrträd är en typ av träd.<br />
På motsvarande sätt är det en viss person som kan ha olika roller i olika<br />
sammanhang, inte begreppet person. Terminologiskt skulle man inte säga att till<br />
exempel hälso- och sjukvårdspersonal och patient är olika typer av begreppet<br />
personroll, utan av begreppet person.<br />
Kanske är det denna sammanblandning som gör att exemplet i figur 6 kallas för<br />
begreppsmodell, trots att individuella roller och personbegrepp inte hålls isär<br />
(närstående är en typ av person som är en typ av personroll som innehas av fysisk<br />
person etc.).<br />
NORDTERM 2009, København 9.-12. juni 2009 13
FIGUR 6. Exempel från bilaga 3 till NI:s Utkast 3.<br />
Detta var en beskrivning av begreppsmodellering. I Sverige tycks inte finnas någon<br />
klar samsyn om vad begreppsmodellering är och hur en begreppsmodell ska vara<br />
uppbyggd.<br />
SLUTSATSER<br />
Det behöver tydliggöras att en klassifikation och en termbank inte innehåller<br />
samma typ av information utan har olika syften.<br />
Det är inte helt lätt att utifrån bilaga 1 till NI:s utkast 3 förstå vilket syfte<br />
begreppsmodellen har till skillnad från ett terminologiskt begreppsdiagram när<br />
verksamheten sammanfaller med fackområdet. Här behövs tydligare gränsdragning<br />
och syftesbeskrivning.<br />
När det gäller standarder behöver de kvalitetssäkras. Inom området hälsoinformatik<br />
finns en arbetsgrupp för terminologi, men principerna från ISO/TC 37 tillämpas inte i<br />
tillräcklig grad. Terminologiska begreppsdefinitioner blandas med beskrivningar av<br />
informationsmängder (klasser, kategorier). Dessutom är återanvändningen dålig, det<br />
vill säga varje standard definierar ofta begreppen utifrån själva standardens<br />
avgränsning i stället för utifrån fackområdet i fråga, vilket gör att det förekommer<br />
olika definitioner av samma begrepp i olika standarder.<br />
NORDTERM 2009, København 9.-12. juni 2009 14
REFERENSER<br />
ISO 17115:2007, Health informatics – Vocabulary for terminological systems<br />
ISO 1087-1:2000, Terminology work – Vocabulary – Part 1: Theory and application<br />
Klassifikation av funktionstillstånd, funktionshinder och hälsa (2003) (svensk version av International<br />
Classification of Functioning, Disability and Health, ICF)<br />
Klassifikation av sjukdomar och hälsoproblem 1997 (KSH97) (version 2009) (svensk version av<br />
ICD-10)<br />
NORDTERM 2009, København 9.-12. juni 2009 15
Sikring af Datakvalitet ved Hjælp af Ontologier<br />
Troels Thomsen<br />
Region Hovedstadens it-stab, Koncern IT<br />
København (Hillerød)<br />
Postadr.: Kongens Vænge 2, 3400 Hillerød<br />
Besøgsadr.: Borgervænget 7, 2100 København Ø<br />
Mail: tth@regionh.dk<br />
Abstract. Forudsætningen for genudnyttelse af elektroniske data er strukturerede data. Men<br />
det er ikke nogen triviel sag at tilvejebringe sådanne data. Det kræver, at grundlaget er begrebsafklaret<br />
og at data indtastes og lagres i en struktur, der kan behandles maskinelt. Først da kan data<br />
importeres i eller implementeres i det informationssystem, som de ønskede data skal anvendes<br />
i. Med eksempler belyses, hvad der skal forstås ved strukturerede data og hvorledes anvendelsen<br />
af ontologier kan kvalitetssikre en konsistent begrebsstruktur for data som grundlag for fx modellering<br />
af databaser.<br />
INDLEDNING<br />
Deling, udveksling og genudnyttelse af elektroniske data hører man nu efterhånden<br />
hver dag som den store åbenbaring i sundhedsvæsnet, og ordene har nærmest fået karakter<br />
af et mantra.<br />
Men elektroniske data kan ikke nødvendigvis udveksles vilkårligt efter ønske. Der er<br />
nogle forudsætninger, der skal være opfyldt. Forudsætningerne er ofte noget, der bliver<br />
glemt i euforien over det perspektiv, som rådighed over og adgang til elektroniske<br />
data åbner. Men datakvaliteten er afgørende for, hvad data overhovedet kan bruges til,<br />
og uddata bliver aldrig bedre end inddata!! Derfor er det vigtigt at sikre datakvaliteten.<br />
Mit fremmeste mål med dette indlæg er at gøre opmærksom på nogle strukturelle<br />
forudsætninger for at dele eller udveksle data.<br />
Jeg vil med eksempler fra det virkelige liv i henholdsvis ordbogsverdenen, nemlig<br />
Retskrivningsordbogen, og i Region Hovedstaden fortælle om, hvordan vi bruger begrebsafklaring<br />
og efterfølgende opstilling af mini-ontologier til at sikre datakvaliteten<br />
under udviklingen af nye, kliniske dokumentationssystemer.<br />
Udgangspunktet for udvikling af dokumentationssystemerne er et klinisk materiale,<br />
som dækker 34 medicinske specialer, og som er indsamlet i perioden 2004-2007. Materialet<br />
benævnes Sundhedsfagligt Indhold (SFI) og rummer flere tusinde Word-sider<br />
opsat i skemaer, se et eksempel i FIGUR 4. SFI rummer i princippet de 10 hyppigst<br />
forekommende kliniske interventioner inden for hvert speciale, og der er en vis overlapning.<br />
Sundhedsfagligt indhold handler hovedsageligt om klinisk viden og praksis<br />
som indhold i informationssystemer.<br />
NORDTERM 2009, København 9.-12. juni 2009 16
Men der hersker ikke nogen ensartet struktur af materialet, og dokumentationsarbejdet<br />
er sket på et uensartet grundlag. Derfor kræver materialet ikke blot en opdatering,<br />
det kræver også en begrebsafklaring og sidst, men ikke mindst, en dialog med de<br />
klinikere, der skal bruge indholdet i et informationssystem, altså slutbrugerne.<br />
Begrebsafklaring og dennes rolle i processen som middel til kvalitetssikring af data<br />
beskrives med udgangspunkt i konkret SFI-materiale. Selve arbejdsprocessen og metoden<br />
belyses med eksempler fra et par medicinske specialer, og der gives tillige et par<br />
eksempler på forvandlingen fra de oprindelige word-skemaer til mere strukturerede<br />
data.<br />
DATAKVALITET<br />
Når jeg taler om datakvalitet og især sikring af datakvalitet, så er kvalitet her forstået<br />
som en parameter, man skal definere. Datakvalitet rummer i sig selv ikke noget specielt<br />
positivt eller negativt, men er neutralt. Så i denne sammenhæng handler det om, at<br />
data har den kvalitet, man ønsker. Datakvaliteten handler fx om, hvorvidt data er<br />
strukturerede eller ej. Strukturen fremkommer fx ved, at data lagres i en database, hvor<br />
der er en beskrevet plads til hver informationstype, man indtaster, så man sidenhen<br />
kan søge på disse informationstyper. Det kan være navn, adresse, postnummer eller<br />
systolisk og diastolisk blodtryk.<br />
Derfor vil brugergrænsefladen, grafic user interface (GUI), ofte rumme begrænsninger<br />
på, hvilken slags data, der kan indtastes i hvilket felt.<br />
I det markerede felt kan man således kun indtaste en talværdi:<br />
FIGUR 1: Udkast til brugergrænseflade til dokumentation af observationer af en patients bevidsthedstilstand,<br />
Region Hovedstadens SFI.<br />
NORDTERM 2009, København 9.-12. juni 2009 17
Et minimumskrav til såvel inddata som uddata er, at brugerne af data har mulighed<br />
for at fortolke data ens, så de forstår det samme ved dem. Det kræver så dels, at data er<br />
definerede og at definitionerne er tilgængelige eller formidlet. Det sidste er en organisatorisk<br />
opgave, så den vil jeg ikke komme nærmere ind på her.<br />
Skal man kunne genudnytte data og søge på bestemte datatyper, så kræver det, at<br />
netop disse datatyper kan genfindes i en genkendelig og reproducerbar struktur. Det<br />
betyder omvendt, at data skal bringes ind i systemet på en måde, der sikrer genkendelse<br />
og ønsket struktur, og at de indtastede data er konsistente.<br />
Man må således ikke skifte mellem at måle blodtryk i hPa og mmHg i samme system.<br />
Tilsvarende skal man til ordbogsbrug anvende samme ordklassesystem hele vejen<br />
igennem og ikke skifte mellem et system med otte ordklasser og et system med 10<br />
ordklasser.<br />
STRUKTURERET VS. FRI TEKST<br />
Sammenlign fx en romantekst med en ordbogsartikel.<br />
Romanteksten er en lang kæde af tekststrenge. Tekst er det eneste, man kan søge,<br />
og man kan typisk ikke søge på fx ordklasser. Så selv om man har romanen elektronisk,<br />
kan man ikke søge på fx ordklassen konjunktioner, da de ’elektroniske håndtag’<br />
til at identificere ordklasse og konjunktion mangler. Teksten er ikke blevet tagget med<br />
disse klasser.<br />
Ideelt set er ordbogsartikler af samme type struktureret ens:<br />
• cykel sb., cyk(e)len, cykler.<br />
• cykelanhænger sb., -en, -e, bf. pl. cykelanhængerne.<br />
• cykelbud sb., -det, -e.<br />
• cykelbukser sb. pl.<br />
• cykelhandler sb., -en, -e, bf. pl. cykelhandlerne.<br />
Strukturen er styret af metadata, som det kan ses af FIGUR 2: (metadata er ikke fuldstændige)<br />
NORDTERM 2009, København 9.-12. juni 2009 18
M<br />
e<br />
t<br />
a<br />
d<br />
a<br />
t<br />
a<br />
• cykel sb., cyk(e)len, cykler.<br />
• cykelanhænger sb., -en, -e, bf. pl.<br />
cykelanhængerne.<br />
• cykelbud sb., -det, -e.<br />
• cykelbukser sb. pl.<br />
• cykelhandler sb., -en, -e, bf. pl. cykelhandlerne.<br />
lemma<br />
ordklasse<br />
Datakvalitet i kliniske it-systemer<br />
morfologi<br />
fleksion<br />
S t r u k t u r e r e d e d a t a<br />
FIGUR 2. Uddrag af Retskrivningsordbogen 2001<br />
numerus<br />
bestemthed<br />
Troels Thomsen<br />
I FIGUR 2 er følgende metadata fremhævet: lemma (=opslagsord), ordklasse, morfologi<br />
i form af morfologisk element i alternativ stavning og fleksiver for numerus og<br />
bestemthed. Disse metadata har en indbyrdes rækkefølge og styrer præsentationen af<br />
data. Det betyder også, at man kan søge på værdierne i disse kategorier i den database,<br />
de ligger i. Så eftersom data er beskrevet med metadata og metadata er strukturerede,<br />
har vi strukturerede data. Og hvordan når vi så dertil?<br />
Først og fremmest ved at holde styr på vores metadata:<br />
Struktureret inddatering & konsistens<br />
Metadata Data<br />
Lemma<br />
Ordklasse<br />
Bestemt form,<br />
sing.<br />
Bestemt form,<br />
pl.<br />
…<br />
FIGUR 3. Metadata og data<br />
cykel<br />
sb.<br />
cyk(e)len<br />
cyklerne<br />
Tilladte værdier<br />
vb.<br />
sb.<br />
adj.<br />
adv.<br />
konj.<br />
præp.<br />
pron.<br />
interj.<br />
num.<br />
NORDTERM 2009, København 9.-12. juni 2009 19
Her er vist et begrænset udfaldsrum også kaldet en værdiliste for de data (værdier),<br />
der er tilladt i metadatakategorien ’ordklasse’. Ved kun at tillade denne værdiliste, kan<br />
vi sikre konsistens i inddateringen. Konsistensen sikrer så, at vi kan sammenligne data,<br />
selvfølgelig under forudsætning af, at vi har fortolket data rigtigt og tilordnet dem de<br />
rigtige metadata.<br />
I disse globaliseringstider, hvor der er adgang til store datamængder og hvor behov<br />
for deling af data, især tænkes her på forskningsdata, er kravet til konsistens i data ultimativ.<br />
Skal der foretages sammenligninger, skal man have et defineret grundlag at gå<br />
ud fra.<br />
Forløbig sammenfatning:<br />
• Konsistent terminologi betyder, at såvel metadata som data har fastlagte definitioner,<br />
så både afsender og modtager fortolker samme data ens.<br />
• Konsistente data gør det muligt, at både afsender og modtager forstår det samme<br />
ved samme term.<br />
• Sammenligninger med internationale klassifikationer og terminologisystemer<br />
gør konsistens i såvel egen terminologi som den internationale ultimativ.<br />
To eksempler på hvad begrebsafklaring tilfører datakvaliteten<br />
i sundhedsfaglig applikation<br />
Udgangspunktet for en stor del af de nye applikationer, vi laver i Region Hovedstaden<br />
er et materiale, der blev indsamlet i perioden 2004-2007. Over 30 kliniske specialer<br />
har bidraget til at indsamle klinisk viden, som skal udgøre grundstammen af det sundhedsfaglige<br />
indhold i kliniske informationssystemer. Der ligger ca. 1200 unikke såkaldte<br />
standardplaner som udtryk for sæt af kliniske arbejdsgange. For eksempel<br />
rummer standardplanen Måling af vitale værdier: puls, blodtryk, iltmætning (saturation)<br />
og respiration, se FIGUR 4 nedenfor:<br />
Standardresultat<br />
(S R)<br />
Puls<br />
SR<br />
/værdi<br />
Frekvens<br />
(talværdi<br />
/min)<br />
SR /værdi SR /værdi<br />
SR I<br />
værdi<br />
Regelmæssig Uregelmæssig Fritekst<br />
Blodtryk *systolisk *Diastolisk Målt i hvile<br />
**Målested<br />
Højre<br />
arm<br />
Venstre arm<br />
Manchetstørrelse**<br />
(dropdownliste)<br />
SR Iværdi Kommentar<br />
aldersrelaterede<br />
normalværdier<br />
*(talværdi mmHg)/ (talværdi,<br />
mmHg)<br />
grænseværdier angives<br />
på<br />
afdelings/specialeniveau<br />
**Defaultværdi kan angives<br />
på afdelingsniveau<br />
NORDTERM 2009, København 9.-12. juni 2009 20
*Temperatur Rektalt Øre Oralt Axil Inguen<br />
*Respirationsfrekvens<br />
**Saturation<br />
Sat. målested Finger /Tå<br />
Uden 02 -tilskud Med O2<br />
-tilskud<br />
Uden 02 -tilskud /Med 02tilskud<br />
***Antal liter O2<br />
***Antal I 02<br />
Med<br />
fugter<br />
Med<br />
fugter<br />
Med Hudsonmaske<br />
Med Hudsonmaske<br />
FIGUR 4. Standardplan for måling af vitale værdier, uddrag af: Generel lægelig udredning, objektiv<br />
undersøgelse, s. 31, SFI Hovedstaden<br />
* (talværdi, grader celsius)<br />
* (talværdi/min)<br />
***(talværdi, 1/min)<br />
*(Talværdi i<br />
%)***(talværdi, 1/min)<br />
Men materialet er ikke nødvendigvis konsistent. Der har ikke ligget en egentlig dokumentationsmodel<br />
til grund for indsamlingen, og derfor er datakvaliteten ikke altid<br />
optimal. Så for at fange evt. inkonsistenser eller inkonsekvenser bliver materialet udsat<br />
for terminologisk behandling. Terminologiarbejdet sker altid på grundlag af de enkelte<br />
standardplaner, så det er op til terminologen at sikre terminologien på tværs af disse.<br />
På grund af manglende ressourcer er terminologiarbejdet begrænset til de enkelte<br />
standardplaner, efterhånden som de inddrages i udviklingsprocessen. Dette sikrer<br />
imidlertid ikke terminologien på tværs, altså mellem standardplanerne. Derfor er der<br />
heller ikke sikkerhed for, at terminologien i de nye systemer i sig selv er konsistent.<br />
Optimalt burde terminologiarbejdet således køre i to spor. Et spor, der tager sig af de<br />
enkelte planer, og et spor, der tager sig af den samlede terminologi. Hvis man fx skal<br />
definere blodtryk med typerne systolisk blodtryk, diastolisk blodtryk og middelblodtryk<br />
i forhold til andre tryk, så skulle man som minimum tage de tryktyper med, som<br />
er relevante i den kliniske verden. Og det er temmelig mange. Andre eksempler er:<br />
arterielt tryk, venetryk, osmotisk tryk, ilttryk, partialtryk, hudperfusionstryk og mange<br />
flere Men så ville man også have både overblik over og beskrivelse af tryktyperne, når<br />
man når til de de planer, hvori de indgår, og man ville undgå fejl.<br />
Et eksempel på nogle af uhensigtsmæssigheder fås fra nedenstående eksempel, som<br />
er en del af den standardplan, der hedder Almentilstand, objektiv undersøgelse:<br />
Standardresultat<br />
(SR)<br />
Psykisk neutral<br />
Psykisk påvirket<br />
Opstemt Depressiv Manisk Usammenhængende Psykotisk<br />
FIGUR 5. Uddrag af standardplanen Almentilstand, objektiv undersøgelse, fra Generel lægelig udredning,<br />
SFI-Region Hovedstaden<br />
NORDTERM 2009, København 9.-12. juni 2009 21
Det første, der springer i øjnene, er, at der ikke er noget overbegreb for Psykisk<br />
neutral og Psykisk påvirket, fx Psykisk tilstand. Men måske er de ikke engang sideordnede?<br />
Det næste er, at de kategorier, der nævnes under Psykisk påvirket, ikke tilhører<br />
samme aspekt eller inddelingskriterium, og det skaber uklarhed i kategorien Psykisk<br />
påvirket.<br />
For at skabe mere klarhed over begrebsrelationerne, er der blevet udarbejdet et begrebssystem,<br />
se FIGUR 6, hvor begreberne fra FIGUR5 er blevet indarbejdet:<br />
FIGUR 6. Udsnit af begrebssystemet: Almentilstand_kombi, Region Hovedstadens Begrebsbase<br />
Som det fremgår af FIGUR 6, indgår der flere begreber i beskrivelsen af psykisk tilstand,<br />
end der indgår i FIGUR 5. Derimod indgår Psykisk påvirket ikke. Den er heller<br />
ikke nødvendig, hvis man sætter overbegrebet psykisk tilstand ind. For så kunne man i<br />
skemaet anvende aspekterne stemningsleje og virkelighedsopfattelse. Så ville begre-<br />
NORDTERM 2009, København 9.-12. juni 2009 22
erne for det første få en reflekteret placering, deres indbyrdes relationer ville være<br />
klare, og dokumentationen ville blive bedre.<br />
Imidlertid skal der lige sparkes to sidebemærkninger ind her, og det er for det første,<br />
at de begreber, der optræder i et givet begrebssystem med det formål at begrebsafklare<br />
et område, ikke nødvendigvis vil komme til at optræde på en brugergrænseflade.<br />
Det sker, hvis begreberne ikke er relevante for brugergrænsefladen og dermed dokumentationen<br />
af et givet område. Men de kan sagtens være nødvendige i et begrebssystem.<br />
For det andet kan en term i et begrebssystem sagtens have et synonym på en<br />
brugergrænseflade eller være repræsenteret ved en ikon eller lignende. Det siger ikke<br />
nødvendigvis noget om, hvordan data faktisk lagres i en database.<br />
Et andet eksempel er Ekspektoration fra Almentilstand, objektiv undersøgelse, fra<br />
SFI-standardplanen Generel lægelig udredning. Ekspektoration er det at hoste noget<br />
op, og ekspektoratet er det, der hostes op. I SFI-materialet forventes Ekspektoration<br />
dokumenteret ved hjælp af følgende kategorier:<br />
Standard-<br />
Resultat/<br />
Værdi<br />
Intet ekspektorat<br />
Værdi Værdi Værdi Værdi Værdi<br />
Ekspektoration Klart ekspektorat <br />
Hvidtskummendeekspektorat<br />
Ekspektorat Ekspektorat<br />
med koagler med frisk<br />
blod<br />
Purulent Sejt ekspekto-<br />
ekspektorat rat<br />
FIGUR 7 Standardresultat for observation af ekspektoration. Uddrag af Generel lægelig udredning,<br />
objektiv undersøgelse, s. 29, SFI-Hovedstaden.<br />
Af dette skema fremgår begrebernes indbyrdes relationer ikke klart. Men det må<br />
formodes, at Intet ekspektorat og Ekspektoration, står i opposition til hinanden. Pudsigt<br />
er det, at det så ikke hedder Ingen ekspektoration eller for modpolen blot: Ekspektorat.<br />
Dette ikke mindst, da processen hedder ekspektoration, mens resultatet hedder<br />
ekspektorat.<br />
En rundspørge blandt læger og en efterfølgende terminologisk bearbejdelse af disse<br />
få begreber resulterer i følgende begrebssystem:<br />
NORDTERM 2009, København 9.-12. juni 2009 23
FIGUR 8 Begrebssystemet Modtagelse af patient, Ekspektoration, RegionH’s begrebsbase.<br />
Som det fremgår af FIGUR 8, er der føjet et begreb til, nemlig skummende ekspektorat.<br />
Dette fordi det manglede i det oprindelige materiale. Ekspektorater kan antage<br />
forskellige farver, og der kunne i princippet være anført flere farver, fx ’lyserødt’ eller<br />
’rosa’, som er almindelige.<br />
Det ses også, hvilke kombinationsmuligheder systemet åbner for, idet de to begreber<br />
under aspektet OPACITET er oppositioner ligesom de to begreber under VISKOSI-<br />
TET.<br />
Hvad anvendelsen af disse begreber i et informationssystem angår, så er der nu<br />
klarhed over, hvad der kan kombineres, og dermed hvilke bindinger brugergrænsefladen<br />
skal rumme. Samtidig opnås klarhed over, hvilke kliniske data der kan struktureres<br />
hvorledes, så man opnår konsistent inddatering og efterfølgende mulighed for konsistent<br />
søgning af indtastede data.<br />
OPSUMMERING<br />
Jeg håber med dette indlæg at have skabt en forståelse af såvel vigtigheden som<br />
nødvendigheden af at tænke i at tilvejebringe strukturerede data som grundlag for<br />
genudnyttelse af data. Men det er ikke nogen triviel sag at tilvejebringe sådanne data.<br />
Det kræver, at grundlaget er i orden. At grundlaget er i orden, vil sige, at det er begrebsafklaret<br />
og ligger i en struktur, der kan importeres eller implementeres i det informationssystem,<br />
som de ønskede data skabes i.<br />
Optimalt vil det (afhængigt af forholdene) være at anvende en tospors-løsning, hvor<br />
man på den ene side udarbejder detaljerede (lokale) begrebssystemer, fx blodtryk, og<br />
samtidig på den anden side detaljerede globale begrebssystemer fx tryk, hvori hele eller<br />
dele af lokale begrebssystemer efterhånden vil blive repræsenteret, så man med tiden<br />
får et så fuldstændigt globalt begrebssystem, som det nu er muligt.<br />
NORDTERM 2009, København 9.-12. juni 2009 24
REFERENCER<br />
SFI-Hovedstaden (2007) http://www.regionh.dk/menu/sundhedOghospitaler/SFI.<br />
Dansk Sprognævn (2001) Retskrivningsordbogen, Alinea A/S – Aschehoug Dansk Forlag A/S.<br />
Region Hovedtsadens Begrebsbase, Koncern IT<br />
NORDTERM 2009, København 9.-12. juni 2009 25
’Specialer’ i sundhedsvæsnet i Danmark<br />
Anne-Mette Skou<br />
Region Hovedstaden, Koncern IT, Projektafdelingen<br />
Abstract. Jeg vil i mit indlæg gennemgå resultatet af en undersøgelse af sundhedsvæsnets<br />
anvendelse af begrebet ’speciale’ – og de specialeopfattelser og specialeklassifikationer,<br />
sundhedsvæsnet i Danmark opererer med.<br />
Hvilke specialer findes der? Specialerne er jo på mange måder hele sundhedsvæsnets skelet,<br />
men min undersøgelse har vist, at der ikke er nogen steder, man kan se det i sin helhed. De<br />
forskellige dele ligger forskellige steder, og ikke alle passer sammen. Der er næppe nogen i<br />
sundhedsvæsnet, der ikke mener at vide, hvad et speciale er, og hvilke der findes, men man får<br />
meget forskellige svar, alt efter hvem man spørger.<br />
En guidet rundtur. Jeg vil tage konferencens deltagere med på en rundtur og vise, hvad der<br />
kaldes ’speciale’ og hvordan det, der kaldes ’speciale’, klassificeres i sundhedssektoren med<br />
eksempler fra en række forskellige kildetyper, fx love og bekendtgørelser, nogle af<br />
Sundhedsstyrelsens klassifikationer og registre, medicinske selskabers websites, sundhedsfaglige<br />
råd og Region Hovedstadens hospitalsplanlægning.<br />
Hvad det drejer sig om. Fx er ’mammakirurgi’ (brystkirurgi) ikke et speciale iflg. lovgivningen<br />
om uddannelse af speciallæger, men indeholdt i det lægelige speciale ’kirurgi’. Men folk, der<br />
planlægger, hvilke former for behandling, der skal være på hvilke hospitaler, taler om ’specialet<br />
mammakirurgi’. Og fx er specialerne ’thoraxkirurgi’ og ’plastikkirurgi’ i lovgivningen om<br />
uddannelse af speciallæger klassificeret som ’kirurgiske specialer’, mens fx ’øjenkirurgi’ ikke er<br />
det.<br />
Én national specialeklassifikation vil være et uvurderligt redskab til forbedring af<br />
datakvalitet. Pointen – som efter rundturen vil være indlysende - er, at det virkelig vil kunne<br />
betale sig for sundhedssektoren at gennemføre et nationalt oprydningsprojekt og udarbejde en<br />
samlet national klassifikation – eller ontologi – et egentligt begrebssystem med termer,<br />
synonymer, definitioner og øvrige oplysninger i terminografiske artikler. Det vil være et<br />
uvurderligt redskab i udviklingen af den digitale forvaltning af sektoren - af arbejdet med<br />
udvikling af de af sundhedsvæsnets it-systemer, der i tabelværkerne anvender klassifikationer af<br />
specialer og fænomener, der er ’specialespecifikke’ og ’specialerelaterede’.<br />
HISTORIEN OM ONTOLOGIEN,<br />
DER IKKE ER UDARBEJDET<br />
NORDTERM 2009, København 9.-12. juni 2009 26
Jeg foretog i foråret en undersøgelse, der viste, at det danske sundhedsvæsen ikke<br />
har én, samlet specialeontologi. Det overraskede mig, da jeg troede, at udarbejdelse af<br />
en sådan ville være noget af det første, man ville forestage sig som led i<br />
digitaliseringen af sundhedssektoren. Dette indlæg giver et lille indblik i – men<br />
absolut ikke et fuldstændigt billede af – hvilke former for oversigter og<br />
systematiseringer af ’specialer’, der arbejdes med i det danske sundhedsvæsen.<br />
Nedenstående gengivelse af mit indlæg indeholder ikke alle plancer, som blev<br />
præsenteret på konferencen.<br />
Koncern IT<br />
Hvilke specialer findes der?<br />
3<br />
www.regionh.dk<br />
Man får forskellige svar på det spørgsmål, alt efter hvor man spørger. Den seneste<br />
bekendtgørelse 1 om uddannelse af speciallæger indeholder 38 lægelige specialer =<br />
fagområder, inden for hvilke man kan specialisere sig som læge i det danske<br />
sundhedsvæsen. Disse specialer er følgende:<br />
Almen medicin<br />
Anæstesiologi<br />
Arbejdsmedicin<br />
Børne- og ungdomspsykiatri<br />
Dermato-venerologi (hud- og kønssygdomme)<br />
1 BEK nr 1248 af 24/10/2007<br />
https://www.retsinformation.dk/Forms/R0710.aspx?id=105090<br />
NORDTERM 2009, København 9.-12. juni 2009 27
Diagnostisk radiologi (røntgenundersøgelse)<br />
Gynækologi og obstetrik (kvindesygdomme og fødselshjælp)<br />
Intern medicin: endokrinologi (medicinske hormonsygdomme)<br />
Intern medicin: gastroenterologi og hepatologi (medicinske mave-tarm- og leversygdomme)<br />
Intern medicin: geriatri (alderdommens sygdomme)<br />
Intern medicin: hæmatologi (blodsygdomme)<br />
Intern medicin: infektionsmedicin<br />
Intern medicin: kardiologi (medicinske hjerte- og kredsløbssygdomme)<br />
Intern medicin: lungesygdomme<br />
Intern medicin: nefrologi (medicinske nyresygdomme)<br />
Intern medicin: reumatologi (gigtsygdomme)<br />
Kirurgi (kirurgiske sygdomme)<br />
Karkirurgi (kirurgiske blodkarsygdomme)<br />
Plastikkirurgi (plastik- og rekonstruktionskirurgi)<br />
Thoraxkirurgi (brysthulens kirurgiske sygdomme)<br />
Urologi (urinvejenes kirurgiske sygdomme)<br />
Klinisk biokemi<br />
Klinisk farmakologi<br />
Klinisk fysiologi og nuklearmedicin<br />
Klinisk genetik<br />
Klinisk immunologi<br />
Klinisk mikrobiologi<br />
Klinisk onkologi (kræftsygdomme)<br />
Neurokirurgi (kirurgiske nervesygdomme)<br />
Neurologi (medicinske nervesygdomme)<br />
Oftalmologi (øjensygdomme)<br />
Ortopædisk kirurgi<br />
Oto-rhino-laryngologi (øre-næse-halssygdomme)<br />
Patologisk anatomi og cytologi (vævs- og celleundersøgelser)<br />
Psykiatri<br />
Pædiatri (sygdomme hos børn)<br />
Retsmedicin<br />
Samfundsmedicin<br />
Kigger man på Dansk Medicinsk Selskabs website2, får man et andet svar. Dansk<br />
Medicinsk Selskab, DMS, er ”aktuelt en sammenslutning af 115 danske<br />
lægevidenskabelige selskaber med 22.883 medlemmer.”<br />
DMS klassificerer de lægevidenskabelige selskaber i hhv. ’specialebærende’ og ’ikkespecialebærende’<br />
selskaber og siger herom: ”Medlemsselskaberne fordeler sig på 38<br />
såkaldt specialebærende, som varetager de lægevidenkabelige områder der danner<br />
basis for specialestrukturen jvf. Indenrigs- og Sundhedsministeriets bekendtgørelse<br />
herom.”<br />
”De øvrige 77 ikke-specialebærende selskaber repræsenterer lægevidenskabelige<br />
områder, som er dele af specialerne (enkelte diagnoser eller kliniske områder) eller<br />
kliniske områder mellem flere specialer. En del af disse områder er eller vil blive<br />
etablerede som fagområder.”<br />
Der er 38 specialebærende selskaber, men ikke 38 specialer herunder. Der er to<br />
selskaber, der tilsammen dækker det, der engang var 2, men i dag et ét speciale,<br />
nemlig ’ gastroenterologi og hepatologi' . Til gengæld står specialet<br />
2 Citater fra DMS’s website i denne skriftlige udgave af indlægget er fra 11. august 2009.<br />
http://www.dms.dk/app/plsql/dms_forside.frz<br />
NORDTERM 2009, København 9.-12. juni 2009 28
’samfundsmedicin’ (som er indeholdt i bekendtgørelsen om uddannelse af<br />
speciallæger som et ’fagområde’.<br />
Koncern IT<br />
37 specialer – 38 selskaber<br />
samfundsmedicin mangler<br />
72 (fag)områder<br />
– herunder samfundsmedicin<br />
9<br />
www.regionh.dk<br />
Kigger man i SKS, får man også et andet svar. ’SKS’ er Sundhedsvæsnets<br />
KlassifikationsSystem, som kan tilgås fra Sundhedsstyrelsens website3. SKS består af<br />
flere tusinde koder, som brugers til at levere struktureret information til forskellige<br />
informationssystemer.<br />
I SKS finder man – under ’specialerelaterede tillægskoder ZN’ - følgende:<br />
o ZNA<br />
o ZNAA: de 38 lægelige specialer, der er i ovennævnte bekendtgørelse<br />
o ZNAB: 55 lægelige specialer efter tidligere bekendtgørelser<br />
o ZNAC: 11 ’Andre sundhedsfaglige områder’<br />
o ZNB: 10 ’Andre sundhedsfaglige specialer’.<br />
Dvs. i alt 114 koder. Der er ingen oplysninger om, hvad forskellen er på hhv. ’lægeligt<br />
speciale’, ’andet sundhedsfagligt område’ og ’andet sundhedsfagligt speciale’.<br />
’Andre sundhedsfaglige områder’ og ’andre sundhedsfaglige specialer’ er hhv.:<br />
3 http://www.sst.dk/Indberetning%20og%20statistik/Klassifikationer/Hvad_er_SKS.aspx<br />
http://www.sst.dk/Indberetning%20og%20statistik/Klassifikationer/Hvad_er_SKS/SKS_tabel.aspx<br />
http://www.medinfo.dk/sks/brows.php<br />
NORDTERM 2009, København 9.-12. juni 2009 29
11 Andre sundhedsfaglige områder, SKS/ZNAC<br />
Koncern IT<br />
14<br />
www.regionh.dk<br />
10 Andre sundhedsfaglige specialer, SKS/ZNB<br />
Koncern IT<br />
15<br />
www.regionh.dk<br />
Kigger man i ’Lov om autorisation af sundhedspersoner og om sundhedsfaglig<br />
virksomhed’, finder man følgende sundhedsfaglige uddannelser ud over ’læge’.<br />
NORDTERM 2009, København 9.-12. juni 2009 30
Koncern IT<br />
19<br />
www.regionh.dk<br />
Et andet sted på Sundhedsstyrelsens website finder man denne liste med<br />
sundhedsfaglige uddannelser. Den indeholder de samme som loven ovenfor, men har<br />
flere. Der er også en gruppe, der kaldes ’Øvrigt sundhedspersonale’.<br />
Koncern IT<br />
20<br />
www.regionh.dk<br />
NORDTERM 2009, København 9.-12. juni 2009 31
’Øvrigt sundhedspersonale’ rummer 5 sundhedsfaglige uddannelser, der ikke<br />
forekommer i nogle af de øvrige ovenstående lister. Én af dem, Hospitalsteknisk<br />
assistent, underinddeles yderligere i specialer.<br />
Koncern IT<br />
Koncern IT<br />
21<br />
www.regionh.dk<br />
22<br />
www.regionh.dk<br />
NORDTERM 2009, København 9.-12. juni 2009 32
I Region Hovedstadens Hospitalsplan figurerer en række specialer (kaldet både<br />
’specialer’, ’funktioner’, ’enheder’ og andre udtryk), hvoraf nogle - men ikke alle - er<br />
lægelige specialer iht. bekendtgørelse herom. Nogle svarer til det, der kaldes<br />
’fagområde’ af DMS, og enkelte er hverken specialer eller fagområder iht.<br />
behendtgørelse og DMS.<br />
Ikke lægelige eller<br />
tandlægelige specialer iht. BEK’er<br />
om speciallæger og -tandlæger<br />
Fagområder iht. dms.dk:<br />
•Akutmedicin<br />
•Intensiv medicin<br />
•Mammakirurgi<br />
•Børnekirurgi<br />
•Palliativ medicin<br />
•Medicinsk allergologi<br />
Hverken speciale eller fagområde<br />
Koncern IT<br />
27<br />
www.regionh.dk<br />
I hospitalsplanen ses endvidere en række specifikationer eller underinddelinger, der<br />
ikke ses i nogen af de andre kilder, fx<br />
• børnekirurgi<br />
• kirurgi på børn<br />
• kirurgi på børn < 2 år<br />
• kirurgi på børn > 2 år<br />
• mammakirurgi<br />
• idrætsklinik<br />
• øjenkirurgi<br />
Endvidere indeholder hospitalsplanen en række begreber (her vist som udkast til et<br />
begrebssystem i i-Term), der er udtryk for politisk-organisatoriske aspekter, som<br />
kombineres med specialerne iht. politiske beslutninger. Man kan fx skelne mellem<br />
’akut kirurgi’ (= ved ulykker) og ’elektiv kirurgi’ (= planlagte operationer, hvor<br />
NORDTERM 2009, København 9.-12. juni 2009 33
patienterne få en tid). En ontologi, som også indeholder disse begreber, vil tydeligvis<br />
blive stærkt polyhierarkisk.<br />
Og så er der også …<br />
Koncern IT<br />
29<br />
www.regionh.dk<br />
Kigger man på hospitalers og hospitalsafdelingers websites, vil man opdage, at der<br />
er endnu flere ’specialer’ end ovenfor nævnt.<br />
Koncern IT<br />
30<br />
www.regionh.dk<br />
NORDTERM 2009, København 9.-12. juni 2009 34
Klassifikationstendenser<br />
Der er ikke mange klassifikationstendenser – og dem der er, er ikke gennemført. I<br />
bekendtgørelsen om uddannelse af speciallæger er der to grupperinger: ’intern<br />
medicinske specialer’ og ’kirurgiske specialer’. Resten af specialerne er anført i<br />
alfabetisk rækkefølge.<br />
Koncern IT<br />
Neurokirurgi?<br />
Ortopædisk kirurgi?<br />
Hvorfor er der kirurgiske specialer,<br />
der ikke er kirurgiske specialer?<br />
Og som man kan se, er der ikke enighed om den sag!<br />
1<br />
www.regionh.dk<br />
NORDTERM 2009, København 9.-12. juni 2009 35
Koncern IT<br />
35<br />
www.regionh.dk<br />
I hospitalsplanen forekommer begreber, der er overbegreber til de tidligere nævnte<br />
specialer i hospitalsplanen. Men der findes ikke en egentlig klassifikation. Det er for<br />
det meste uklart, hvilke konkrete specialer, der hører under hvilke af disse<br />
overbegreber:<br />
o somatisk speciale<br />
o psykiatrisk speciale<br />
o sygehusspeciale<br />
o sygehusbaseret lægefagligt speciale<br />
o klinisk speciale<br />
o paraklinisk funktion<br />
o laboratoriespeciale<br />
o tværgående laboratoriespeciale<br />
o diagnostisk speciale<br />
o laboratoriediagnostisk speciale<br />
o billeddiagnostisk speciale<br />
o kvinde-barn-speciale<br />
o hjerte-lunge-område<br />
o neuro-område<br />
o neurospeciale<br />
o intern medicin<br />
o almen intern medicin<br />
Alt i alt viste undersøgelsen, at ’speciale’ er en homograf, som anvendes i (mindst)<br />
4 betydninger.<br />
NORDTERM 2009, København 9.-12. juni 2009 36
1. emne, område, foretagende el. andet som nogen er særlig god til el. har stor<br />
viden om<br />
I sundhedsvæsnet:<br />
a. primært uddannelsesområde, fx lægevidenskab, sygepleje og fysioterapi<br />
b. gren herunder, fx audiologi (audiologiassistent)<br />
c. videreuddannelsesområde, fx onkologi, tand-, mund- og kæbekirurgi<br />
d. gren herunder, fx mammakirurgi, audiologi og trykkammerbehandling<br />
e. variation, fx hospitalssocialrådgivning<br />
2. en funktion/funktionel enhed, der varetager opgaver inden for et videnområde,<br />
fx en ’kirurgisk funktion’, ’elektiv kirurgisk funktion’ eller ’elektiv kirurgi’<br />
3. en konkret organisatorisk enhed<br />
fx ’Kirurgisk Afdeling’ på Hillerød Hospital<br />
4. et ’samfund’ der kan karakteriseres som en organisme, der består af mange<br />
forskellige elementer, der lever i indbyrdes overlap og afhængighed og<br />
gensidig påvirkning,<br />
”inden for kirurgi siger man, at …”<br />
Så også her er det vigtigt at vide, hvornår det er vigtigt at vide, hvad man taler om!<br />
NORDTERM 2009, København 9.-12. juni 2009 37
Begrebsafklaring inden for området<br />
enzymkemi<br />
Ture Damhus a,b,c , Peder Olesen Larsen d , Bodil Nistrup Madsen e,f and<br />
Sine Zambach g<br />
a Novozymes A/S, DK-2880 Bagsværd, tda@novozymes.com<br />
b Kemisk Forenings Nomenklaturudvalg<br />
c Sekretær, IUPAC Division VIII<br />
d Kemisk Forenings Nomenklaturudvalg, pol@webspeed.dk<br />
e DANTERMcentret, Copenhagen Business School, DK-2000 Frederiksberg, bnm.danterm@cbs.dk<br />
f Formand for ISO TC 37, SC 3 Systems to manage terminology, knowledge and content<br />
g Datalogi, Institut for Kommunikation, Virksomhed og Informationsteknologier, Roskilde Universi-<br />
tet, DK-4000 Roskilde, sz@ruc.dk<br />
Abstract. Faget og forskningsområdet kemi har en lang tradition for at organisere og standardisere<br />
– for eksempel navne på kemiske forbindelser i systematisk nomenklatur og grundstofferne<br />
i det periodiske system. IUPAC (International Union of Pure and Applied Chemistry) har lagt et<br />
stort arbejde i at samle terminologien for kemiske begreber i the Gold Book, som i dag er tilgængelig<br />
via Gold Book on-line (IUPAC 2006). Vi har gennemført et pilotprojekt, der har til<br />
formål at vise, at definitionerne af begreber inden for enzym- og proteinkemi i IUPAC Gold<br />
Book on-line (2006) kan forbedres, hvis der anvendes terminologiske metoder (jf. for eksempel<br />
Madsen et al. 2006). Vi foreslår, at der udarbejdes terminologiske ontologier (begrebssystemer)<br />
som basis for udarbejdelsen af definitionerne af de kemiske begreber. Vi har modelleret eksempler<br />
fra underdomænerne enzyminhibering og proteinstruktur. Dette har medført en række afklaringer<br />
og har endvidere afdækket områder for videre udforskning.<br />
BAGGRUND FOR PROJEKTET<br />
Videnskabelig kommunikation foregår overvejende på engelsk. Der er imidlertid et<br />
stort behov for dansk terminologi inden for naturvidenskabeligt sprog:<br />
• Vi skal kunne undervise på dansk i for eksempel fysik og kemi i folkeskolen<br />
og gymnasiet.<br />
• Det skal være muligt at formidle forskningsresultater, produktbeskrivelser<br />
m.m. på dansk.<br />
• Danske naturvidenskabsstuderende har brug for danske termer og definitioner<br />
for bedre at kunne forstå undervisning på engelsk.<br />
• Medierne (talte, trykte, elektroniske) har brug for et alment accepteret og præcist<br />
sprog til behandling af videnskabelige emner.<br />
• Myndighederne skal kunne formulere love og bekendtgørelser og retssystemet<br />
behandle sager på dansk med videnskabeligt indhold.<br />
NORDTERM 2009, København 9.-12. juni 2009 38
FORMÅLET MED PROJEKTET<br />
Vi satte os derfor oprindeligt som mål at undersøge mulighederne for at skabe en<br />
kodificeret dansk kemisk terminologi, i første omgang inden for enzymkemi, og at<br />
oprette en termbase med dansk og engelsk terminologi, baseret på internationale anbefalinger.<br />
Som udgangspunkt for dette var det nødvendigt at undersøge eksisterende<br />
international terminologi inden for enzymkemi. Vores arbejde med dette bekræftede<br />
vores formodninger om, at det ville være nødvendigt at udarbejde forslag til forbedringer<br />
og suppleringer af den eksisterende engelske terminologi inden for området, da<br />
der kunne konstateres en række problemer. Vi har derfor gennemført et pilotprojekt<br />
med det formål at vise, at de eksisterende definitioner kan forbedres, hvis der anvendes<br />
terminologiske metoder, ifølge hvilke definitionerne udarbejdes på basis af analyse<br />
af begrebernes karakteristiske træk og af ontologier (begrebssystemer), jf. for eksempel<br />
Madsen et al. (2006).<br />
PROBLEMER I DE EKSISTERENDE OPSLAGSVÆRKER<br />
Som grundlag for pilotprojektet har vi anvendt følgende opslagsværker: IUPAC Gold<br />
Book on-line og The Oxford Dictionary of Biochemistry and Molecular Biology,<br />
ODBMB (2006).<br />
Vi har konstateret følgende problemer med definitionerne i de eksisterende kilder:<br />
1. Definitionerne er af og til indbyrdes inkonsistente.<br />
2. Definitionerne indeholder ofte informationer, som kan betragtes som supplerende<br />
informationer, hvorved fås lange og mindre klare definitioner.<br />
3. Definitionerne er ikke baseret på en ontologi som viser specificerede relationer<br />
mellem begreberne.<br />
4. Uoverensstemmelser mellem IUPAC Gold Book on-line og ODBMB (2006).<br />
5. I nogle tilfælde hersker der faglig uenighed om definitionerne af et begreb.<br />
6. De forskellige kemiske grene forstår typisk begreber lidt forskelligt. For eksempel<br />
forstås begrebet proteinstruktur af røntgenkrystallografer nok ofte som<br />
koordinaterne i et krystalliseret protein, mens molekylærbiologer måske er mere<br />
tilbøjelige til at opfatte strukturen som summen af de (til dels mindre stringent<br />
definerede) strukturelementer, der omtales nedenfor (primær, sekundær<br />
osv.).<br />
Vi fokuserer i det følgende på problemet med inkonsistente og lange definitioner,<br />
der ikke er baseret på en ontologi (problem 1. og 2.) Problemet med inkonsistente definitioner<br />
kan i mange tilfælde føres tilbage til manglen på klare relationer mellem<br />
begreberne.<br />
I Gold Book on-line præsenteres begreberne i såkaldte ”interactive link maps”,<br />
som er baseret på de links mellem begreber, som findes i forbindelse med definitionerne.<br />
Der er dog en række problemer med begrebsrelationerne i Gold Book on-line:<br />
1. Relationstyperne er ikke anført, og det er dermed ikke muligt at skelne mellem<br />
typerelationer, del-helheds-relationer og associative relationer.<br />
NORDTERM 2009, København 9.-12. juni 2009 39
2. Det er derfor heller ikke muligt at skelne mellem et begrebs overbegreber og<br />
dets andre relaterede begreber.<br />
3. Der er således ikke tale om egentlige ontologier, og begrebsrelationerne kan<br />
ikke anvendes som grundlag for definitioner som opfylder kravet til terminologiske<br />
definitioner: anførelse af nærmeste overbegreb og adskillende træk.<br />
I de tre næste figurer vises et interactive link map fra Gold Book on-line, hvor begrebet<br />
primary structure er det centrale. Figurerne viser tre detaljeringsgrader af det<br />
pågældende interactive link map.<br />
FIGUR 1. Interactive link map for primary structure – First level (Gold Book on-line)<br />
NORDTERM 2009, København 9.-12. juni 2009 40
FIGUR 2. Interactive link map for primary structure – udsnit af Second level (Gold Book on-line)<br />
NORDTERM 2009, København 9.-12. juni 2009 41
FIGUR 3. Interactive link map for primary structure – udsnit af Third level (Gold Book on-line)<br />
Som det fremgår af figur 1 og 2 er der i nogle tilfælde to relationer mellem to begreber,<br />
markeret med forskellig retning, for eksempel mellem primary structure og<br />
secondary structure. Men det fremgår ikke, hvilke typer relationer der er tale om. Et<br />
bud er, at der i forbindelse med definitionen for begge begreber er en henvisning til<br />
det andet begreb. Figur 3 illustrerer endnu tydeligere, hvor vanskeligt, det er at få forståelse<br />
for begrebernes sammenhæng og betydning ud af det store virvar af relationer.<br />
NORDTERM 2009, København 9.-12. juni 2009 42
FORSLAG TIL ONTOLOGI OG NYE DEFINITIONER TIL BE-<br />
GREBER RELATERET TIL MOLECULAR STRUCTURE<br />
I figur 4 vises et første udkast til en delontologi for molecular structure. Diagrammet<br />
er fremstillet i begrebsmodelleringsmodulet i-Model, som er en del af terminologi-<br />
og videnshåndteringsværktøjet i-Term, udviklet af DANTERMcentret. I diagrammerne<br />
repræsenteres begreberne af bokse indeholdende systematiske notationer og de<br />
foretrukne termer. For relationerne er der anvendt følgende signaturer:<br />
FIGUR 4. Første udkast til ontologi for molecular structure<br />
Ved en nærmere analyse af begrebernes karakteristiske træk, kunne dette første udkast<br />
ændres til forslaget i figur 5. De fire niveauer for struktur, primary, secondary,<br />
tertiary og quaternary structure bliver typisk brugt sammen til at beskrive en struktur.<br />
Primary structure har den egenskab, at den definerer en sekvens af byggeklodser,<br />
hvilket for proteinstruktur er rækkefølgen af aminosyrer. Dette gør, at dette begreb<br />
adskiller sig fra de tre andre begreber ved at repræsentere en del af konstitutionen<br />
(constitution) af en molekylær struktur snarere end en del af konformationen (conformation).<br />
NORDTERM 2009, København 9.-12. juni 2009 43
De karakteristiske træk er anført i form af trækspecifikationer under begreberne, for<br />
eksempel LEVEL: sequence of building blocks til begrebet primary structure. Boksene,<br />
som grupperer underbegreber til et begreb, indeholder inddelingskriterier (anført<br />
med versaler). Figur 5 er ufuldstændig, og der er udeladt nogle begreber i forhold til<br />
figur 4.<br />
FIGUR 5. Nyt udkast til ontologi for molecular structure<br />
I figur 6 vises definitionerne for de tre begreber primary structure, secondary structure<br />
og tertiary structure i hhv. ODBMB og Gold Book on-line. Endvidere vises de<br />
karakteristiske træk, definitioner og kommentarer, som er udarbejdet i forbindelse med<br />
pilotprojektet og indlæst i databasen.<br />
NORDTERM 2009, København 9.-12. juni 2009 44
Concept Definition from ODBMB Definition from Gold Book<br />
on-line<br />
primary<br />
structure<br />
secondary<br />
structure<br />
tertiary<br />
structure<br />
The first order of complexity<br />
of structural organization exhibited<br />
by polypeptide and protein<br />
molecules, and by polynucleotide<br />
and nucleic-acid molecules.<br />
When applied to a segment<br />
of a polypeptide chain, or to a<br />
polypeptide or protein molecule,<br />
it refers to the linear sequence<br />
of the amino-acid residues<br />
of the polypeptide<br />
chain(s), without regard to<br />
spatial arrangement, apart from<br />
configuration at the α-carbon<br />
atoms (and excluding positions<br />
of any disulfide bonds).<br />
Arrangement of the polypeptide<br />
structure into locallyorganised,<br />
hydrogen-bonded<br />
structures, in particular αhelices<br />
and β sheets<br />
The level of protein structure<br />
at which an entire polypeptide<br />
chain has folded into a 3-D<br />
structure. The tertiary structure<br />
results from interactions between<br />
amino-acid residues that<br />
may be widely separated in the<br />
primary structure, but may be<br />
brought into proximity by the<br />
folding of the polypeptide<br />
chain.<br />
In the context of macromolecules<br />
such as proteins,<br />
constitutional formula,<br />
usually abbreviated to a<br />
statement of the sequence<br />
and if appropriate crosslinking<br />
of chains.<br />
The conformational arrangement<br />
(α-helix, βpleated<br />
sheet, etc.) of the<br />
backbone segments of a<br />
macromolecule such as a<br />
polypeptide chain of a protein<br />
without regard to the<br />
conformation of the side<br />
chains or the relationship to<br />
other segments.<br />
The spatial organization<br />
(including conformation) of<br />
an entire protein molecule<br />
or other macromolecule<br />
consisting of a single chain.<br />
Characteristic<br />
feature<br />
LEVEL:<br />
sequence of<br />
building blocks<br />
LEVEL:<br />
localised structure<br />
LEVEL:<br />
entire molecule<br />
Definition proposal based on<br />
the concept diagram and<br />
comments<br />
sequence of building blocks in a<br />
linear macromolecule, such as<br />
the sequence of amino acid<br />
residues in a polypeptide chain<br />
part of the conformation of a<br />
polypeptide (or other macromolecule)<br />
specifying the internal<br />
spatial arrangement of individual<br />
backbone segments<br />
without regard to the conformation<br />
of side chains or the<br />
relationship to other segments<br />
Comment: The segments are<br />
typically organised via hydrogen<br />
bonds. Examples of secondary<br />
structure elements are<br />
α-helices and β-pleated sheets in<br />
polypeptides.<br />
FIGUR 6. Eksempler på definitioner fra ODBMB, Gold Book on-line og forslag til nye definitioner<br />
De to definitioner af primary structure fra hhv. ODBMB og Gold Book on-line adskiller<br />
sig mht. om cross-linking kan betragtes som en del af primary structure.<br />
part of the conformation of<br />
an entire polypeptide (or other<br />
macromolecule consisting of a<br />
single chain) specifying the<br />
spatial arrangements of all<br />
backbone segments relative to<br />
each other<br />
Comment: The tertiary structure<br />
results from interactions between<br />
amino-acid residues that<br />
may be widely separated in the<br />
primary structure, but may be<br />
brought into proximity by the<br />
folding of the polypeptide<br />
chain.<br />
NORDTERM 2009, København 9.-12. juni 2009 45
Derudover er definitionerne for de tre begreber primary structure, secondary structure<br />
og tertiary structure udformet forskelligt. Definitionerne i ODBMB indledes med<br />
hhv. 'first order of complexity of structural organization,' 'arrangement of ... structure'<br />
og 'level of structure'. Gold Book on-line har heroverfor 'constitutional formula ... abbreviated<br />
to sequence', 'conformational arrangement' og 'spatial organization'.<br />
Ifølge terminologiske principper skal definitioner af sideordnede begreber, som har<br />
samme overbegreb, indledes med netop dette overbegreb, og derefter skal de adskillende<br />
træk anføres. Hvis der er tale om en del-helheds-relation, kan der anføres det<br />
nærmeste helhedsbegreb.<br />
Dette princip er overholdt for de to sideordnede begreber secondary structure og<br />
tertiary structure, som indledes med ’part of the conformation of’, og trækspecifikationen<br />
for det adskillende karakteristiske træk vedrører i begge tilfælde LEVEL. Disse<br />
definitioner er således baseret på ontologien i figur 5. Ideelt set bør de karakteristiske<br />
træk fremgå eksplicit af definitionerne, hvilket vil gøre det lettere for en ikkefagkyndig,<br />
som skal sætte sig ind i et nyt område, at forstå definitionerne.<br />
Endelig skal det fremhæves, at definitionerne fra ODBMB indeholder mere end det<br />
som er nødvendigt for at definere termen. I den database, som er oprettet til pilotprojektet,<br />
findes disse supplerende informationer i et kommentarfelt.<br />
Første Udkast til ontologi for inhibition<br />
Ontologien i figur 7 afklarer forskellene mellem en række underbegreber til begrebet<br />
inhibition.<br />
FIGUR 7. Udkast til ontologi for inhibition<br />
NORDTERM 2009, København 9.-12. juni 2009 46
I figur 8 vises definitionerne til de tre begreber allosteric inhibition, substrate inhibition<br />
og product inhibition. Af figur 7 fremgår det at disse tre begreber adskiller sig<br />
mht. MECHANISM, og derfor skulle definitionerne for disse begreber fokusere på<br />
mechanism. Dette fremgår imidlertid ikke af definitionerne fra ODBMB i figur 8, hvor<br />
de karakteristiske træk fra i figur 7 også er vist.<br />
Concept Definition from ODBMB Characteristic feature<br />
allosteric inhibition Any inhibition of an enzyme by<br />
a negative allosteric effector.<br />
substrate inhibition The inhibition of an enzyme's<br />
activity by its substrate by an allosteric<br />
mechanism.<br />
product inhibition The inhibition of an enzymic reaction<br />
caused by increased concentration<br />
of one or more products of<br />
that reaction<br />
MECHANISM:<br />
the inhibitor binds at a place different<br />
from the active site<br />
MECHANISM:<br />
the substrate itself is the inhibitor<br />
MECHANISM:<br />
a product of the reaction is the inhibitor<br />
FIGUR 8. Definitioner fra ODBMB og tilsvarende karakteristiske træk fra termbasen<br />
Brud på princippet om adskillende træk<br />
Ifølge de principper for opbygning af ontologier, som er foreslået i forbindelse med<br />
udviklingen af en prototype i CAOS-projektet, Computer-Aided Ontology Structuring,<br />
jf. for eksempel Madsen og Thomsen (2006), skal to sideordnede begreber altid adskilles<br />
af ét karakteristisk træk. De fire begreber i figur 7, som er underbegreber til<br />
reversible inhibition, adskiller sig mht. trækket KINETICS, som er et sammensat træk,<br />
hvis værdi består af to trækspecifikationer med attributterne: MICHAELIS CON-<br />
STANT og MAXIMUM RATE.<br />
Dette kan accepteres hvis ontologien primært skal bruges til begrebsafklaring, men<br />
hvis det nævnte princip skal overholdes, og hvis man vil formalisere ontologier mhp.<br />
konsistenskontrol skal ontologien i figur 7 ændres.<br />
Løsningen kan for eksempel være at introducere et niveau af ”kunstige” begreber<br />
mhp. at opnå polyhierarki. Disse “kunstige” begreber eksisterer logisk set, men er ikke<br />
leksikaliseret. Dette fænomen er ikke ualmindeligt.<br />
Nyt udkast til ontologi for inhibition<br />
I figur 9 introduceres tre begreber, som adskiller sig mht. MICHAELIS CONSTANT,<br />
og to begreber, som adskiller sig mht. MAXIMUM RATE. På denne måde får de fire<br />
begreber på det laveste niveau to overordnede begreber (polyhierarki) og dermed arver<br />
de ét karakteristisk træk fra hvert overordnet begreb. Yderligere forskning inden for<br />
området enzymkemi kan evt. lede til forslag om andre løsninger. Diagrammet i figur 9<br />
NORDTERM 2009, København 9.-12. juni 2009 47
er anvendt i det forsøg som er udført med implementering af de her nævnte ontologier<br />
i Protegé vha. OWL-DL, jf. Zambach & Madsen (2009).<br />
FIGUR 9. Nyt udkast til ontologi for inhibition<br />
NORDTERM 2009, København 9.-12. juni 2009 48
Ud over indførelsen af de ekstra begreber i figur 9 er inddelingskriteriet og trækspecifikationerne<br />
for de tre begreber allosteric inhibition, substrate inhibition og product<br />
inhibition ændret. Det der karakteriserer begrebet allosteric inhibition er trækket BIN-<br />
DING SITE OF INHIBITOR, medens de to begreber substrate inhibition og product<br />
inhibition adskiller sig mht. INHIBITOR OF PROCESS. Værdierne til trækket ME-<br />
CHANISM i figur 7 svarede nærmest til hele forklaringer, for eksempel: ’the substrate<br />
itself is the inhibitor’ på begrebet substrate inhibition. I figur 9 er de ændret til kortere<br />
formuleringer, for eksempel for substrate inhibition er værdien til INHIBITOR OF<br />
PROCESS ‘substrate’. Ideelt set bør værdierne i trækspecifikationerne svare til begreber.<br />
De her nævnte ændringer er ikke gennemdrøftet i projektgruppen, og derfor ikke<br />
indført i databasen.<br />
KONKLUSION<br />
Vores arbejde har identificeret uklarheder og inkonsistenser i eksisterende opslagsværker<br />
inden for området enzymkemi. Vi har anvendt terminologiske metoder til opbygning<br />
af ontologier baseret på karakteristiske træk og til udarbejdelse af definitioner,<br />
og kan konkludere, at der på basis af ontologierne kan udarbejdes korte, klare og<br />
konsistente definitioner.<br />
Vi har arbejdet med to afgrænsede delområder, enzyminhibering og proteinstruktur,<br />
men vi mener at principperne kan anvendes på større områder.<br />
I vores ontologi for inhibition er nogle af begreberne defineret ved en kombination<br />
af karakteristiske træk. Dette udfordrer teorien om, at der skal være netop ét adskillende<br />
træk for hvert begreb i en terminologisk ontologi. Vi foreslår en metode til at undgå<br />
dette problem (jf. også indlægget ”Terminologiske ontologier og beskrivelseslogik”<br />
(Zambach & Madsen 2009).<br />
Vi kan konkludere, at terminologiarbejde bør udføres i et samarbejde mellem kemikere<br />
og terminologer, og at det er hensigtsmæssigt at anvende et begrebsmodelleringsværktøj,<br />
som for eksempel i-Model (særligt modul i i-Term).<br />
Vi foreslår et fælles IUPAC-IUBMB projekt mhp. at udbygge vores resultater og at<br />
opstille retningslinjer for fremtidigt arbejde.<br />
ACKNOWLEDGEMENTS<br />
Annemette Wenzel og Lone Bo Sisseck, begge tidligere medarbejdere ved DAN-<br />
TERMcentret, deltog i de tidlige faser af pilotprojektet.<br />
NORDTERM 2009, København 9.-12. juni 2009 49
REFERENCER<br />
i-Term: www.i-Term.dk, Terminologi- og videnshåndteringsværktøj udviklet af DANTERMcentret, et<br />
dansk terminologicenter på Copenhagen Business School.<br />
IUPAC Gold Book On-line (2006): Compendium of Chemical Terminology, 2 nd ed. (the Gold Book).<br />
Redigeret af A. D. McNaught and A.Wilkinson. Blackwell Scientific Publications, Oxford (1997).<br />
XML on-line corrected version: http://goldbook.iupac.org (2006) created by M. Nic, J. Jirat, B. Kosata;<br />
opdateringer ved A. Jenkins.<br />
Madsen, Bodil Nistrup & Hanne Erdman Thomsen (2006): ‘Terminological ontologies and normative<br />
terminology work’. Proceedings of TSTT 2006 – Third International Conference on Terminology<br />
Standardization and Technology Transfer.<br />
ODBMB (2006): The Oxford Dictionary of Biochemistry and Molecular Biology, 2 nd Ed. Oxford University<br />
Press. Redaktør: Cammack, R. et al.<br />
Zambach, Sine & Bodil Nistrup Madsen (2009): Terminologiske ontologier og beskrivelseslogik: Et<br />
eksperiment inden for domænet enzymkemi. Udkommer i Proceedings fra NORDTERM 2009, 11.-<br />
12. juni, Copenhagen Business School.<br />
NORDTERM 2009, København 9.-12. juni 2009 50
Terminologiske ontologier og beskrivelseslogik:<br />
Et eksperiment inden for domænet enzymkemi<br />
b<br />
Sine Zambach a og Bodil Nistrup Madsen b<br />
a<br />
Roskilde Universitet, Universitetsvej 1, Roskilde,Denmark, sz@ruc.dk<br />
Copenhagen Business School, Dalgas Have 15, Frederiksberg, Denmark, bnm .isv@cbs.dk<br />
Abstract. I dette indlæg beskriver vi en metode til at formalisere terminologiske begrebssystemer.<br />
Vores domæne er enzymkemi som vi har arbejdet med, med henblik på at forbedre IUPAC Gold<br />
book (McNaught et al., 1997). Vi benytter ISO 704 ( 2000) standarden for terminologiske<br />
principper og formaliserer ontologien ved hjælp af W3C’s anbefalede ontologiformatet, OWL.<br />
<strong>Indlæg</strong>get diskuterer de formelle egenskaber, som den resulterende ontologi får, samt fordele og<br />
ulemper ved at bruge OWL til visualisering og modellering.<br />
INTRODUKTION<br />
For at fremme anvendelsen af terminologiske begrebssystemer bør de være både<br />
logisk konsistente og formaliserede. I vores indlæg vil vi præsentere en metode til at<br />
implementere en terminologisk ontologi inden for området enzymkemi i<br />
beskrivelseslogik-formalismen.<br />
Ved terminologiske ontologier, forstår vi ontologier, der er udarbejdet i<br />
overensstemmelse med de terminologiske principper for udarbejdelse af<br />
begrebssystemer, som bl.a. er beskrevet i ISO 704 (2000), og som er yderligere<br />
formaliseret, idet begrebernes karakteristiske træk modelleres vha. formelle<br />
trækspecifikationer, der består af en attribut og en tilhørende værdi: [ATTRIBUT:<br />
værdi], jf. Carpenter (1992), Thomsen (1998) og Madsen et al. (2004). Sideordnede<br />
underbegreber inddeles i grupper vha. inddelingskriterier, som svarer til attributterne i<br />
trækspecifikationerne. Et begreb må højst have én adskillende trækspecifikation,<br />
medmindre det indgår i polyhierarki, dvs. at det har to overbegreber. Hvis et begreb<br />
indgår i polyhierarki, skal de to overbegreber høre til to forskellige inddelingskriterier.<br />
Som baggrund for eksperimentet anvender vi en ontologi for inhibering (hæmning),<br />
som vi har udarbejdet i et pilotprojekt, der har til formål at vise, at definitionerne af<br />
begreber inden for enzym- og proteinkemi i IUPAC Gold Book on-line, McNaught et<br />
al (2006), kan forbedres, hvis der anvendes terminologiske metoder (jf. indlægget<br />
”Begrebsafklaring inden for området enzymkemi”, Damhus et al. (2009). Den ontologi<br />
for inhibering, som er udarbejdet i pilotprojektet, overholder ikke princippet om én<br />
adskillende trækspecifikation for hvert begreb. Vi har derfor udarbejdet en ny version<br />
af ontologien, hvor der er introduceret polyhierarki ved hjælp af indførelse af en række<br />
’kunstige’ begreber, som hører til to forskellige inddelingskriterier, hvorved<br />
NORDTERM 2009, København 9.-12. juni 2009 51
underbegreberne kan arve træk fra to overbegreber, og derved defineres vha. en<br />
kombination af træk.<br />
Vi har implementeret denne ontologi både i begrebsmodelleringsmodulet i-Model i<br />
terminologi- og videnshåndteringsværktøjet i-Term® og i beskrivelsesogik-værktøjet<br />
Protegé 3.4, OWL DL.<br />
TERMINOLOGIMODELLERING SOM BASIS<br />
En terminologisk ontologi er en domænespecifik ontologi, jf. fx kategoriseringen af<br />
ontologier i (Guarino, 1998). Principperne for terminologiske ontologier er beskrevet i<br />
fx (Madsen et al. 2004) og er baseret på principperne for begrebssystemer, som<br />
normalt bruges i terminologiarbejde, fx (ISO 704, 2000).<br />
I terminologiske ontologier udgøres knuderne af begreber, som defineres ved hjælp<br />
af begrebsrelationer og karakteristiske træk, der beskriver egenskaberne ved<br />
individuelle referenter, som hører til et begrebs ekstension. I figur 1 vises et udsnit af<br />
ontologien for inhibering, som blev udarbejdet i det ovennævnte pilotprojekt<br />
vedrørende ontologier inden for enzymkemi. I terminologiarbejde anvendes alle typer<br />
af begrebsrelationer: typerelationer (ISA-relationer), del-helheds-relationer og<br />
associative relationer, som fx årsagsrelationer. I figur 1 vises del-helheds-relationer<br />
som kantede linjer, medens alle andre relationer er typerelationer.<br />
Begrebers karakteristiske træk præsenteres som trækspecifikationer i form af<br />
attribut-værdi-par (Carpenter, 1992), fx MICHAELIS CONSTANT: increased. På basis<br />
af disse trækspecifikationer introduceres inddelingskriterier, som giver et godt<br />
overblik og hjælper terminologen til at udarbejde konsistente definitioner af<br />
sideordnede begreber, det vil sige definitioner i hvilke de adskillende træk er baseret<br />
på den samme attribut med forskellige værdier. Inddelingskriterier er i figur 1 og 2<br />
repræsenteret ved hjælp af bokse med tekst i versaler.<br />
Et begreb må højst have én adskillende trækspecifikation, medmindre det indgår i<br />
polyhierarki, dvs. at det har to (eller flere) overbegreber. Hvis et begreb indgår i<br />
polyhierarki, skal de to overbegreber høre til to forskellige inddelingskriterier, og det<br />
pågældende begreb defineres ved hjælp af kombinationen af de overordnede begrebers<br />
karakteristiske træk.<br />
I diagrammet i figur 1, som blev udarbejdet i det ovennævnte pilotprojekt, er de fire<br />
underbegreber til begrebet reversible inhibition adskilt med hensyn til trækket<br />
KINETICS, som er et sammensat træk hvis værdi består af to trækspecifikationer med<br />
attributterne MICHAELIS CONSTANT og MAXIMUM RATE. Dette strider mod<br />
principperne for terminologiske ontologier, og hvis vi vil formalisere den<br />
terminologiske ontologi med henblik på implementering i OWL-DL, bør diagrammet<br />
ændres.<br />
En mulig løsning er at introducere nogle ”kunstige” begreber, det vil sige tre<br />
begreber, som adskiller sig med hensyn til Michaelis constant, og to begreber, som<br />
adskiller sig med hensyn til Maximum rate. Denne løsning ses i figur 2, hvor de fire<br />
begreber på det laveste niveau alle har to overordnede begreber og således arver et<br />
NORDTERM 2009, København 9.-12. juni 2009 52
FIGUR 1. Tidlig version af diagrammet Inhibition fra enzymkemiprojektet.<br />
karakteristisk træk fra hvert af de to overordnede begreber. Logisk set eksisterer de<br />
fem ”kunstige” begreber, men der er (endnu) ikke leksikaliseret. Yderligere forskning<br />
inden for området enzymkemi kan lede til en anden løsning. Det er imidlertid<br />
diagrammet i figur 2, som vi har anvendt til implementering i OWL-DL.<br />
Diagrammet i figur 1 er et godt udgangspunkt for diskussion mellem terminologer<br />
og fageksperter med henblik på at opnå begrebsafklaring. Men for at opnå en<br />
formaliseret beskrivelse, som blandt andet kan anvendes til konsistenstjek, er det ikke<br />
optimalt. Ideelt set bør attributværdien i en trækspecifikation svare til et begreb, og<br />
dette er ikke tilfældet i figur 1. Et eksempel er værdien “the substrate itself is the<br />
inhibitor” i trækspecifikationen til begrebet substrate inhibition. I figur 2 er<br />
trækværdien blevet ændret til substrate og det adskillende træk er nu INHIBITOR OF<br />
PROCESS.<br />
Alle trækspecifikationer kan repræsenteres som en relation mellem to begreber, og<br />
omvendt: en begrebsrelation kan repræsenteres som en trækspecifikation. Hvis alle<br />
trækspecifikationer imidlertid er repræsenteret som begrebsrelationer, kan det være<br />
sværere at få et overblik, da mange af begreberne, som dermed introduceres, ikke<br />
nødvendigvis er de mest centrale begreber inden for området.<br />
Når man ser nærmere på trækspecifikationerne for de tre underbegreber, som falder<br />
ind under inddelingskriteriet MECHANISM i figur 1, kan det ses, at de adskiller sig<br />
mht. to forskellige træk: BINDING SITE og INHIBITOR OF PROCESS. Dette<br />
skyldes, at allosteric inhibition defineres med hensyn til binding site, medens<br />
substrate inhibition og product inhibition adskiller sig med hensyn til inhibitor of the<br />
process.<br />
NORDTERM 2009, København 9.-12. juni 2009 53
FIGUR 2. Diagrammet Inhibition med ekstra begreber og inddelingskriterier.<br />
MODELLERING I BESKRIVELSESLOGIK<br />
Ontologien der er vist i figurerne 3-6 sidst i artiklen er modelleret ved hjælp af<br />
beskrivelseslogik i OWL-DL ved hjælp af Protegé 3.4. Vi har valgt at bruge dette<br />
format fordi det bruges til vidensrepræsentation af mange i for eksempel The Semantic<br />
Web society og fordi det giver mulighed for logisk ræsonnering over relationer og en<br />
mere kompleks nedarvning end standard databaserepræsentation. Den logiske<br />
formalisme, beskrivelseslogik, kaldes på engelsk Description Logic og forkortes DL.<br />
Vi har fulgt den vejledning i navngivning og formalisering som er beskrevet i<br />
Horridge et al (2004).<br />
I Protege svarer classes groft sagt til hvad vi har kaldt begreber og object properties<br />
svarer til begrebsrelationer i i-Term. Desuden findes der en såkaldt datatype property<br />
der går fra et begreb eller individ til en form for data. Denne datatype property har vi<br />
valgt til at repræsentere inddelingskriterier, hvor værdien er det adskillende træk.<br />
Dette er gjort ved at definere datatype = string når en datatype property skal defineres<br />
i Protegé.<br />
Implementering i OWL<br />
For at bygge ontologien i OWL må man starte med at lave et typehierarki med den<br />
terminologiske ontologi man har modelleret. Begreber svarer her til ”Classes” og man<br />
kan rykke rundt på begreberne og ændre navnet på dem i Protegé 3.4.<br />
NORDTERM 2009, København 9.-12. juni 2009 54
Hernæst skal relationerne defineres som ”properties” og tildeles egenskaber. Object<br />
properties kan tildeles for eksempel egenskaber som transitivitet og logiske<br />
kvantifikatorer og kan hermed have flere egenskaber end datatype properties, hvis<br />
værdier blot kan nedarves i klassehierarkiet.<br />
For eksempel er begrebet substrate inhibition fra den terminologiske ontologi, med<br />
det adskillende træk, INHIBITOR OF PROCESS: substrate formaliseret til class:<br />
SubstrateInhibition med datatype property: hasInhibitorOfProcess has (value)<br />
”Substrate”. Denne definition angivet i kategorien ”necessary and sufficient<br />
conditions” svarende til ækvivalensoperatoren (≡). Dette begreb er vist i figur 4.<br />
I opbygningen af det føromtalte polyhierarki er for eksempel competitive inhibition<br />
formaliseret til class: CompetitiveInhibition med MichaelisConstantIncreased og<br />
MaximumRateUnchanged i kategorien ”necessary and sufficient conditions”. Derved<br />
får begrebet ikke sin egen datatype property (adskillende træk) men nedarver det fra<br />
de to overbegreber. Dette begreb er vist i figur 5. Ifølge Horridge et al (2004) bør man<br />
dog i værktøjer som Protege være varsom med at gøre dette, da begreberne vil fremstå<br />
som underbegreber to eller flere forskellige steder (i modsætning til repræsentationen i<br />
fx i-Term). De anbefaler derfor at man nøjes med at skrive det fulde antal adskillende<br />
træk ned og lade det logiske maskineri i ræsonnerings-programmet holde styr på<br />
polyhierarkiet (den multible nedarvning).<br />
Object properties er brugt til at definere del-helhedsrelationen og kan potentielt set<br />
bruges til alle relationer mellem begreber og individer. Her skal man dog være<br />
opmærksom på de logiske følger der er i de to kvantorer, ”for alle” ( ∀ ) og ”der<br />
eksisterer mindst et” ( ∃ ). En definition som:<br />
Inhibition ⊆ ∃partOf<br />
. Kinetics<br />
betyder: for alle forekomster af inhibition eksisterer der en kinetik-instans som<br />
inhibition er en del af. Havde man i stedet skrevet:<br />
Inhibition ⊆ ∀partOf<br />
. Kinetics<br />
tolker OWL det som: for alle instanser af inhibition og for alle de ting som<br />
inhibition instanserne er en del af, er det kinetik, inhibition er en del af. Da inhibition i<br />
princippet godt kunne have en delheds-relation til andre begreber end kinetik, er denne<br />
formulering dog ikke helt korrekt og man skal være varsom med at bruge den i<br />
beskrivelses-logiske systemer. ”For alle” ( ∀ ) bruges dog i de såkaldte ”closure<br />
axioms” som kan anvendes hvis noget alene er definerende. Fx hvis kinetics kun kan<br />
have inhibition og activation som dele kan det bruges således:<br />
Kinetics ⊆ ∀(<br />
∃hasPart.<br />
Inhibition ∃hasPart.<br />
Activation)<br />
Ontologiens egenskaber<br />
Den resulterende ontologi får den egenskab at den har et minimum af logiske<br />
operatorer i ”necessary and sufficient conditions” for hvert begreb. Netop det at have<br />
NORDTERM 2009, København 9.-12. juni 2009 55
som mål at definere ét adskillende træk eller alternativt have polyhierarki, hvor to eller<br />
flere træk ”blot” nedarves, gør at hvert begreb er enkelt defineret.<br />
Det er desuden på linje med Grubers ”minimal ontological commitment” (1993)<br />
hvor han foreslår at man forsøger at begrænse hvad der skal siges om de begreber man<br />
har konceptualiseret i sit begrebssystem. Da hvert begreb skal have et adskillende<br />
træk, kommer alle begreber til at være såkaldt ”Defined” frem for ”Primitives”.<br />
Eksempler på beskrivelser for hver ”Class” kan ses i figur 3-5. Typehierarkiet er vist<br />
i figur 6.<br />
MODELLERINGSPROCEDURE<br />
I dette afsnit giver vi et resumé af, hvordan man kan bruge de terminologiske<br />
modelleringsprincipper sammen med OWL til at konstruere ontologier i<br />
beskrivelseslogik.<br />
Terminologimodelleringsprocedure<br />
1. Find sideordnede begreber der er relateret til et overbegreb. Fx: substrate<br />
inhibition og product inhibition der er underbegreber til inhibition.<br />
2. Identificer de karakteristiske træk for de sideordnede begreber. Fx er substrate<br />
inhibition og product inhibition adskilt med hensyn til hvad der er inhibitoren<br />
for inhibition-processen.<br />
3. Hvis begreberne kan adskilles af netop et træk, skal et attribut-værdipar<br />
introduceres for hvert begreb. Fx: substrate inhibition, INHIBITOR OF<br />
PROCESS: substrate,<br />
4. Grupper begreberne ved hjælp af et eller flere adskillende træk.<br />
5. Hvis det ikke er muligt at adskille begreber ved hjælp af kun ét adskillende<br />
træk, kan man introducere et ekstra lag af begreber således at de sideordnede<br />
begreber udgør en del af et polyhierarki. Det vil sige at de karakteristiske træk<br />
fra to eller flere overbegreber nedarves til underbegreberne.<br />
Implementering i OWL DL, her i Protegé version 3.4<br />
6. Definer begreberne som Classes i OWL-DL.<br />
7. Inddelingskriterierne skal være modelleret som datatype property med værdien<br />
”string”.<br />
8. Definer de adskillende træk for sideordnede begreber ved hjælp ækvivalensopratoren<br />
(≡), hvor streng-værdien er værdien for det adskillende træk. Hvis<br />
der er tale om et polyhierarki, er det overbegreberne der benyttes som<br />
ækvivalenter og derved kombinationen af deres adskillende træk der bliver<br />
definerende for begrebet. For eksempel: SubstrateInhibition ≡<br />
hasInhibitorOfProcess has ”substrate”. Eksempler på disse ses i figur 3-5.<br />
NORDTERM 2009, København 9.-12. juni 2009 56
FIGUR 3. OWL-udgaven af begrebet “Reversibel inhibition” modelleret i Protegé.<br />
FIGUR 4. OWL-udgaven af begrebet “Substrate inhibition” modelleret i Protegé.<br />
NORDTERM 2009, København 9.-12. juni 2009 57
FIGUR 5. OWL-udgaven af begrebet “Competitive inhibition” modelleret i Protegé.<br />
DISKUSSION<br />
Resultaterne af vores eksperiment viser, at det er muligt at implementere en<br />
terminologisk ontologi i Protegé og derved opnå fordele i form af konsistenstjek og et<br />
populært format.<br />
Vores implementering er på linje med Grubers ”ontological commitments” (1993):<br />
”coherence” (sammenhæng), ”extendability” (udvidelsesbarhed), ”clarity” (klarhed),<br />
”minimal ontological commitment” (minimalt ontologisk indhold) og til dels<br />
”encoding bias” (ontologien bør ikke være afhængig af et bestemt software).<br />
Minimalt ontologisk indhold har vi netop opnået ved den modelleringsprocedure vi<br />
forslår med netop ét adskillende træk. Sammenhængskraft er opnået ved at benytte de<br />
ontologi-testende ”reasoners” som findes i Protegé, ligesom ontologien i høj grad kan<br />
udvides. Klarhed er opnået ved at formalisere ontologien i et logisk sprog. På den<br />
anden side gives der også køb på klarheden ved at bruge netop et formelt sprog som<br />
ikke er tydeligt læsbart for alle mennesker i lige så høj en grad som for eksempel i-<br />
Term-implementeringen er det.<br />
Om ontologien er afhængig af softwaren eller ej kan naturligvis diskuteres. På den<br />
ene side kan man formelt udnytte de muligheder der er i Protegé optimalt. Men det er<br />
imidlertid en ulempe ved Protegé, at der mangler en mulighed for at skrive betegnelser<br />
for begreber, karakteristiske træk og begrebsrelationer i et naturligt sprog, hvilket er<br />
muligt i et terminologisk orienteret værktøj, som fx i-Term.<br />
NORDTERM 2009, København 9.-12. juni 2009 58
Endvidere er det endnu ikke muligt grafisk at vise inddelingskriterier dynamisk<br />
under modelleringen i Protegé – der kan blot genereres en graf som den på figur 6, når<br />
man er færdig med modelleringen. Endelig giver ontologier, som bygger på<br />
principperne fra terminologiske ontologier, ifølge hvilke et begreb er defineret vha.<br />
nærmeste overbegreb og ét adskillende træk operationelle fordele frem for ontologier,<br />
der er defineret med tilfældigt mange træk, som det er tilladt i OWL DL.<br />
Vi foreslår at modelleringsproceduren der er beskrevet ovenfor skal analyseres<br />
nærmere og kan være med til at give en mere finkornet ontologimodelleringsmetode<br />
og formalisering end de standarder, der nu findes i form af for eksempel Methontology<br />
(Lopez, 1997).<br />
FIGUR 6. En grafisk repræsentation af typehierarkiet for vores ontologi i Protegé.<br />
REFERENCER<br />
Baader, F., Calvanese, D., McGuiness, D.L., Nardi, D. And Patel-Schneider, P.F. editors, 2003. The<br />
Description Logic Handbook. Theory, Implementation and Applications. Cambridge, UK.:<br />
Cambridge University press.<br />
Carpenter, Bob (1992): “The Logic of Typed Feature Structures”. Cambridge, Mass.: Cambridge<br />
University Press.<br />
Damhus, T., Olesen Larsen, P. Madsen, B.N. and Zambach, S., 2009. How to work systematically<br />
towards a consistent and codified chemical terminology – a pilot study. To be published in Chemistry<br />
International, July 2009.<br />
Damhus, T., Olesen Larsen, P. Madsen, B.N. and Zambach, S., 2009. Begrebsafklaring inden for<br />
området enzymkemi. To be published in the proceedings of NORDTERM 2009, June 11-12,<br />
Copenhagen Business School.<br />
Gruber, T.R., 1993. Toward Principles for the Design of Ontologies Used for Knowledge Sharing. In<br />
Formal Ontology in Conceptual Analysis and Knowledge, Kluwer Academic Publishers.<br />
NORDTERM 2009, København 9.-12. juni 2009 59
Guarino, N., 1998. Formal Ontology and Information Systems. In: Formal Ontology in Information<br />
Systems, Proceedings of the First International Conference , June 6-8, Trento, Italy, 3-15.<br />
Amsterdam: IOS Press.<br />
Horridge, M., Knublauch, H., Rector, A., Stevens, R., Wroe, C., 2004. A Practical Guide To Building<br />
OWL Ontologies Using The Protegé-OWL Plugin and CO-ODE Tools, Edition 1.0, August 27,<br />
University of Manchester, pp. 1-99.<br />
ISO 704:2000. Terminology work – Principles and methods. International Organization for<br />
Standardization, TC 37, Terminology and other language resources (under revision).<br />
i-Term: http://www.i-Term.dk,<br />
terminologi- og videnshåndteringsværktøj udviklet af<br />
DANTERMcentret, Copenhagen Business School.<br />
Lopez, M.F., Gomez-Perez, A., Juristo, N., 1997. In Proc. AAAI Spring Symp. Series, AAAI Press,<br />
Menlo Park, pp. 33-40.<br />
Madsen, Bodil Nistrup, Hanne Erdman Thomsen and Carl Vikner (2004):”Principles of a system for<br />
terminological concept modelling”. In: Proceedings of the 4th International Conference on Language<br />
Resources and Evaluation, Vol. I. Lisbon: 15-18.<br />
McNaught, A.D. and Wilkinson, A., 1997. IUPAC. Compendium of Chemical Terminology, 2nd ed.<br />
Blackwell Scientific Publications, Oxford. XML on-line corrected version: http://goldbook.iupac.org<br />
(2006-)<br />
Protégé: http://protege.stanford.edu/. (2009)<br />
Stearns, M.Q., Price, C., K.A. Spackman, and A.Y. Wang, 2001. SNOMED clinical terms: overview of<br />
the development process and project status, in Proc AMIA Symp, pp. 662–666.<br />
Thomsen, Hanne Erdman. (1998). Typed Feature Structures for Terminology Work - Part II. In: LSP -<br />
Identity and Interface - Research, Knowledge and Society. Proceedings of the 11th European<br />
Symposium on Language for Special Purposes. Copenhagen, August 1997. Copenhagen Business<br />
School, 349-359.<br />
NORDTERM 2009, København 9.-12. juni 2009 60
a<br />
Insulinontologi til Søgeprojekt<br />
Bodil Nistrup Madsen a , Hanne Erdman Thomsen a , Tine Lassen b , og<br />
Sine Zambach b<br />
Institut for Internationale Sprogstudier og Vidensteknnologi, <strong>CBS</strong> - Handelshøjskolen i København<br />
{bnm.isv@cbs.dk, het.isv@cbs.dk}.<br />
b<br />
Institut for Kommunikation, Virksomhed og Informationsteknologier, Roskilde Universitet<br />
{tlassen@ruc.dk, sz@ruc.dk}<br />
Abstract. I forbindelse med det tværvidenskabelige projekt SIABO (Semantic Information<br />
Access through Biomedical Ontologies) som omhandler ontologibaseret søgning i tekster om<br />
insulin, arbejder vi med opbygning af domæneontologier for insulinrelaterede begreber. Vi<br />
opbygger domæneontologierne som en statisk basis for såkaldt generative ontologier, hvor det<br />
generative består i at nye begreber kan dannes automatisk ud fra semantiske regler.<br />
Begrundelsen for at opbygge en egen domæneontologi er at eksisterende ontologier ikke er<br />
specifikke nok, hverken hvad angår begreber eller hvad angår begrebsrelationer. Ud fra et<br />
mindre korpus af domænespecifikke tekster har vi udtrukket frekvenslister, og efterfølgende<br />
genereret nøgleordslister ved sammenligning med et almensprogligt korpus. Ud fra disse er der<br />
efterfølgende i samarbejde med domæneeksperter udvalgt en mængde centrale begreber<br />
vedrørende insulinproduktion. Ved anvendelse af principper for terminologiske ontologier har vi<br />
sikret en klar afgrænsning af begreber, og været i stand til a t identificere entydige<br />
begrebsrelationer.<br />
INTRODUKTION<br />
I forbindelse med det tværvidenskabelige projekt SIABO (Semantic Information<br />
Access through Biomedical Ontologies) som omhandler ontologibaseret søgning i<br />
tekster om insulin (patenter, videnskabelige artikler med mere) arbejder vi med<br />
opbygning af domæneontologier for insulinrelaterede begreber.<br />
En vigtig del af projektet er en såkaldt generativ ontologi, hvor det generative<br />
består i at nye begreber kan dannes automatisk ud f ra statiske begreber i en<br />
skeletontologi samt en mængde semantiske regler.<br />
I de følgende afsnit gives en introduktion til SIABO-Projektet, en beskrivelse af<br />
begrebet generative ontologier og en beskrivelse af vores motivation for at opbygge en<br />
egen domæneontologi samt metoden der er anvendt i opbygningen af samme. Herefter<br />
beskrives udvalgte eksempler fra domæneontologien og endelig konkluderes der på<br />
arbejdet med opbygning af en domæneontologi for insulinrelaterede begreber.<br />
NORDTERM 2009, København 9.-12. juni 2009 61
SIABO-projektet<br />
Dette arbejde finder sted inden for rammerne af SIABO-projektet (Semantic Information<br />
Access through Biomedical Ontologies). SIABO-projektets overordnede mål<br />
er at udvikle semantisk baserede søgemuligheder i store tekstsamlinger.<br />
Projektet er et tværinstitutionelt projekt med deltagere fra Danmarks Tekniske<br />
Universitet (DTU), Copenhagen Business School (<strong>CBS</strong>), Roskilde Universitet (RUC),<br />
samt en industriel partner, Novo Nordisk. Projektet er støttet af Det Strategiske<br />
Forskningsråd, Programkomiteen for Nanovidenskab og -teknologi, Bioteknologi og<br />
IT (NABIIT)<br />
I takt med at volumen af tekstsamlinger vokser overalt i samfundet, bliver konventionel<br />
nøgleordsbaseret søgning mere og mere utilstrækkelig. Projektet søger derfor at<br />
udvikle en tilgang til søgning der bevæger sig ud over en sådan konventionel nøgleordsbaseret<br />
søgning, hvor der søges indholdsbaseret ved hjælp af ontologier. Vi ønsker<br />
specifikt at udvikle metoder til o ptimering af søgning i s tore samlinger af tekst<br />
indenfor domænet ‘biomedicin’. Til dette formål anvender projektet såkaldt generative<br />
ontologier, som tillader indeksering af tekster i forhold til sammensatte begreber som<br />
afspejler tilsvarende komplekse lingvistiske udtryk.<br />
Generative ontologier<br />
En ontologi er en formalisering af en fælles forståelse af begreber og relationer<br />
mellem dem inden for et domæne, og er som udgangspunkt statiske modeller. En<br />
vigtig del af projektet er en generativ ontologi, hvor det generative består i at nye<br />
sammensatte begreber kan dannes automatisk ud fra semantiske regler. Generative<br />
ontologier er baseret på statiske ontologier, der er ordnet efter inklusionsrelationen<br />
‘isa’ – denne del kalder vi for skeletontologien. f.eks.:<br />
FIGUR 1. Udsnit at en skeletontologi, der viser en sti af isa-relationer fra begrebet 'secretion' til<br />
topbegrebet 'entity'<br />
NORDTERM 2009, København 9.-12. juni 2009 62
Ontologien bliver generativ ved tilføjelse af en mængde semantiske relationer,<br />
f.eks. AGENT, PATIENT, RESULT, eller specialiseringer af disse, f.eks. ACTIVITY-<br />
AGENT, ACTIVITY-PATIENT, INSTRUMENT-RESULT, samt muligheden for at<br />
danne sammensatte begreber ved attributering:<br />
secretion[ACTIVITY-RESULT:insulin]<br />
FIGUR 2. Det sammensatte begreb secretion[ACTIVITY-RESULT:insulin], og dets placering i den<br />
generative ontologi.<br />
Dette sammensatte begreb afspejler det begrebsmæssige indhold i de sproglige<br />
udtryk:<br />
• secretion of insulin<br />
• insulin secretion<br />
• release of insulin<br />
• insulin is being secreted<br />
• etc …<br />
Motivation<br />
Vi opbygger domæneontologierne som en statisk basis for den generative ontologi.<br />
Begrundelsen for at vi selv opbygger domæneontologien, er at eksisterende ontologier,<br />
som f.eks. UMLS (Unified Medical Language Systems), ikke er specifikke nok, hverken<br />
hvad angår begreber eller hvad angår begrebsrelationer.<br />
Som en yderligere motivation for arbejdet, vil Novo Nordisk kunne bruge domæneontologien<br />
og en tilhørende termbase som intern videnbase.<br />
NORDTERM 2009, København 9.-12. juni 2009 63
METODE<br />
Terminologiske ontologier<br />
Vi arbejder med terminologiske ontologier, det vil sige vi baserer strukturen på<br />
karakteristiske træk og inddelingskriterier som beskrevet i (Madsen et al., 2005), hvor<br />
vi bruger et udbygget sæt af begrebsrelationer, f.eks. ACTIVITY-AGENT,<br />
ACTIVITY-PATIENT, INSTRUMENT-RESULT (se Madsen et al., 2002).<br />
Karakteristiske træk<br />
Karakteristiske træk afspejler fælles egenskaber ved entiteter som hører til de relevante<br />
begrebers ekstension. Der kan være et stort antal af sådanne egenskaber. I takt<br />
med at vores viden om et begreb øges, kan der knyttes flere og flere karakteristiske<br />
træk til d et. Det er dog klart at disse træk ikke alle vil være lige vigtige for<br />
afgrænsningen af det pågældende begreb i forhold til andre begreber.<br />
Vi arbejder med to typer karakteristiske træk:<br />
• Adskillende træk<br />
• Ikke-adskillende træk<br />
Vi antager at det ikke er nødvendigt at knytte mere end ét adskillende træk til et<br />
begreb. Dette betyder at vi går ud fra en hypotese om at et adskillende træk repræsenterer<br />
en nødvendig og tilstrækkelig betingelse for at kunne adskille et begreb fra andre<br />
begreber. Hvis det findes nødvendigt at knytte mere end ét karakteristisk træk til et<br />
begreb (dvs. at hvert af trækkene betragtes som nødvendige, men at ingen af dem i sig<br />
selv er tilstrækkelige), kan dette være et tegn på at der er ”huller” i begrebssystemet.<br />
Disse ”huller” fyldes ud ved at tilføje relevante overbegreber på passende steder i<br />
begrebssystemet.<br />
Inddelingskriterier<br />
Et inddelingskriterium under et begreb er en attribut som anvendes i en trækspecifikation<br />
på et af begrebets underbegreber. Et inddelingskriterium er altså en attribut<br />
hvis mulige værdier tillader at skelne mellem nogle af det pågældende begrebs underbegreber.<br />
Et eller flere inddelingskriterier under et begreb kan udpeges som inddelende inddelingskriterier,<br />
dvs. inddelingskriterier der kan bruges i definitionerne af nogle af det<br />
pågældende begrebs nærmeste underbegreber. Begrebet process har underbegreberne<br />
inhibition og stimulation, hvor inddelingskriteriet er ’INFLUENCE ON OTHER<br />
PROCESS’, jf. figur 3. Dvs., vi kan definere inhibition som en type process som har<br />
en negativ indflydelse på andre processer.<br />
NORDTERM 2009, København 9.-12. juni 2009 64
Figur 3 viser et udsnit af en domæneontologi for en delmængde af termerne der er<br />
fundet i vores diabetes-domænekorpus. Figuren viser inddelingskriterier samt karakteristiske<br />
træk, samt en mapning til andre ontologiressourcer for visse begreber.<br />
FIGUR 3. Udsnit af domæneontologi for en delmængde af termerne der er fundet i det anvendte<br />
diabeteskorpus.<br />
Identifikation af begreber<br />
Der er taget udgangspunkt i et mindre korpus af domænespecifikke tekster hvorfra<br />
der er udtrukket frekvenslister med weirdness-scores (cf. Gillam, 2004). På baggrund<br />
af frekvenser i vores korpus sammenlignet med frekvenser i British National Corpus<br />
(BNC), er der beregnet weirdness-scores for alle ord der forekommer i teksterne. På<br />
baggrund af disse weirdness-scores, er der efterfølgende genereret nøgleordslister, og i<br />
samarbejde med domæneeksperter fra Novo Nordisk er de mest centrale begreber<br />
vedrørende insulinproduktion blevet udvalgt.<br />
Et weirdness-score er et statistisk mål for hvor tæt på/forskelligt fra distributionen<br />
af et givent ord i en given tekstsamling er i forhold til distributionen i et referencekorpus.<br />
Det beregnes på baggrund af frekvens af en given term samt antallet af<br />
løbende ord i hhv. et almensprogligt korpus og et domænekorpus:<br />
NORDTERM 2009, København 9.-12. juni 2009 65
Hvor NGLer antal løbende ord i et referencekorpus (typisk et almensprogligt<br />
korpus), NSLer antal løbende ord i domænekorpusset, fSLer frekvens af ordet i<br />
domænekorpusset og fGLer frekvens af ordet i referencekorpusset.<br />
Jo højere et ords relative frekvens er i et domænekorpus i forhold til den relative<br />
frekvens i et referencekorpus, jo højere weirdness-score. Jo mere ens distributionen i<br />
de to korpora er, jo tættere på 0 tilnærmes weirdness-score.<br />
Vi benytter i det følgende eksempel det almensproglige korpus BNC, som består af<br />
~85.000.000 tokens som referencekorpus, og et korpus bestående af Medline-abstracts<br />
på ~17.000.000 tokens som domænekorpus.<br />
Eksempel:<br />
Ord: hyperglycemia<br />
f BNC = 0<br />
f Medline = 676<br />
weirdness = (85.000.000*676)/((1+0)* 17.000.000) = 3442<br />
Ord: become<br />
f BNC = 67.219<br />
f Medline = 6.528<br />
weirdness = (85.000.000*6.528)/((1+67.219)*17.000.000) = 0,49<br />
Tabel 1 Nøgleordskandidater baseret på højeste weirdness-scores for ord i en eksempeltekst:<br />
‘Chapter 2: The Pancreatic Beta Cell’ (Eisenbarth)<br />
NORDTERM 2009, København 9.-12. juni 2009 66
I ovenstående beregninger af weirdness scores for de to ord hyperglycemia og<br />
become, ser vi at hyperglycemia scorer relativt højt, og at become scorer relativt lavt.<br />
Vi kan udlede af dette, at distribibutionen for hyperglycemia i de to korpora er meget<br />
uens , svarende til at ordet er en nøgleordskandidat, og at distributionen for become er<br />
tæt på at være ligelig, svarende til at ordet ikke er en nøgleordskandidat.<br />
I Tabel 1 ses en nøgleordskandidatliste dannet på baggrund af højeste weirdnessscores<br />
for ord i et lille korpus bestående af en tekst om beta-celler.<br />
ONTOLOGI FOR INSULINPRODUKTION<br />
Der eksisterer en række tilgængelige ontologiressourcer som dækker det relevante<br />
domæne i større eller mindre grad. Vi benytter imidlertid ikke disse ressourcer direkte<br />
som domæneontologier i forbindelse med søgning, men benytter dem udelukkende<br />
som referenceværker i forbindelse med vores modelleringsarbejde. Vi giver herunder<br />
eksempler på forskelle imellem vores behov og det som en given eksisterende<br />
ressource, UMLS, indeholder.<br />
Problemerne ved eksisterende ressourcer som UMLS i forhold til vores behov<br />
består bl.a. i:<br />
• Manglende sammenhæng mellem forskellige delressourcer<br />
• Manglende dækning (langt fra alle diabetesrelaterede begreber findes)<br />
• Ikke altid dækkende termvariantmængder<br />
• Ikke-dækkende relationssæt<br />
• Ingen inddelingskriterier eller trækspecifikationer<br />
Figur 4-6 illustrerer udsnit af UMLS-ressourcer som inkluderer begreber der er<br />
identificeret som domænebegreber via vores domænekorpus:<br />
• Inhibition<br />
• Stimulation<br />
• Stimulation of insulin secretion<br />
Termen inhibition findes ikke tilknyttet et begreb i UMLS, men ved nærmere<br />
eftersyn findes et begreb med samme begrebsmæssige indhold, nemlig negative<br />
regulation of biological process, som illustreret i Figur 4. Der mangler altså en<br />
termvariant knyttet til begrebet. Begrebet eksisterer i delressourcen Gene Ontology,<br />
men kan ikke knyttes sammen med begreber i andre delressourcer da en mapning<br />
mellem de enkelte ressourcer ikke findes.<br />
NORDTERM 2009, København 9.-12. juni 2009 67
Figur 4 Udsnit af UMLS-delressourcen Gene Ontology indeholdende begrebet ’negative<br />
regulation of biological process’<br />
Ligeledes findes termerne stimulation og stimulation of insulin secretion ikke tilknyttet<br />
et begreb i UMLS, men det begrebsmæssige indhold er dækket af begreberne<br />
positive regulation of biological process og positive regulation of insulin secretion<br />
også i Gene Ontology, som illustreret i Figur 5 og Figur 6.<br />
FIGUR 5. Udsnit af UMLS-delressourcen Gene Ontology indeholdende begrebet ’positive<br />
regulation of biological process’<br />
NORDTERM 2009, København 9.-12. juni 2009 68
FIGUR 6. Udsnit af UMLS-delressourcen Gene Ontology indeholdende begrebet ’positive<br />
regulation of insulin secretion’<br />
KONKLUSION<br />
Ved at benytte principper for terminologiske ontologier, har vi været i stand til at opbygge<br />
en domæneontologi for insulinrelaterede begreber, hvor der er en klar afgrænsning<br />
af begreber og entydige begrebsrelationer samt mapning til eksisterende ontologiressourcer<br />
for domænet. Med dette resultat kan vi levere et velfunderet stabilt grundlag<br />
for den generative ontologi.<br />
REFERENCER<br />
Gillam, L. (2004): Systems of concepts and their extraction from text. Unpublished PhD thesis,.<br />
University of Surrey.<br />
Madsen, Bodil Nistrup; Bolette Sandford Pedersen & Hanne Erdman Thomsen (2002): ”Semantic<br />
Relations in Content-based Querying Systems: a Research Presentation from the OntoQuery<br />
Project”. In: K. Simov and A. Kiryakov (Eds.): Ontologies and Lexical Knowledge Bases.<br />
Proceedings of the 1 st<br />
International Workshop, OntoLex 2000. OntoText Lab., Sofia. Pp. 72-82<br />
NORDTERM 2009, København 9.-12. juni 2009 69
Madsen, Bodil Nistrup; Hanne Erdman Thomsen, Carl Vikner (2004): ‘Comparison of Principles<br />
Applying to Domain Specific versus General Ontologies’. In: Alessandro Oltramari, Patrizia Paggio,<br />
Aldo Gangemi, Maria Teresa Pazienza, Nicoletta Calzolari, Bolette Sandford Pedersen, Kiril Simov<br />
(eds.): OntoLex 2004: Ontologies and Lexical Ressources in Distributed Environments. ELRA,<br />
2004, pp. 90-95<br />
George S. Eisenbarth (editor): Type 1 Diabetes: Cellular, Molecular & Clinical Immunology, Online<br />
Edition Version 3.0: http://www.uchsc.edu/misc/diabetes/books/type1/type1.html<br />
NORDTERM 2009, København 9.-12. juni 2009 70
Working Towards a Common Danish Upper<br />
Ontology<br />
a<br />
Camilla Wiberg Danielsen a<br />
National Board of Health, Health Documentation, Denmark, Terminologist.<br />
Abstract. More and more domains within the public sector start developing domain specific<br />
concepts. As the work progresses the domains realize that they share a need for the same very<br />
general concepts. Therefore the development of a co mmon national upper ontology seems to<br />
come closer. This paper describes the ontology work in the Danish Health Care Service where a<br />
domain specific upper ontology has been developed which could be the starting point for a<br />
common national upper ontology. Advantages and challenges of creating a co mmon national<br />
ontology will be discussed.<br />
ONTOLOGY WORK IN THE DANISH HEALTH CARE SECTOR<br />
In 2004 The National Board of Health in Denmark started to work with ontologies<br />
in order to define central concepts from the information model for electronic health<br />
care records that was then being elaborated.<br />
The work was defined in the National IT strategy 2003-2007for the Danish Health<br />
Care Service that stated “The National Board of Health is in charge of establishing a<br />
widely anchored organization whose purpose it is to evaluate and develop concepts in<br />
the health care service. Through a database, these will be made available to all<br />
activities relating to analysis and development in the healthcare service.”<br />
The result of this initiative was that a national concepts council for health care was<br />
established, a database with an interface that is accessible for the public was developed<br />
and a secretariat that supports the work was set up.<br />
The actual work defining the concepts is being carried out in work groups that work<br />
within specific health care related sub-domain for instance ‘medicine’, ‘examination’<br />
or ‘administrative concepts’. The National Concepts Council was responsible for<br />
appointing members for work groups so that the members of the single work group<br />
would be subject matter experts that represent a broad range of special interest groups.<br />
The delivery of a work group is a concept system with definitions and terms as well as<br />
other relevant information about the concepts. When work is finished within a subdomain<br />
the concept system with definitions and other information about the concepts<br />
is send out into public hearing and the hearing comments will be adapted into the<br />
concept system. Finally the council would approve the concept system or perhaps ask<br />
for further development before approving the work.<br />
In 2008 a Council for Content Standards was established in Denmark and The<br />
National Concepts Council was closed down. The work of defining central health care<br />
NORDTERM 2009, København 9.-12. juni 2009 71
concepts now refers to The Council for Content Standards but is mainly being carried<br />
out as before this organizational change.<br />
The work that is being carried out within this frame is using terminological working<br />
methods and principles that are in accordance with ISO 704 and a handbook for<br />
terminology work in the Danish Health Care Service has been written to support the<br />
work and the participants in the work groups.<br />
Do we need to define concepts within the public sector?<br />
Especially the very central concepts within a sector or domain are very often the<br />
most difficult to write one common definition for. The reason for this is that they are<br />
already defined in a range of ways in accordance with use in specific situation. It<br />
seems, however, that there is an increasing acknowledgement of the fact that a<br />
common understanding and a uniform way of applying concepts and terms is<br />
necessary within the public sector.<br />
Also the increasing need for operability and interoperability within systems that<br />
collect and exchange data has made the need for common understanding of concepts<br />
explicit. When we implement IT systems, report or collect data there is a need for<br />
common, structured and detailed terminology.<br />
We now have many separate systems that work well but with the development of<br />
these an immense amount of coding and registration has followed that is now a burden<br />
to the employees in the public sector. To ease this and to facilitate the exchange of<br />
data and the development of new systems ontology work is a major issue.<br />
The Danish Health Care Ontology<br />
Since we started working with the Danish health care ontology nine workgroups<br />
have developed ontologies within as many sub-domains. These are:<br />
• Administrative concepts<br />
• Clinical process<br />
• Medication<br />
• Quality concepts<br />
• Adverse events<br />
• Information security<br />
• Disease prevention, health promotion and population health status<br />
• Examination concepts<br />
• Clinical pathways<br />
Of course the number of concepts treated within each sub-domain varies, but each<br />
work group has collected and defined approximately fifty concepts.<br />
While defining concepts within the single work group it became obvious that some<br />
concepts were common for more or all groups. To avoid that these concepts were<br />
defined by more groups and to make sure that there would be only one common<br />
NORDTERM 2009, København 9.-12. juni 2009 72
viden<br />
definition of these concepts it was decided to establish a special group to define these<br />
concepts:<br />
• General concepts<br />
Typically the concepts that the sub-domains would send on to this special group<br />
would be very general concepts that were super-ordinate to concepts within the subdomain,<br />
but were not really a part of the sub-domain. Also concepts that were used in<br />
definitions, but were of a more common type would be treated by this group. The<br />
group would of course also use the common principles for the terminology work in the<br />
Health Care Services stated in the handbook and the result should be a concept system.<br />
In order to create a coherent concept system it was necessary to add some concepts to<br />
the ontology. In this way the work was driven by the need of the sub-domains and was<br />
not developed in order to describe “everything in the world” as is often the case of<br />
upper ontologies.<br />
The National Concept Work for the Danish Health Care Services can now present<br />
an ontology that consists of:<br />
• One layer called the upper ontology<br />
This layer contains concepts like activity, object, factor, occurrence<br />
• One layer containing general health care concepts<br />
The concepts described are for instance health condition, ill, health sector<br />
• One layer made up by 9 ontologies each dealing with a sub-domain<br />
These will describe concepts like direct patient examination, dose, patient<br />
pathway<br />
proces<br />
konsekvens<br />
aktivitet<br />
forudsætter<br />
objekt<br />
resultat adfærd proces<br />
begivenhed<br />
aktør<br />
faktor<br />
indsats<br />
metode<br />
oprindelse<br />
resulterer i<br />
fører<br />
til<br />
formål<br />
sigter imod<br />
specificerer<br />
tidsmæssig<br />
afgrænsning<br />
forløb<br />
mål handling<br />
udføres af udføres af<br />
tidsmæssig<br />
udstrækning<br />
redskab<br />
hensigt<br />
hændelse<br />
ulykke<br />
deltager i<br />
virkning<br />
målgruppe<br />
individ<br />
entitet<br />
rolle livsform<br />
repræsentation afgrænsethed ordning<br />
kan være<br />
person<br />
består af<br />
gruppe af<br />
individer<br />
består af<br />
formål<br />
primærsektor<br />
art<br />
samfund<br />
grafisk<br />
dokument<br />
organisation<br />
består af<br />
samfundssektor<br />
område<br />
sundhedssektor<br />
dokumentation<br />
består af<br />
information<br />
sekundærsektor<br />
forandring<br />
tegn<br />
data<br />
medlemstype gruppe<br />
model<br />
arketype<br />
system<br />
formalisering formål ensartethed<br />
sundhedsvilkår<br />
FIGURE 1. UML diagram showing the upper ontology and the general health concepts in the ontology<br />
for the Danish Health Care Service<br />
omfatter<br />
påvirkning<br />
sundhedsramme<br />
område<br />
domæne<br />
indvirker på<br />
ramme struktur<br />
befinder sig i<br />
afgrænsethed<br />
domæne<br />
objekt relation<br />
kvalitet<br />
egenskab<br />
ramme sund<br />
helbred<br />
sundhedsvæsen<br />
begreb<br />
forbinder<br />
begrebsrelation<br />
formål<br />
område<br />
rask<br />
helbredskvalitet<br />
syg<br />
supplerende<br />
træk<br />
funktion<br />
helbredsstatus<br />
beskrivelse formål<br />
specificerer<br />
kontekst<br />
usund<br />
helbredspotentiale<br />
sygdom<br />
tilstand<br />
adskillende<br />
træk<br />
differentiering<br />
karakteristisk<br />
beskrives med<br />
træk<br />
normativ<br />
beskrivelse<br />
informativ<br />
beskrivelse<br />
mål<br />
sundhed<br />
virkefelt<br />
formål<br />
intentionalitet<br />
udstrækning<br />
forstyrrelse<br />
trækspecifikation<br />
består af<br />
standard<br />
instruks<br />
vejledning<br />
helbredstilstand<br />
består af helbred<br />
sundhedstilstand<br />
folkesundhed<br />
indvirker på<br />
udstrækning<br />
attribut<br />
attributværdi<br />
indvirker på<br />
inddelingskriterium<br />
specificerer<br />
NORDTERM 2009, København 9.-12. juni 2009 73
A COMMON NATIONAL ONTOLOGY<br />
The concept modeling within the health care sector has been going on f or<br />
somewhat longer than in most other sectors and no ot her sector has an equivalent<br />
concept system describing general concepts.<br />
Within resent years more and more public institutions have shown interest in<br />
defining concepts and more and more show interest in creating a common upper<br />
ontology. Also there is a common acknowledgement, that is seems sensible to take an<br />
offset in the health care upper ontology.<br />
Advantages<br />
The development of a common national upper ontology would have a number of<br />
advantages for the ontology work in all sectors.<br />
• The single sector will not develop its own sector specific upper ontology and<br />
create similar concepts with different definitions<br />
• It will be easy for new domains to attach their concepts or concept systems to<br />
concepts in the upper ontology<br />
• It is much easier to see what concepts you miss in the concept system when you<br />
have a fairly well developed concept system<br />
• Defining this type of concepts is not easy as very often the same term is well<br />
established in different sectors for concepts that are defined slightly different.<br />
However, having well defined concepts makes it much easier to see where you<br />
do not agree and need to define another concept that is in accordance with the<br />
specific use in a specific sector<br />
• The community of people working with ontologies in the public sector in<br />
Denmark is very small. Therefore, it is a great advantage, if we can share our<br />
knowledge and experiences and thus share the work load.<br />
Challenges<br />
Working together on a common ontology across sectors will of course also give<br />
some challenges:<br />
• In the work that has been made within the health sector one of the biggest<br />
challenges has been to make definitions that are both short, exact and<br />
understandable for a wide range of uses<br />
• To sort out, separate or agree upon c ommon definitions for concepts behind<br />
well integrated terms in different sectors will be difficult<br />
• To establish the resources that is needed for the work to be carried out will be a<br />
major challenge<br />
• To establish the governance that is needed in order to host the common<br />
ontology and to secure the dissemination of the definitions will be a challenge.<br />
NORDTERM 2009, København 9.-12. juni 2009 74
How to proceed from here<br />
At the moment the National Concept Work for the Danish Health Care Services is<br />
reviewing the current upper ontology. As work in the sub-domains progresses it has<br />
become clear, that some of the descriptions of the concepts in the top levels of the<br />
health care upper ontology are too difficult to understand. Therefore the group has<br />
reassembled to review the definitions and especially to add comments and examples to<br />
better describe the concepts. This work will be finished in the autumn of 2009. At the<br />
same time the definitions will be translated into English in order to have a basis for<br />
collaboration internationally. When the review is finished the work will be send out in<br />
public hearing.<br />
A group of people working with concept definitions in the public sector 1<br />
Denmark has started to meet every second to third month. The aim of these meeting is<br />
to share knowledge and experiences by sharing the concept work within each sector.<br />
There is a great interest within this group to develop a common national ontology, but<br />
there is also a great lack of resources for this type of work. One of the group’s<br />
initiatives is the establishment of a forum for discussion on the internet. On this forum<br />
both members of the public sector as well as other interested parties can discuss the<br />
concept work in the public sector.<br />
A very important issue for The National Concept Work for the Danish Health Care<br />
Services is that the common work is based on the use of standards including ISO 704<br />
Principles and Methods and ISO 1087 Terminology Work, Vocabulary.<br />
On the homepage of The National Concept Work for the Danish Health Care<br />
Services http://begrebsbasen.sst.dk/ there is a link for the Handbook for Terminology<br />
Work in the Danish Health Care Service.<br />
Also a common format for exchange of data will have to be discussed in order to<br />
share and store definitions and relations between concepts.<br />
Finally a common public storage, distribution and governance of the concepts will<br />
be needed in order to secure that the work is developed, stored and distributed in a<br />
way that makes it used throughout the sectors.<br />
REFERENCES<br />
Bodil Nistrup Madsen (1999). Terminologi, principper og metoder, Gads Forlag.<br />
ISO (2000). ISO 1087-1, Terminology work – Vocabulary – Part 1: Theory and application<br />
ISO (2001). ISO 704, Terminology work – Principles and methods<br />
National Board of Health (2005). Håndbog i Begrebsarbejde, del 1: Principper, Sundhedsstyrelsen.<br />
1 Central Customs and Tax Administration, Danish, Government IT Services, Danish Institute for Quality and Accreditation in<br />
Healthcare, Danish Prison & Probation Service, Digital Health, Local Government Denmark, National Board of Health, National<br />
Board of Social Services, National it and telecom agency Denmark, The Capital Region of Denmark, The Police<br />
NORDTERM 2009, København 9.-12. juni 2009 75<br />
in
National Board of Health (2006). Håndbog i Begrebsarbejde, del 2: Metoder og arbejdsforløb,<br />
Sundhedsstyrelsen.<br />
NORDTERM 2009, København 9.-12. juni 2009 76
TNCs arbete med en basordlista –<br />
en ontologi med definitioner?<br />
Cecilia Lind<br />
Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />
+46 8 446 66 03, cecilia.lind@tnc.se<br />
Abstract. Genom att fastlägga fackspråkliga betydelser hos ord som förekommer frekvent i<br />
många olika fackspråk, så skapar man en grund för formulering av entydiga definitioner, vilket<br />
är en förutsättning för terminologiarbete med kvalitetsanspråk. Detta har TNC arbetat med i<br />
olika omgångar ända sedan 1941 (då TNC bildades). Det senast publicerade materialet i TNCs<br />
basordsarbete är ordlistan Tekniska basord som kom 1995. Den ordlistan koncentrerades kring<br />
tekniska basord och hade en preliminär prägel; det sägs i förordet att den skulle fungera som en<br />
remissutgåva och läsarna uppmanades att inkomma med synpunkter. På sin webbplats uppmanar<br />
nu TNC intresserade personer att inkomma med förslag till basord som behöver preciseras. År<br />
2006 sökte och fick TNC ett bidrag från Marcus och Amalia Wallenbergs stiftelse för att åter<br />
bearbeta och precisera betydelsen i ett antal basord. Arbetet påbörjades samma år.<br />
Utgångspunkten har varit Tekniska basord men omfånget har vidgats och omfattar nu<br />
ämnesområden utanför tekniken, t.ex. organisation, förvaltning och dokumentation. Varje basord<br />
– eller term – som definieras, grundas på belägg, excerpter, ur ett stort antal källor,<br />
huvudsakligen från det material som finns i TNCs interna termdatabas. Men även från mer<br />
allmänt material, som Nationalencyklopedin och Wikipedia, har belägg hämtats. Under arbetet<br />
har följande problemtyper visat sig: olika uppfattningar om ett ords betydelse; begreppskluster<br />
där det kan vara svårt att avgöra var gränserna mellan begreppen går och vilka; relationer som<br />
gäller mellan begreppen; vanligt förekommande termer som sällan förklaras eller där begreppen<br />
bakom termerna är svårfångade; termen förekommer inom många olika områden och där i<br />
(något) olika betydelse. Terminologiarbetets bärande princip, att utgå från begreppet och inte<br />
termen, visar sig vara till stor hjälp också i arbetet med att precisera basord som används inom<br />
flera fackområden. Det finns företeelser som begreppsmässigt är ”maskiner” men som benämns<br />
”apparater” och vice versa. Givetvis kan man inte göra mycket åt väl etablerade termer men man<br />
kan ha nytta av basordens definitioner när man vill benämna nya föremål. Att välja en term som<br />
entydigt svarar mot begreppet underlättar förståelsen och är i vissa fall eftersträvansvärt i<br />
terminologiarbete.<br />
UTVECKLINGEN AV EN TERMINOLOGISK BASORDLISTA<br />
På Nordterm i R eykjavik 1995 be rättade Lars Törnqvist från Tekniska<br />
nomenklaturcentralen om sitt arbete med Tekniska basord och under Nordterm 2009 i<br />
Köpenhamn fick deltagarna höra om Terminologicentrum TNCs arbete med<br />
NORDTERM 2009, København 9.-12. juni 2009 77
evisionen av Tekniska basord. Revisionen har inneburit ett horisontellt<br />
terminologiarbete på en övergripande begreppsnivå för att definiera termer som<br />
behövs för att förklara termer på lägre nivåer. För att kunna definiera skruvmejsel så är<br />
det lämpligt att ha definierat verktyg osv.<br />
DEFINIERA PÅ ÖVERGRIPANDE NIVÅ<br />
Målet med Basorden är att formulera definitioner som kan fungera inom många<br />
flera olika områden; gärna så många som möjligt. Detta har lett till a tt många<br />
definitioner har vidgats och att många insnävningar har tagits bort i jämförelse med<br />
den äldre upplagan. Det har vi kunnat göra eftersom kärnegenskaperna ofta är<br />
desamma även när en term förekommer inom flera ämnesområden men i lite olika<br />
betydelse. De begrepp som inkluderas i Basord bör ligga högt upp i<br />
begreppshierarkierna. En svårighet har dock varit urvalet av termer och begrepp; att<br />
hamna på ungefär samma horisontella nivå i begreppshierarkierna.<br />
NYTT OMFÅNG – NY TITEL<br />
Det är Gunnel Johansson som leder revisionen och som har lagt upp arbetet.<br />
Begreppen i boken har delats in i avsnitt med besläktade begrepp. Nya områden, som<br />
t.ex. organisation och dokumentation har tillkommit även om de tekniska termerna<br />
ännu är i majoritet. Arbetsnamnet har därför ändrats till Basord eftersom området nu<br />
utvidgats utanför det rent tekniska. Vi är väl medvetna om att ordet basord är TNCjargong<br />
för facktermer som kan förekomma inom flera fackområden och ännu är den<br />
slutliga titeln på ordlistan inte fastställd. (Basord används inom lexikografin i en annan<br />
betydelse.)<br />
PROBLEM I DE HÖGRE HIERARKIERNA<br />
Den här artikeln kommer att behandla olika typer av problem som vi stött på under<br />
arbetet, t.ex. problem med avgränsning, svårfångade begrepp och begrepp där antingen<br />
fackexperterna har olika uppfattning om begreppet bakom termen eller där det finns<br />
små begreppsskillnader mellan närliggande ämnesområden. Varje term som definieras<br />
grundas på belägg, excerpter, ur ett stort antal källor, huvudsakligen från det material<br />
som finns i TNCs interna termdatabas. Men excerpter har även hämtats från mer<br />
allmänna källor, som svenska Nationalencyklopedin och Wikipedia.<br />
SVÅRUTREDDA KOMPLEX<br />
Vid en första anblick kan en grupp närliggande begrepp verka lätta att förklara och<br />
enkla att skilja från varandra. Men vid en närmare granskning kan det visa sig att det<br />
inte är så enkelt att hitta de särskiljande kännetecknen. Gränserna mellan begreppen<br />
NORDTERM 2009, København 9.-12. juni 2009 78
visar sig vara otydliga och ibland verkar det som om begreppen delvis överlappar<br />
varandra. Vari ligger t.ex. skillnaden mellan maskin, apparat, instrument och verktyg?<br />
Man får akta sig för att ta för mycket fasta på uttryckssidan eftersom t.ex. det som<br />
begreppsmässigt är en maskin kan kallas apparat, och vice versa.<br />
Ett annat exempel på två begrepp som kan vara svåra att skilja åt är teknik och<br />
metod. Problemet är av samma slag som det ovan beskrivna. Varför säger man t.ex.<br />
skidåkningsteknik men vallningsmetod?<br />
Ett tredje exempel är begreppen energi, arbete och effekt inom fysik. Dessa begrepp<br />
definieras ofta med hjälp av varandra. Man får ett antal yttre cirklar. Det blir svårt att<br />
välja ut ett av begreppen och hitta en självständig definition. Det är tydligt att energi är<br />
ett så pass komplext begrepp att det inte går att definiera utan cirkeldefinition och en<br />
lösning är att undvika att definiera energi och därmed utgå ifrån att begreppet är<br />
självklart i sitt sammanhang.<br />
TEKNISK DEFINITION SAKNAS MEN ALLMÄNSPRÅKLIG<br />
FINNS<br />
I vissa fall saknas en teknisk vetenskaplig definition, men det går att finna<br />
förklaringar i mer allmänspråkliga källor. Begreppen antas förmodligen vara så<br />
självklara inom sitt fackområde att de inte har definierats där. Atom är ett exempel på<br />
term med få eller inga fackspråkliga definitioner. TNCs interna termdatabas, som<br />
innehåller ca 265 000 termposter och många fler termer, ger en enda träff, visserligen<br />
från en vederhäftig källa, TNC 90 K ärnenergiordlista, men ändå endast en träff.<br />
Dessutom saknas det ordböcker på svenska inom ämnesområdet fysik. Atom förklaras<br />
däremot i de mer allmänspråkliga källorna Nationalencyklopedin och Wikipedia. Det<br />
leder till att de allmänspråkliga källorna får procentuellt stort inflytande över TNCs<br />
definitionsformulering så vida vi inte går direkt till experterna.<br />
Ett annat exempel är termen elementarpartikel som saknas helt i T NCs interna<br />
termdatabas. Det verkar dessutom finnas en äldre, mer etablerad, skola och en nyare<br />
skola när det gäller vad som bör räknas som elementarpartiklar och hur dessa kan<br />
indelas. Vilket synsätt ska man då redovisa i ordlistan? Vi valde att redovisa synsättet<br />
från den äldre skolan eftersom det nya inte tycktes ha vunnit genomslag i s amma<br />
omfattning.<br />
SVÅRFÅNGADE BEGREPP<br />
Olika termer kan stå för mycket likartade begrepp. Detta gäller t.ex. lag, formel och<br />
sats inom naturvetenskap. Det har varit omöjligt att hitta särskiljande kännetecken<br />
med hjälp av excerpterna och därför har vi antagit att lag och sats är synonymer, som<br />
t.ex. i Ohms lag och Pythagoras sats.<br />
NORDTERM 2009, København 9.-12. juni 2009 79
MÅNGTYDIGHET<br />
Ett annat problem har varit mångtydigheten hos vissa termer. Hur många av dessa<br />
betydelser bör redovisas i en ordlista av detta slag? Bör man ta med flera betydelser av<br />
en sådan term än vad som egentligen är berättigat, enbart för att få en mer fullständig<br />
bild? Vi har sett två typer av mångtydighet nämligen homonymi inom och mellan<br />
fackområden samt mångtydighet i excerpter. Det senare avser att samma begrepp<br />
förklaras olika i olika excerpter. När det gäller homonymi inom samma fackområde så<br />
har vi ställts inför frågan om vilka begrepp som är relevanta för Basordens målgrupp.<br />
Har det funnits en gemensam kärna så har vi försökt hitta den och formulera en<br />
övergripande definition i enlighet med den horisontella begreppstanken.<br />
HOMONYMI<br />
Lite extra svårt blir det när en term står för flera begrepp inom samma<br />
ämnesområde. Då måste man bli mer precis när det gäller insnävningstexten, dvs. i<br />
vilket fackområde begreppet förekommer. Det räcker då inte att t.ex. ange "(inom<br />
matematik:)". Exempel på en sådan term är bas inom matematik. Här finns minst tre<br />
olika betydelser inom tre underområden:<br />
(inom geometri:) sida som valts ut i samband med areaberäkning;<br />
(i en potens:) det tal eller uttryck som upphöjs till något, t.ex. talet a i a²;<br />
(i ett positionssystem:) positivt heltal som anger antalet möjliga värden som varje<br />
sifferposition kan anta.<br />
Termen bas förekommer dessutom i andra betydelser inom ett flertal andra<br />
ämnesområden.<br />
AVSAKNAD AV ENTYDIGHET<br />
Excerpterna som använts som underlag för definitionerna har ibland visat på<br />
avsaknad av en entydig bild. Inte så sällan pekar excerpterna ut ett antal olika<br />
överordnade begrepp. Det kan då bli svårt att välja den relevanta överordnade termen<br />
för definitionen. Någon gång har vi dessutom valt en annan överordnad term än de<br />
som förekommer i excerpterna. Vi har då tyckt att excerpterna inte har lyckats fånga<br />
det centrala i begreppet. Ibland kan infallsvinkeln vara olika i olika excerpter. Man<br />
beskriver samma begrepp men utifrån olika perspektiv. Det gör att begreppet kan få<br />
olika kännetecken i olika excerpter. Det är då inte så lätt att hitta begreppets kärna. Till<br />
exempel kan kon o ch cylinder definieras olika beroende på om man ser det strikt<br />
matematiskt eller utifrån ett mer allmänt perspektiv. Strikt matematiskt kan en kon<br />
eller cylinder ha vilken basyta som helst medan en mer allmän uppfattning är att den<br />
ska vara cirkulär. Koner och cylindrar är dessutom oändliga enligt en strikt<br />
matematisk definition, men i de flesta fall ses de som begränsade.<br />
NORDTERM 2009, København 9.-12. juni 2009 80
ARDETETS UPPLÄGGNING<br />
Tekniska basord var indelad i fackområden t.ex. brand och ytbehandling. Inför<br />
revisionen har vi valt en annan indelningsgrund som delvis är ämnesoberoende och<br />
mer övergripande:<br />
1. Egenskaper<br />
2. Processer, operationer<br />
3. Tillstånd, förhållanden<br />
4. Ämnen, material<br />
5. Produkter, varor<br />
6. Mekaniska och elektriska föremål<br />
7. Storheter, enheter<br />
8. Bygg och anläggningar<br />
9. Övriga fenomen och företeelser<br />
10. Organisation<br />
11. Dokumentation<br />
Den gamla upplagan bestod av 1 462 antal termer och är i skrivandes stund uppe i 1<br />
592 poster.<br />
Jämfört med Tekniska basord har drygt 200 termposter plockats bort eftersom de<br />
ansetts för smala eller inte längre aktuella. I stället har ca 330 nya begrepp tillförts.<br />
Vissa ämnesområden, t.ex. kemi och dokumentation, var tidigare dåligt<br />
representerade. Revidering har till största delen skett inom TNC. Vi har då litat till den<br />
fackkunskap som TNCs medarbetare besitter. Experter har självfallet tillfrågats där<br />
intern kunskap saknats.<br />
VAD HÄNDER SADAN?<br />
Efter en första genomgång krävs att hela materialet läses igenom och ensas. Detta<br />
kommer att innebära ett stort arbete. Den nya upplagan kommer att ingå i<br />
Rikstermbanken och kommer eventuellt också i tryckt upplaga. Basorden kommer att<br />
vara under ständig revidering eftersom begreppen kan förändras över tid och mellan<br />
fackområden. Genom Rikstermbankens kommentarfunktion finns en möjlighet att<br />
kommentera termposterna direkt till sekretariatet via webben. Det är en möjlighet för<br />
allmänheten att påverka Basordens innehåll.<br />
NYTTAN MED FACKSPRÅKLIGA BASORD<br />
Man kan idag inte göra så mycket åt väl etablerade termer som ursprungligen inte<br />
är så väl valda men för framtida termval kan man ha nytta av basordens definitioner.<br />
Att välja en term som entydigt svarar mot begreppet underlättar förståelsen och är<br />
eftersträvansvärt i terminologiarbete. Basorden kan förhoppningsvis också göra det<br />
lättare att välja en korrekt överordnad term vid skrivning av definitioner. När<br />
översättare måste skapa en ny svensk term för ett begrepp som saknar en etablerad<br />
sådan har även de nytta av att begreppet beskrivs med hjälp av en korrekt överordnad<br />
term.<br />
NORDTERM 2009, København 9.-12. juni 2009 81
Som det ser ut i dag kan den nya titeln bli Tvärvetenskapliga basord för att<br />
tydliggöra att termerna utgör basord inom flera olika fackspråk som behövs vid<br />
formulering av definitioner. Inte de basord som barn lär sig först utan de överordnade<br />
termer som behövs för att kunna uttrycka en definition inom ett fackspråk.<br />
NORDTERM 2009, København 9.-12. juni 2009 82
Begreppsrelationer som verktyg för<br />
begreppsanalysen<br />
Anita Nuopponen<br />
Vasa universitet<br />
Abstract. This paper presents a set of models that can be used as tools for analysing concepts.<br />
The models are based on an updated and modified classification of concept relations presented<br />
originally in Nuopponen 1994 and revised in various papers later on. The suggested systematic<br />
concept analysis starts by selecting a concept of departure, after which a preliminary overall picture<br />
of concepts and concept systems of the target field is obtained by using satellite model, i.e. a<br />
uniform, mind-map-like way to graphically represent concepts and different types of relations<br />
between them. The branches of the resulting presentation are scrutinized separately. This may be<br />
done with the help of their own satellite models if needed. At this phase, the concept relation<br />
models discussed in this paper can be applied to clarify relation types between the concepts (generic,<br />
origination, developmental, contiguity, activity, transmission, causal, and dependence relations).<br />
The models can be modified and applied according to the needs of the domain. This<br />
analysis phase results in detailed information of the concepts and their relations to other concepts.<br />
The information received when going through different relation models helps also to modify<br />
the preliminary generic concept system(s). Finally, as a synthesis a new version of the whole<br />
overall concept system (or ontology) consisting of different types of minor concept systems is<br />
compiled. The results can be utilised in writing definitions, compiling ontologies etc. The analysis<br />
process can be integrated in e.g. terminology or ontology work, technical writing or academic<br />
research.<br />
INLEDNING<br />
I detta bidrag beskrivs modeller som kan användas för att analysera olika typer<br />
relationer mellan begreppen. Terminologilärans begreppsrelationer har under det<br />
senaste decenniet fått betydelse som verktyg för ontologier och andra system för<br />
kunskapsorganisation 1 . Därför har jag också under de senaste åren återvänt till<br />
klassifikationen i Nuopponen 1994 och omarbetat den bit för bit 2<br />
. I det följande samlar<br />
jag ihop dels sådant som jag har presenterat tidigare i o lika sammanhang och dels<br />
lägger till några nya relationstyper och grupperar begreppsrelationer på ett något<br />
annorlunda sätt än tidigare. Avsikten är att öka begreppsrelationernas tillämpbarhet<br />
som verktyg för systematisk begreppsanalys.<br />
1<br />
T.ex. TKE 2008 konferens hade som tema "Managing Ontologies and Lexical Resources" och specialtemat på NORDTERM<br />
symposium 2009 var "Ontologier og taksonomier".<br />
2<br />
Se källförteckningen.<br />
NORDTERM 2009, København 9.-12. juni 2009 83
Systematisk begreppsanalys<br />
Begreppsrelationer betraktas som väsentliga verktyg för systematisk begreppsanalys.<br />
Systematisk begreppsanalys bygger på begrepp och metoder som skapats för<br />
terminologiarbete och terminologisk forskning. En speciell betoning ligger på<br />
begreppsrelationer och begreppssystem. Systematisk begreppsanalys kan tjäna som en<br />
metod för vilken som helst undersökning där man behöver klargöra (fack)begrepp och<br />
deras relationer till varandra.<br />
När man analyserar begrepp, rör man sig på tre olika nivåer som man borde hålla<br />
isär: referentnivån (entiteter och deras egenskaper i den verkliga världen eller i en<br />
föreställd värld), begreppsnivån (begrepp och deras kännetecken) och uttrycks- eller<br />
representationsnivån (benämningar och begreppsdefinitioner). Begreppet begrepp<br />
definieras i Nordterms ordlista Terminologins terminologi på nordiska som<br />
"kunskapsenhet som skapats genom en unik kombination av kännetecken", vilket<br />
innebär att ett begrepp skiljer sig från andra begrepp genom ett eller flera särskiljande<br />
kännetecken. Ett kännetecken i sin tur är en "abstraktion av en egenskap hos en viss<br />
referent eller hos en grupp av referenter" enligt ordlistan medan en referent är en<br />
"entitet 3<br />
som kan påvisas eller uppfattas eller som man kan föreställa sig och som ett<br />
begrepp kan knytas till". Begreppen utgörs alltså av kännetecken som också är<br />
begrepp − begrepp vars referenter är de egenskaper som iakttagits.<br />
För att uttrycka fackbegrepp använder man termer, dvs. benämningar för<br />
allmänbegrepp som tillhör ett fackområde, begreppsdefinitioner<br />
Det finns flera olika sätt att analysera begrepp systematiskt, och i min forskning<br />
håller jag på att reda ut dessa möjligheter. I detta bidrag koncentrerar jag mig på ett<br />
tillvägagångssätt som har visat sig vara effektivt när man vill kartlägga större<br />
områden. Denna metod kunde också kallas för "satellitmetod" på grund av dess<br />
viktigaste verktyg s.k. satellitmodell. I det följande diskuterar jag de faser som gäller<br />
val av ett utgångsbegrepp, utarbetande av en preliminär helhetsbild (satellitmodell)<br />
och närmare granskning av relationer mellan begreppen (begreppsrelationsmodeller).<br />
Det är den sistnämnda fasen som står i fokus i detta bidrag.<br />
4<br />
och andra – både<br />
skriftliga och muntliga – begreppsbeskrivningar samt visuella representationsformer.<br />
Benämningar för individualbegrepp, dvs. egennamn, behövs dock ibland också (se<br />
Nuopponen & Pilke 2008).<br />
Satellitmodell - en helhetsbild av fackområdet<br />
Själva begreppsanalysen börjar med att man skaffar man sig en preliminär<br />
helhetsbild av det analyserade begreppets område eller fackområde. Även om man ska<br />
analysera bara ett enda begrepp är det nödvändigt att kartlägga åtminstone dess<br />
närmaste begrepp för att få en uppfattning av dess innehåll. Begreppsinnehållet hänger<br />
ihop med begreppets placering i begreppssystemet.<br />
3<br />
I litteraturen förekommer det också t.ex. termer företeelse, fenomen, föremål och objekt som synonymer till entitet. Här används<br />
termen företeelse.<br />
4<br />
TSK 2006: "beskrivning som ska avgränsa begreppet mot relaterade begrepp".<br />
NORDTERM 2009, København 9.-12. juni 2009 84
Som verktyg kan man använda s.k. satellitmodell som är ett grafiskt presentationssätt<br />
skapat för terminologiarbete och som liknar idékartor (mindmap) men som går<br />
djupare in i relationer mellan begreppen 5<br />
. Satellitmodellen kunde karakteriseras som<br />
en dynamisk begreppskarta, eftersom den växer, modifieras och specificeras allt efter<br />
man under analysens gång får mera information om de analyserade begreppen. Man<br />
börjar med en preliminär helhetsbild och går över till att granska begreppen i<br />
satelliterna och deras satelliter osv. Hur djupt in i fackområdets vetande ska man gå<br />
beror på analysens avsikt och tiden som man har till förfogande.<br />
Valet av utgångsbegreppet<br />
För satellitmodellen behöver man ett utgångsbegrepp eller en annan gemensam<br />
nämnare för fackområdet vars begrepp och termer ska undersökas. Som<br />
utgångsbegrepp kan fungera t.ex. ett begrepp på en högre abstraktionsnivå eller ett<br />
begrepp som annars kan föra ihop de undersökta begreppen. Det kan hänvisa till<br />
exempel till:<br />
• ett fackområde eller en disciplin eller en del eller variant av dessa, t.ex.<br />
lingvistik, lexikologi; sjukvård, närsjukvård; trädgårdsskötsel, kompostering;<br />
japansk teceremoni, Urasenke-tetradition.<br />
• en handling, en aktivitet, en process eller en händelse, t.ex. ordbildning,<br />
medicinsk diagnos, plantering, temae (proceduren för att förbereda te).<br />
• ett materiellt eller immateriellt föremål, ett objekt, ett tillstånd; t.ex. språk,<br />
morfem; läkemedel, tandläkare, feber; pion, kompost; teskål, tehus, osv.<br />
Utgångsbegreppet placeras i centralnoden och de viktigaste besläktade begreppen i<br />
"satellitnoderna" omkring den. För att framställningen skulle bli åskådligare är det<br />
ändamålsenligt att gruppera begrepp med hjälp av hjälp- eller "pseudonoder", t.ex. om<br />
utgångsbegreppet avser en aktivitet, utgörs de viktigaste satellitnoderna av<br />
hjälpnoderna "aktör", "objekt", "verktyg", osv. I en noggrannare analys av<br />
fackområdets begrepp kan vart och ett begrepp tas som utgångsbegrepp i tur och<br />
ordning. Satellitnoderna får sina egna satelliter och t.ex. hjälpnoden "verktyg" binder<br />
ihop begrepp för alla verktyg som används för att genomföra aktiviteten. Dessa kan<br />
vidare delas i underbegrepp eller man kan redogöra för verktygens beståndsdelar,<br />
material, ursprung, osv.<br />
Under den systematiska analysen kan tyngdpunkten flyttas till ett annat begrepp<br />
som kan ta över rollen som utgångsbegrepp. Om man arbetar med ett stort fackområde<br />
eller ett mera komplicerat fenomen eller om man ska jämföra olika syn på begrepp och<br />
deras referenter, kan det uppstå flera alternativa satellitmodeller.<br />
BEGREPPSRELATIONSMODELLER<br />
I den tidigare forskningen har jag utarbetat en detaljerad klassifikation av<br />
begreppsrelationer som kan användas vid terminologisk begreppsanalys. Vissa<br />
5 Se mera t.ex. i Nuopponen 2000.<br />
NORDTERM 2009, København 9.-12. juni 2009 85
elationer (aktivitets- och upphovsrelationer) har jag grupperat i modeller som kan<br />
fungera som utgångspunkter för en satellitmodell. I det följande presenterar jag ett<br />
försök att gruppera resten av begreppsrelationer i liknande "begreppsrelationsmodeller".<br />
Modellerna kan vara alternativa och tillämpas i den ordning som tycks vara<br />
ändamålsenlig i vart och ett fall. Element ur olika modellerna kan kombineras enligt<br />
behov.<br />
Begreppsrelationstyperna är generaliserade för att kunna tillämpas i a lla möjliga<br />
fall. De baserar sig på människans grundläggande sätt att strukturera och kategorisera<br />
världen. Benämningarna som jag har valt är allmänna (t.ex. ändamålsrelation) eller<br />
metaforiska lån från ett fackområde (t.ex. ingrediensrelation; patient).<br />
Avsikten med<br />
termvalet har varit att ge plats för olika tolkningar och tillämpningsmöjligheter inom<br />
olika fackområden. Modellerna är avsedda som utgångspunkter och idégivare för var<br />
och ens egen metodutveckling. Man kan plocka det som lämpar sig för fackområdet i<br />
fråga och utarbeta modeller som fungerar där. Innan man väljer modellerna som ska<br />
användas, lönar det sig dock att testa alla för att undvika förutfattade föreställningar<br />
om fackområdets begreppsapparat. För att snabbt komma i gång med analysen kan<br />
man formulera nyckelfrågor som är relevanta för det undersökta området.<br />
Typer och egenskaper<br />
Oberoende av begreppets typ är det väsentligt att bestämma begreppets plats i ett<br />
generiskt begreppssystem (syn. logiskt begreppssystem): vad är dess överbegrepp,<br />
sidobegrepp och underbegrepp samt eventuella indirekta sidobegrepp.<br />
FIGUR 1. Analysmodell för generiska begreppsrelationer och kännetecken.<br />
När man försöker bestämma det generiska överbegreppet 6 till utgångsbegreppet<br />
(se figur 1) letar man efter information om ett begrepp vars omfång 7<br />
täcker också<br />
utgångsbegreppet, dvs. en större klass av företeelser som referenten hör till.<br />
Svårigheter förorsakas t.ex. av att överbegreppet kan vara under diskussion inom<br />
själva fackområdet eller disciplinen. Det kan finnas många olika tolkningar hur<br />
referenten borde klassificeras, t.ex. diskuterar olika forskare om japansk teceremoni<br />
6<br />
TSK 2006: "begrepp som står i generisk relation till ett annat begrepp och vars intension inkluderas i intensionen av det andra<br />
begreppet".<br />
7<br />
TSK 2006: "uppsättning referenter som kan knytas till ett visst begrepp".<br />
NORDTERM 2009, København 9.-12. juni 2009 86
(jap. chadô "teets väg") skulle betraktas som en typ av ceremoni, ritual, konst, kult,<br />
tedrickande, filosofi, religion osv. I vissa sammanhang måste man klassificera eller<br />
definiera utgångsbegreppet och således fatta beslutet vad som skall uppfattas som ett<br />
överbegrepp.<br />
I innehållsdefinitionen som är den klassiska definitionsmodellen beskrivs begreppet<br />
"genom att ange dess överordnade begrepp och dess särskiljande kännetecken" (TSK<br />
2006). I vissa fall måste man ersätta den term som representerar överbegreppet med ett<br />
allmänt ord, t.ex. "tradition, som...", "ett sätt att…" 8<br />
. Valet av ett överbegrepp<br />
påverkar också termvalet, t.ex. om man väljer att behandla japansk teceremoni som en<br />
ceremonityp, väljer man termen 'teceremoni' eller om man ser den som en konstform,<br />
föredrar man termen 'tekonst'. Gör man en deskriptiv studie, kan begreppet få flera<br />
överbegrepp (se figur 1).<br />
För att kunna definiera begreppet behövs det (ett eller flera) särskiljande kännetecken<br />
som skiljer det undersökta begreppet från andra begrepp på samma<br />
abstraktionsnivå, dvs. dess generiska sidobegrepp ska kartläggas och skillnaderna<br />
mellan dem redogöras för. Till exempel om man vill definiera japansk tekonst, ska<br />
man fråga hur den avviker från andra konstformer, eller om man betraktar den som en<br />
ceremonityp, är man tvungen att klargöra hur teceremonin avviker från andra<br />
ceremoniformer och hur den japanska teceremonin avviker från t.ex. kinesiska eller<br />
koreanska teceremonier. Om man ser på chadô i sin japanska kontext, likställs det som<br />
ett parallellt fenomen till andra dô, dvs. "vägar", t.ex. kadô (ikebana), judô, kendô,<br />
budô, osv.<br />
Ofta kommer det vid analysen fram begrepp som är nära det undersökta begreppet,<br />
men tycks inte ha samma direkta överbegrepp. Ändå kan det vara viktigt att avgränsa<br />
dem från det undersökta begreppet för att få en vattentätare definition. Dessa begrepp<br />
ligger längre borta i det generiska begreppssystemet än de direkt sidoordnade begreppen<br />
eller relationen är annars oklar. De kan även höra till ett alternativt generiskt<br />
begreppssystem.<br />
En del underbegrepp finner man vanligen redan i början av analysen, men man får<br />
en bättre uppfattning om dem och deras innehåll under analysens gång samtidigt som<br />
man undersöker andra relationstyper. Då kommer det fram nya indelningskriterier och<br />
annan dylik information; t.ex. skillnaden mellan olika typer av öl klargörs när man<br />
bekantar sig med framställningsmetoder och bryggningsprocess. Man ska under hela<br />
analysprocessen leta efter information som kompletterar det generiska begreppssystemet.<br />
Också annars ska man under analysen återkomma till skedet där man preliminärt<br />
har klargjort begreppets kännetecken och generiska relationer. 9<br />
Ursprung, utveckling och processer<br />
När man bekantar sig med en företeelse får man ofta information om dess ursprung<br />
och utveckling. Detta är typiskt för encyklopediartiklar eller läroböcker. Dessa<br />
beskrivningar ger uppgifter om upphovs- och utvecklingsrelationer mellan begreppen.<br />
Upphovsrelationer baserar sig på förhållanden mellan utgångsbegreppets referent<br />
och andra företeelser eller faktorer som har med dess ursprung eller uppkomst att göra:<br />
8 Se Vehmas-Lehto 2006.<br />
9 Se mera i Nuopponen 1994.<br />
NORDTERM 2009, København 9.-12. juni 2009 87
vem tillverkar eller har tillverkat den, var, varför, hur, av vilket material ("ingredienser"),<br />
med vad och när (se figur 2). Det är lätt att finna dessa relationer när man<br />
analyserar en konkret företeelse, t.ex. cappuccino, men svårare när man har med en<br />
immateriell företeelse att göra, t.ex. teceremoni. Till exempel i litteraturen om japansk<br />
teceremoni kommer det fram olika människor, skolbildningar och faktorer som har<br />
bidragit till att denna aktivitetsform existerar. Vissa tidsperioder uppges också ha haft<br />
betydelse. Ingredienser som cappucino tillverkas av är espresso, ångad mjölk och<br />
mjölkskum medan i fråga om japansk teceremoni (t.ex. som en konstform) kunde man<br />
räkna som "ingredienser" inflytande från olika religioner, arkitektur och andra<br />
konstarter (blomsterkonst, keramik, kalligrafi, etc.) som har styrt teceremonins<br />
utveckling.<br />
FIGUR 2. Analysmodell för upphovsrelationer 10<br />
.<br />
FIGUR 3. Analysmodell för utvecklingsrelationer och temporala begreppsrelationer.<br />
Utvecklingsrelationer anknyter sig till fenomenets utveckling (se figur 3).<br />
Encyklopediartiklar och läroböcker redogör för också dessa begreppsrelationer när de<br />
10 I de flesta figurerna har termerna förkortats och uttryck som "ÄNDAMÅL", "INGREDIENS" osv. ska läsas<br />
"ändamålsbegrepp", "ingrediensbegrepp" osv. Om man vill kan man bilda termer för dessa begrepp, jfr. helhetsbegrepp,<br />
delbegrepp.<br />
NORDTERM 2009, København 9.-12. juni 2009 88
presenterar utvecklingshistorien bakom företeelsen: Vilka utvecklingsstadier går en<br />
individ eller ett material igenom, vilka företrädare och efterträdare har företeelsen,<br />
hur har hela arten utvecklats och vilka generationer kan man urskilja?<br />
Sammansättning, struktur och läge<br />
En grupp av begreppsrelationer har med referentens rumsliga kontakt att göra (se<br />
figur 4). Till den mest centrala informationen hör referentens indelning i delar,<br />
komponenter, element el.dyl. Frågan Vilken större helhet företeelsen hör till? leder till<br />
information om utgångsbegreppets helhetsbegrepp 11 , dvs. begreppet som är överordnat<br />
till det i ett partitivt begreppssystem. Utgångsbegreppets partitiva sidobegrepp och<br />
delbegrepp finner man genom att ställa frågorna Vilka andra delar hör till samma<br />
helhet? respektive Av vilka delar, beståndsdelar eller komponenter består referenten<br />
själv av?<br />
FIGUR 4. Analysmodell för partitiva och närliggande begreppsrelationer.<br />
Vid sidan av egentliga delar kan det även vara frågan om något som kan anknytas<br />
till en företeelse som en "extra utrustning" (t.ex. trädgård – belysning; kaffedryck –<br />
socker). Det kan också gälla en egenskap hos utgångsbegreppets referent (t.ex. kaffe –<br />
koffeinhaltig), dess ämneskomponent (t.ex. kaffe – koffein), ingredienser som den<br />
tillverkats av (se exemplen i 2.1) eller "läge" (espresso – espressokopp). Dessa<br />
relationer kan vändas om på liknande sätt som partitiv över- och underordning. Då kan<br />
man t.ex. fråga Vilken företeelse har utgångsbegreppets referent utvunnits ur? 12<br />
Materialrelationer kunde också kallas "ämneskomponentrelation" eller "utvinnings-<br />
relation" för att uttrycka bättre materialets roll i denna relationstyp.<br />
11<br />
TSK 2006: "begrepp i en partitiv begreppsrelation som avser helheten".<br />
12<br />
Se mera i Nuopponen 1994.<br />
NORDTERM 2009, København 9.-12. juni 2009 89
Aktivitet<br />
Ett aktivitetssystem är en naturlig utgångspunkt för områdets satellitmodell om man<br />
analyserar begrepp som har med en aktivitet, ett aktivitetsområde eller en handling att<br />
göra (se figur 5). Man ställer då frågor om aktiviteten. Vilka av dessa frågor man<br />
ställer, hur man formulerar frågorna och hurudana svar man får beror mycket på<br />
fackområdet T.ex. terminologiarbete görs av en terminolog och aktiviteten har termer<br />
och begrepp som objekt. Som verktyg räknas här utom själva verktyg också material,<br />
sätt och metod som man använder för att utföra handlingen eller aktiviteten. Vid<br />
terminologiarbetet används det olika terminologiska metoder, dataprogram osv.<br />
Aktiviteten eller handlingen kan anknytas till en viss plats, t.ex. terminologiarbete<br />
− terminologicentra, översättningsavdelning; teceremoni − tehus osv. Man kan också<br />
fastställa en tidpunkt eller en tidsperiod då den idkas, t.ex. julfirande − jul. Aktiviteten<br />
eller handlingen kan ha ett eller flera mål eller syften, t.ex. tävling − vinst;<br />
terminologiarbete − begreppslig reda, terminologisk standardisering/harmonisering. I<br />
många fall sammanfaller mål- och resultatbegreppet men ibland kan det vara ändamålsenligt<br />
att göra skillnad mellan målrelation och teleologisk aktivitetsrelation, t.ex. ett<br />
resultat av terminologiarbetet kan vara en ordlista. Aktiviteten kan ha en speciell rutt<br />
som används för att genomföra den. Rutten kan bestå av olika etapper. (Se figur 5.)<br />
FIGUR 5. Analysmodell för aktivitetsrelationer och temporala begreppsrelationer.<br />
Ibland är den granskade aktiviteten en fas i en mera omfattande process och den<br />
kan också ha sina egna underfaser. Relationer mellan faserna leder till temporala<br />
begreppsrelationer. Var och en av faserna kan analyseras med aktivitetsrelationsmodellen<br />
då de tillsammans bildar en kedja. 13<br />
13 Se mera Nuopponen 1994, 2006, 2007.<br />
NORDTERM 2009, København 9.-12. juni 2009 90
Överföring, transmission<br />
En typ av aktiviteter är olika slags överförings- eller transmissionsprocesser. Jag<br />
har klassificerat denna typ av aktiviteter skilt eftersom dessa processer medför<br />
ytterligare komplexitet. Om själva överföringsprocessen (t.ex. betalning) tas som<br />
utgångsbegrepp, kan modellen för analysen av aktivitetsrelationer tillämpas till en stor<br />
del (se figur 6), eftersom överföring eller transmission är en aktivitet och samma typer<br />
av relationer är inblandade (Vad är objektet för överföring, vem utför överföringen,<br />
vilken väg och instrument används? Osv.).<br />
FIGUR 6. Analysmodell för transmissionsrelationer.<br />
När man har företeelsen som överförs som utgångspunkt är det möjligt att fastställa<br />
relationstyper, som är specifika för överföringsprocesser (se figur 6). En sådan är t.ex.<br />
relationen mellan begreppen som avser det som överförs och sändaren (t.ex. skatt −<br />
skattebetalare). Man kan också ta vilken som helst av begreppen som utgångspunkt<br />
och få fram några ytterligare relationstyper. Till exempel om begreppet som avser<br />
sändaren (t.ex. författare) tas som utgångsbegrepp kommer det att anknytas med<br />
begreppen som avser mottagaren (t.ex. läsare) och förmedlaren (t.ex. översättare)<br />
(direkt resp. sekventiell transmissionsrelation). 14<br />
Orsak och verkan<br />
I kausala begreppssystem kan man skilja mellan begrepp som avser olika typer av<br />
orsak och följd (t.ex. finanskris − lågkonjunktur). Orsaker kan vara en agent som kan<br />
tänkas ha förorsakat någonting (kausal agent), en händelse som leder till följder och<br />
bildar eventuellt en kausalkedja (producerande orsak), eller omständigheter som kan<br />
tänkas ha förorsakat någonting (förklarande orsak). T.ex. vid den globala finanskrisen<br />
som började sommaren 2007 kunde man betrakta banker som kausal agenter och deras<br />
osund kreditgivning som producerande orsak och början på en kausalkedja som ledde<br />
till krisen. Patientbegreppet (t.ex. ekonomi) hänvisar till någonting som påverkas och<br />
hos vilken/vilket symptom (t.ex. arbetslöshet, tillväxt, inflation) förekommer. Också<br />
här kan man ta vilket som helst begrepp som utgångsbegrepp och få fram olika<br />
synvinklar på orsak och följd.<br />
14 Se mera i Nuopponen 2007.<br />
NORDTERM 2009, København 9.-12. juni 2009 91
FIGUR 7. Analysmodell för kausala begreppsrelationer med följdbegreppet som utgångspunkt.<br />
I analysmodellen i figur 7 har följdbegreppet tagits som utgångsbegrepp (t.ex.<br />
lågkonjunktur). Mellan det och orsaksbegreppet finns det en orsaksrelation, vilken är<br />
den primära kausala begreppsrelationen. De övriga kan man inte undvika när man<br />
analyserar kausala förhållanden närmare. Det finns t.ex. vissa åtgärder (motverkande<br />
orsak) med vilka man kan försöka komma ur lågkonjunkturen eller förhindra den, men<br />
om det inte lyckas, kan lågkonjunkturen ha t.ex. depression som konsekvens. Man kan<br />
skilja ytterligare relationstyper i k ausala begreppssystem, t.ex. olika symptom kan<br />
förekomma i olika delar av "patienten" och ha sina egna konsekvenser och<br />
"botemedel". 15<br />
Beroende och jämförelse<br />
I figur 8 har jag samlat relationer som inte nödvändigtvis formar ett sammanhängande<br />
begreppssystem eller kan fungera som sådan som en utgångspunkt för en<br />
satellitmodel. De anknyter sig på ett eller annat sätt till b eroende och jämförelse<br />
mellan företeelser och kan integreras i de övriga modellerna enligt behov. I de tidigare<br />
klassifikationerna har jag placerat dessa relationer på olika ställen, de flesta som<br />
kontakt- och interaktionsrelationer. 16<br />
FIGUR 8. Olika typer av beroende.<br />
Ägarrelationen baserar sig på sambandet mellan referenten och den som äger den<br />
eller tvärtom, om referenten är den som äger något. Dessa relationer är ofta nära<br />
partitiva begreppsrelationer eller tillhörighetsrelationer, men ibland kan ägarrelationen<br />
15 Se mera i Nuopponen 2008.<br />
16 Se mera i Nuopponen 1994, 2005.<br />
NORDTERM 2009, København 9.-12. juni 2009 92
vara nyttig vid begreppsanalysen när ägandeförhållandet betonas speciellt (t.ex.<br />
skogsägare − skog). I vissa fall fungerar "ägare" också bättre som metafor. Exempel<br />
på en avhänginghetsrelation är relationerna mellan begreppen värd − gäst och<br />
långivare − låntagare. En korrelationsrelationen finns det t.ex. mellan begreppen pris<br />
− efterfrågan och symbolrelationer mellan riksdagsledamot − valkrets och term −<br />
begrepp. Rangrelationen har att göra med företeelsernas placering i den skala som<br />
uppstår av jämförelsen (t.ex. huvudgäst, andra gäst, tredje gäst vid den japanska<br />
teceremonin). Rollrelationen råder mellan utgångsbegreppet och begreppen som avser<br />
företeelsens roller (t.ex. professor − sakkunnig; journalist − grindvakt; museum −<br />
upplysare).<br />
SYNTES<br />
De begreppsrelationsmodeller presenterades i denna artikel är avsedda för det första<br />
att komma i gång med begreppsanalysen och att skapa en preliminär helhesbild i form<br />
av en satellitmodell. För det andra stöder de arbetet när man ska reda ut och<br />
specificera olika typer av begreppsrelationer och begreppssystem(fragment) som man<br />
har funnit inom det undersökta fackområdet.<br />
Under den systematiska genomgången av den preliminära satellitmodellen får man<br />
ytterligare information för att klargöra olika typer av begreppssystem(fragment).<br />
Speciellt värdefullt är informationen som preciserar de preliminära generiska begreppssystemen.<br />
Det som man samlar och sorterar med hjälp av begreppsrelationsmodeller<br />
och satellitmodellen kan utom begrepp och termer vara information om<br />
referenternas egenskaper. Man kan då kartlägga och jämföra begreppskännetecken 17<br />
.<br />
Även om all denna information inte nödvändigtvis direkt bygger upp begrepps-<br />
systemet kan den hjälpa på flera andra sätt vid begreppsanalysen.<br />
Den sista fasen i en systematisk begreppsanalys består av att sammanfatta analysens<br />
resultat i en reviderad satellitmodell. Efter att ha klargjort den preliminära<br />
satellitmodellens delar "satellit" för "satellit" så långt som man vill komma in i<br />
fackområdets vetande, återkommer man alltså till helheten och modifierar den så att<br />
alla bitar faller på plats. Som slutresultat uppstår det ett "heltäckande" begreppssystem<br />
eller en ontologi för det valda fackområdet. I vissa fall uppstår det flera alternativa<br />
eller parallella helhetsbilder, t.ex. när man jämför skillnader mellan begreppssystem i<br />
olika länder, teorier, företag osv.<br />
Slutresultaten kan tillämpas när man ska skriva definitioner, utarbeta ordlistor,<br />
ontologier, termbanker, osv. I enlighet med den allmänna terminologilärans traditioner<br />
är den systematiska begreppsanalysmetoden avsedd för att vara allmänt tillämpbar<br />
oavsett språk och fackområde eller oavsett vem som använder den. Analysprocessen<br />
kan integreras som ett moment inte bara i te rminologiarbete utan i o ntologiarbete, i<br />
teknikinformatörens arbete eller i vetenskaplig forskning. Metoden och dess verktyg är<br />
inte heller bundna vid ett visst modellerings- eller databassystem. Friheten från dessa<br />
begränsningar har gjort det lättare att testa olika möjligheter och att ändra<br />
klassifikationen. Detta har bidragit också till a tt satellitmetoden och klassifikationer<br />
har kunnat tillämpas och modifieras för olika syften 18<br />
.<br />
17<br />
Se mera i Nuopponen 2000.<br />
18<br />
T.ex. Kristiansen 2000; Hedin osv. 2000.<br />
NORDTERM 2009, København 9.-12. juni 2009 93
REFERENSER<br />
Hedin, Anita, Lena Jernberg, Hans Christian Lennér, Torsten Lundmark & Sven-Bertil Wallin (2000).<br />
Att mena och mäta samma sak: en begreppsorienterad metod för terminologiskt arbete. Lund: Studentlitteratur.<br />
Kristiansen, Marita (2000). Emerging disciplines in the behavioural sciences. Assessment of disciplinary<br />
autonomy by terminological conceptual analysis. In Unesco Alsed-LSP Newsletter vol. 23, no.<br />
2 (50) 2000. Copenhagen: Copenhagen Business School.<br />
Nuopponen, Anita (1994). Begreppssystem för terminologisk analys. Acta Wasaensia. Vaasa:<br />
University of Vaasa.<br />
Nuopponen, Anita (1996). Att strukturera kunskap. Om systematisk begreppsanalys. I: J. Myking, R.<br />
Sæbøe & B. Toft (red.), Terminologi − system og kontekst , 171−196. Oslo: Noregs forskingsråd.<br />
Nuopponen, Anita (1997). A model for systematic terminological analysis. In L. Lundquist & H. Picht<br />
& C. Quistguaard (Eds.), LSP − Identity and Interface Research, Knowledge and Society, 363−372.<br />
Copenhagen: Copenhagen Business School.<br />
Nuopponen, Anita (2000). Satelliter och system − att integrera begreppssystem i terminologiarbetet. I<br />
A. Nuopponen, B. Toft & J. Myking (red.), I terminologins tjänst. Festskrift för Heribert Picht på<br />
60-årsdagen, 128−45. Vaasa: Vaasan yliopisto.<br />
Nuopponen, Anita (2005). Concept Relations v2 An update of a concept relation classification. In Terminology<br />
and Content Development, 127−138. B. Nistrup Madsen & H. Erdman Thomsen (Eds.).<br />
Copehagen: Litera.<br />
Nuopponen, Anita (2006). A model for structuring concept systems of activity. In Y. Wang, Y. Wang &<br />
Y. Tian (Eds.), Terminology, Standardization and Technology Transfer, Proceedings of the<br />
TSTT'2006 Conference. Beijing: Encyclopedia of China Publishing House.<br />
Nuopponen, Anita (2007). Terminological modelling of processes: an experiment. In B.E. Antia (ed.),<br />
Indeterminacy in Terminology and LSP: Studies in honour of Heribert Picht, 199–213. John Benjamins.<br />
Nuopponen, Anita (2008). Causal concept systems. In B. Nistrup Madsen & H. Erdman Thomsen<br />
(Eds.), Managing ontologies and lexical resources, 17− 28. Copenhagen: Copenhagen Business<br />
School.<br />
Nuopponen, Anita & Nina Pilke (2010). Ordning och reda. Terminologilära i teori och praktik.<br />
Stockholm: Norstedts Akademiska Förlag. (I tryck).<br />
Nuopponen, Anita & Nina Pilke (2008). Radiccio, Bond och Conax – om termer och namn i fackordlistor.<br />
I Kunnskap og fagkommunikasjon, 182−191. Nordterm 15. Red. Jan Hoel. Oslo: Språkrådet i<br />
Noreg.<br />
Terminologins terminologi på nordiska (2005). http://www.nordterm.net/info/Publ/PNORDTERM13sv.html.<br />
Nationella upplagor: Se TNC 2008, TSK 2006.<br />
TNC (2008). Terminologins terminologi: ordlistan. Stockholm: TNC.<br />
http://www.tnc.se/images/stories/Bokhandel/ TT_ordlistan.pdf.<br />
TSK (2006). Terminologian sanasto. Terminologins terminologi. Helsinki: TSK.<br />
http://www.tsk.fi/tiedostot/pdf/ TerminologianSanasto.pdf<br />
NORDTERM 2009, København 9.-12. juni 2009 94
Vehmas-Lehto, Inkeri (2006). Yläkäsite – määritelmien toimittamisen kulmakivi. I Fackspråk och<br />
översättningsteori. VAKKI-symposium XXVI. Vasa 11.–12.2.2006, 319–330. Vasa: Vasa universitet.<br />
Humanistiska fakulteten.<br />
NORDTERM 2009, København 9.-12. juni 2009 95
From concept models to conceptual data<br />
models<br />
Bodil Nistrup Madsen & Anna Elisabeth Odgaard<br />
Abstract. In order to develop a harmonised and efficient IT system, such as a database, it is<br />
important to be familiar with the underlying concept model (concept systems) for the relevant<br />
domain which the IT system should be designed to accommodate, as this forms the necessary firm<br />
foundation for designing the conceptual data model. Although there is no one-to-one correlation<br />
between concept and characteristic features in the concept model and classes and attributes in the<br />
conceptual data model, there are many similarities between concept modelling and conceptual data<br />
modelling, and by closely examining the relationship between the two models, we have strived to<br />
construct an algorithm for creating conceptual data models in Unified Modelling Language (UML)<br />
on the basis of concept models that adhere to the traditional principles and methods of terminology<br />
work.<br />
THE FOUR MODELLING PHASES<br />
Ideally, the modelling procedure for developing an IT system that comprises a<br />
database should consist of four phases: Concept modelling, conceptual data modelling,<br />
logical data modelling and physical data modelling, cf. Figure 1.<br />
FIGURE 1.The Four Modelling Phases<br />
Unfortunately, the concept modelling phase is often omitted and IT developers set<br />
out to design the conceptual data model first off. This causes problems as a conceptual<br />
NORDTERM 2009, København 9.-12. juni 2009 96
data model, which is also inappropriately referred to as a semantic model, contains no<br />
information about meaning, rather, what kind of information should be recorded in the<br />
database. If concepts are not clarified and consensus regarding the content of concepts<br />
and usage of terms has not been reached, problems and misunderstandings could arise<br />
in connection with the data models. Therefore conceptual data models should be<br />
constructed on the basis of concept models and recent research in this area is already<br />
beginning to yield valuable findings (Kop 2008). However, we will go one step further<br />
as we set out to construct an algorithm for automatically generating conceptual data<br />
models on the basis of concept models. In our description of the four phases below we<br />
will use the design of a database for information about a conference system as an<br />
example, cf. Figure 2. This example has been inspired but not constrained by a case<br />
presented by Mathiassen et al. (2008), as we include a concept model and present a<br />
different data model.<br />
FIGURE 2. Extract of a concept model for a conference system<br />
PHASE 1: In the first phase of concept modelling, the domain experts draw upon<br />
their knowledge and understanding of the domain to identify the concepts and terms<br />
which are relevant for the proposed IT system. This information may also be extracted<br />
from requirement and design specifications. Assisted by terminologists or having the<br />
NORDTERM 2009, København 9.-12. juni 2009 97
necessary terminological prerequisites, the domain experts then proceed to organise<br />
concepts visually in a concept model where the mutual semantic relations between the<br />
concepts are recognized and defined. Finally, the subdivision criteria and<br />
characteristic features are identified allowing for the production of short, simple and<br />
precise concept definitions.<br />
PHASE 2: Once a concept model has been produced, a conceptual data model in<br />
UML can be created on the basis of the conceptual information contained in the<br />
concept model in the form of characteristic features and concept relations. In this<br />
work, we have attempted to closely study and formalise to the extent possible, the<br />
many considerations and decisions of this conversion process. As a general trend, it<br />
can be observed that some concepts correspond to classes, attributes or attribute values<br />
while other concepts in the concept model are not to be found at all as elements in the<br />
data model. Furthermore, the relations between concepts in a concept model can differ<br />
from the associations in the corresponding conceptual data model.<br />
FIGURE 3. Algorithm for creating a conceptual data model on the basis of a<br />
concept model<br />
NORDTERM 2009, København 9.-12. juni 2009 98
By applying the algorithm on a concept model, it would be possible to generate a<br />
conceptual data model in UML semi-automatically. However, this does imply that the<br />
concept model is complete, that concepts which are irrelevant to the IT system are<br />
identified manually, that multiplicity is specified manually and that any simplifications<br />
are carried out manually. Figure 3 shows the draft algorithm.<br />
In order to move through the concept model and process all the concepts,<br />
subdivision criteria and relations in the appropriate way, the algorithm identifies the<br />
initial focus concepts which are characterized by not having any super ordinate<br />
concepts nor do they solely enter into an associative relation as the target concept.<br />
Subsequently, a series of properties are analyzed to establish which role the focus<br />
concept, relevant subdivision criteria and relations should play in the conceptual<br />
model. For instance, if a focus concept has several subordinate concepts, then the<br />
focus concept is converted to a class in UML and each subdivision criteria is similarly<br />
converted to a class with an attribute corresponding to the name of the class. In<br />
addition, a “has” relation is created from the class of the focus concept to the class of<br />
the subdivision criteria, and the associated subordinate concepts become attribute<br />
values in the class of the subdivision criteria. Another part of the algorithm accounts<br />
for the measures to be taken when the focus concept enters into associative relations as<br />
the source concept. In this case, the focus concept is converted to a class, if it has not<br />
been converted already, and the associatively related concepts become classes as well<br />
with attributes corresponding to the names of the classes. Lastly, a “has” relation is<br />
created from the class of the focus concept to the associatively related classes. Another<br />
rule in the algorithm states that if a subconcept of a focus concept has subconcepts<br />
itself or enters into associative relations as the source concept, then this subconcept<br />
should be treated as a focus concept too. The algorithm is thus repeatedly traversed<br />
until all concepts have been processed. Figure 4 shows an example of a conceptual<br />
data model generated on the basis of the concept model in Figure 2.<br />
NORDTERM 2009, København 9.-12. juni 2009 99
FIGURE 4. Extract of a conceptual data model generated on the basis of the<br />
concept model<br />
Next, each relation in the new intermediate model will have to be carefully<br />
scrutinized to determine multiplicity. The domain experts and IT developers will also<br />
be able to make simplifications in order to facilitate implementation or cater for<br />
specific user requirements, before the conceptual model can be considered actually<br />
complete and ready for phase 3.<br />
PHASE 3. Concerning the logical data modelling phase, principles and<br />
recommendations for converting a conceptual data model to a logical data model<br />
already exist (Connelly & Begg: 2004, Applied Information Science: 1997). During<br />
this conversion, all classes are provided with a primary key corresponding to the name<br />
of the class joined with the identifier string “ID” and the relevant attribute is given a<br />
(pk) marking. Many-to-many relations transformed into a new intermediate class and<br />
two one-to-many relations from the two original classes to the new intermediate class<br />
are created. All classes which take part in a one-to-many relation are joined by a<br />
primary key (pk) on the “one” side and a foreign key (fk) on the “many” side. An<br />
example of a logical model, which is created on the basis of the conceptual data model<br />
in figure 4, is given in Figure 5.<br />
NORDTERM 2009, København 9.-12. juni 2009 100
FIGURE 5. Extract of a logical data model created on the basis of the conceptual data model<br />
PHASE 4: Implementing a physical data model in the last phase calls for<br />
considerations regarding the facilities and constraints of a given schema and query<br />
language, such as SQL or XML, including technical specifications, such as data types<br />
or the sequence order of elements. Once this has been established, the database can be<br />
implemented.<br />
Figure 6 shows an overview of the phases 1 to 3: from concept model to<br />
logical data model.<br />
CONSIDERABLE POTENTIAL<br />
Formalising the crucial step of converting a concept model to a conceptual data<br />
model has clear benefits and considerable potential, especially in the current age of<br />
digitalization where the necessity of organising and clarifying concepts as a basis for<br />
data modelling has become apparent. By providing guidelines for converting a concept<br />
model to a data model, we hope to pave the way for consistently anchoring data<br />
models in concept models, implementing a mediating framework for a dialogue<br />
between domain experts, terminologists and IT developers, and reducing resource<br />
costs by avoiding errors, ambiguity and vagueness during IT system development.<br />
NORDTERM 2009, København 9.-12. juni 2009 101
Result of Phase 1:<br />
Concept Model<br />
Result of Phase 3:<br />
Logical Data Model<br />
automatic<br />
automatic<br />
Result of Phase 2:<br />
Conceptual Data Model<br />
Figure 6: Overview of the phases 1 to 3: from concept model to logical data model<br />
FUTURE WORK<br />
manual<br />
In future work, we plan to investigate the relationship between concept models and data<br />
models even further and apply the algorithm to a wide range of concept models and<br />
subsequently potentially extend and improve the algorithm. An interesting direction for future<br />
research in this area would also be to devise a methodological workflow for progressing<br />
through the four modelling phases and specify the necessary skills and competencies for the<br />
various profiles involved both directly and indirectly in IT system development.<br />
REFERENCES<br />
Ambler, Scott (2004): "The Object Primer 3rd Edition - Agile Model-Driven Development with UML 2.<br />
0" ,Cambridge University Press, retrieved 20 th August 2009 from<br />
http://www.agiledata.org/essays/dataModeling101.html<br />
Applied Information Science (1997): “Conceptual ~ Logical ~ Physical Models”, retrieved 20 th August<br />
2009 from http://www.aisintl.com/case/CDM-PDM.html<br />
Connolly, Thomas & Begg, Carolyn (2004): "Database Systems 4.ed - A Practical Approach to Design,<br />
Implementation and Management" Pearson Education Limited<br />
NORDTERM 2009, København 9.-12. juni 2009 102
Kop, Christian (2008): “Conceptual modelling tool for novice designers”, International Journal of<br />
Metadata, Semantics and Ontologies, v.3 n.2, p.151-165<br />
Mathiassen, Lars et al. (1998): ”Objekt-Orienteret Analyse og Design”. Forlaget Marko Aps, Aalborg<br />
Yeung, Albert (1998): "Unit 051 - Information Organization and Data Structure", retrieved 20 th August<br />
2009 from http://www.ncgia.ucsb.edu/giscc/units/u051/u051.html<br />
NORDTERM 2009, København 9.-12. juni 2009 103
Interoperabilitet 2.0: sømløse emnekort i digital<br />
forvaltning<br />
Lars Johnsen<br />
Syddansk Universitet, Engstien 1, 6000 Kolding, Danmark<br />
Abstract. I denne artikel gives der en kort introduktion til Topic Maps, en model og teknologi til<br />
udvikling og udveksling af digitale emnekort, og det demonstreres, hvordan sådanne emnekort<br />
kan anvendes til organisering og integration af videns- og informationsressourcer i digital<br />
forvaltning. Blandt andet anføres det, hvordan emnekort kan bruges til integration af konceptuel<br />
og sproglig viden i f.eks. begrebssystemer og termbaser med OIOXML, det fællesoffentlige<br />
sprog til dataudveksling mellem it-systemer i den offentlige sektor i Danmark.<br />
BAGGRUND<br />
Inden for digital forvaltning er der stor fokus på interoperabilitet. Interoperabilitet<br />
kan i bred forstand forstås som it-systemers evne til at agere i samspil, herunder især<br />
deres mulighed for at udveksle og anvende oplysninger og viden på tværs af tekniske<br />
platforme og organisatoriske skel. Der er i Danmark således blevet iværksat flere<br />
projekter og initiativer, som har til f ormål at understøtte interoperabilitet i d en<br />
offentlige sektor. Disse initiativer har resulteret i en lang række konkrete og brugbare<br />
informationsressourcer, også kaldet interoperabilitetsaktiver, så som ontologier,<br />
taksonomier, datastandarder (= OIOXML-skemaer) og webservice-beskrivelser. Og<br />
ikke mindst med IT- og Telestyrelsens nye strategi for fællesoffentlig<br />
datastandardisering er der al mulig grund til at tro på, at der fremover vil ske en<br />
voldsom vækst i antallet og omfanget af disse ressourcer.<br />
Det spørgsmål, der rejser sig, er imidlertid, hvordan man sikrer sig adgang,<br />
sammenhæng, overblik og struktur i dette univers af distribuerede, heterogene, digitale<br />
ressourcer produceret og publiceret af mange forskellige myndigheder og<br />
organisationer, offentlige som private.<br />
Noget af svaret ligger gemt i de portaler, repositorier og web 2.0-platforme som<br />
inden for de sidste par år har set dagens lys. Det gælder f.eks. SEMIC.EU,<br />
Digitaliser.dk og socialebegreber.dk, som på henholdsvis EU-, nationalt og<br />
sektorniveau forsøger at skabe bedre rammer for vidensdeling inden for digital<br />
forvaltning.<br />
SEMIC.EU er et EU-finansieret og -drevet website, der giver aktører i digital<br />
forvaltning mulighed for at dele interoperabilitetsaktiver på tværs af nationale grænser.<br />
Dette sker med udgangspunkt i et åbent repositorie og en defineret clearing-proces, der<br />
skal sikre kvalitet i de ressourcer, der uploades til sitet.<br />
Digitaliser.dk er en fællesoffentlig webbaseret samarbejdsplatform for alle, der<br />
arbejder med digitalisering i Danmark. Digitaliser.dk er baseret på en web 2.0-<br />
NORDTERM 2009, København 9.-12. juni 2009 104
tankegang, der blandt andet betyder, at sitets informationsarkitektur primært er<br />
centreret omkring brugergrupper eller communities. Udover en række<br />
brugerorienterede funktioner, der tillader upload og tagging af ressourcer, debat,<br />
nyhedsformidling, etc., har sitet et REST-baseret API, gennem hvilket sitets indhold<br />
og metadata kan udstilles i et maskinlæsbart XML-format.<br />
Endelig er socialebegreber.dk et eksempel på et website, der har til formål at<br />
fremme vidensdeling og fælles begrebsdannelse samt understøtte bedre it-løsninger<br />
inden for en enkelt sektor, i dette tilfælde det sociale område.<br />
I sig selv er de tre websites eksempler på gode og fremadrettede initiativer, der hver<br />
på deres måde bidrager til udbredelse og kvalitetssikring af information og viden om<br />
digitalisering, herunder interoperabilitet. Problemet er desværre, at der – lige nu – ikke<br />
sker en egentlig integration af de ressourcer, som publiceres på websites som disse.<br />
Sagt lidt firkantet er der i dag ikke nogen større interoperabilitet mellem (ressourcer<br />
på) offentlige websites, hvis formål blandt andet er at understøtte interoperabilitet i<br />
digital forvaltning.<br />
Et konkret eksempel på den manglende sammenhæng er fraværet af eksplicitte<br />
koblinger mellem begrebssystemer, datastandarder og eksisterende lovgivning i form<br />
af bekendtgørelser, regelsæt, love, etc. Kigger man f.eks. på den standard, der<br />
specificerer, hvordan en borgers civilstand skal repræsenteres i OIOXML, det<br />
fællesoffentlige format til dataudveksling, vil man eksempelvis kunne se, at det skal<br />
gøres med XML-koden … og en af<br />
følgende dataværdier:<br />
• married<br />
• divorced<br />
• widow<br />
• registered partnership<br />
• abolition of registered partnership<br />
• longest living partner<br />
• deceased<br />
• unmarried<br />
( Se http://digitaliser.dk/resource/4615)<br />
Der er imidlertid intet i datastandarden, dvs. OIOXML-skemaet og dets tilhørende<br />
dokumentationsfil, der forklarer disse dataværdiers semantik, deres brug eller<br />
lovgivningsmæssige forankring. I det konkrete tilfælde kan det f.eks. undre, at<br />
”widow” åbenbart er en gyldig værdi til angivelse af en persons civilstand, men ikke<br />
”widower”. Så hvordan skal man egentlig angive i OIOXML, at en person er<br />
enkemand? I en praktisk sammenhæng er det selvsagt et problem for den<br />
datamodellør, it-arkitekt eller softwareudvikler, der f.eks. skal planlægge og udvikle<br />
en it-løsning til beregning og overførsel af pensionsudbetalinger.<br />
Der er med andre ord brug for en model og en teknologi, der kan integrere<br />
heterogene interoperabilitetsaktiver, som f.eks. begrebssystemer og datastandarder, på<br />
tværs af websites og stille resultatet til rådighed på en brugbar, gennemskuelig, og<br />
ikke mindst navigerbar facon.<br />
NORDTERM 2009, København 9.-12. juni 2009 105
TOPIC MAPS<br />
En sådan løsning kunne være Topic Maps. Topic Maps er en model, baseret på en<br />
ISO-standard, og tilhørende teknologier til u dvikling og udveksling af såkaldte<br />
emnekort. Emnekort er digitale ”kort”, der kobler vidensstrukturer sammen med<br />
(referencer til) informationsressourcer. Et emnekort indeholder et eller flere emner. Et<br />
emne er en repræsentation af noget, man ønsker at lagre information om: et abstrakt<br />
begreb, en hændelse, et billede eller noget helt andet. Emner kan have et eller flere<br />
navne, og de kan forbindes i navngivne relationer og inddeles i klasser eller typer. Til<br />
emner kan der knyttes informationsressourcer. Det kan være oplysninger, som angives<br />
i selve emnekortet, eller eksterne ressourcer, der linkes til, typisk websider og<br />
lignende. Et centralt aspekt ved emnekort er begrebet identitet. Identitet drejer sig om<br />
at kunne identificere de emner, der optræder i emnekort: f.eks. at kunne skelne mellem<br />
Paris, byernes by, Paris, helten fra den trojanske krig, og Paris, mediedarlingen med<br />
efternavnet Hilton. Måden at identificere et emne på er at udstyre det med en eller<br />
flere emneidentifikatorer. En emneidentifikator er normalt enten en URL (webadresse<br />
på nettet), der peger på en emneindikator, en webside eller andet dokument, der<br />
beskriver eller ”indikerer”, hvad emnet er, eller, hvis emnet i s ig selv er et digitalt<br />
objekt, objektets egen adresse på nettet eller i et lokalt filsystem. Identifikatorer er<br />
centrale i Topic Maps-paradigmet, blandt andet fordi de muliggør programmatisk<br />
sammenfletning af flere emnekort i en sammenhængende struktur. Ved en sådan<br />
sammenfletning vil emner med samme identitet således automatisk blive fusioneret,<br />
deres indhold ”lagt sammen” og redundant information blive fjernet. Emnekort kan<br />
repræsenteres i en række formater, herunder et standardiseret XML-format kaldet<br />
XTM, og bruges ofte som grundlag for udvikling af semantiske portaler og lignende.<br />
I forhold til in tegration af heterogene, distribuerede interoperabilitetsaktiver har<br />
emnekort den fordel, at de bygger på en meget fleksibel datamodel, der tillader en<br />
kombination af forskellige organiseringstilgange. F.eks. kan man med emnekort<br />
integrere ontologier/begrebssystemer, taksonomier og folksonomies, dvs. sæt af<br />
brugergenererede tags. Og lige netop denne mulighed vil være oplagt, når det gælder<br />
om at skabe en bedre sammenhæng mellem interoperabilitetsaktiver af den type, der<br />
blev nævnt ovenfor. Figur 1 illustrerer således, hvordan konceptuel viden (her fra det<br />
sociale område) kan kobles til en taksonomisk struktur, der klassificerer relevante<br />
OIOXML-skemaer, som igen er tagget med et eller flere brugergenererede tags, mens<br />
figur 2 vi ser, hvordan koblingen konkret kan ske ved, at to (eller flere) emnekort<br />
flettes sammen, hvorved emner med samme identifikator automatisk lægges sammen,<br />
i dette tilfælde to OIOXML-skemaer.<br />
Visionen for anvendelsen af Topic Maps i digital forvaltning er således at kunne<br />
generere, mere eller mindre automatisk, digitale emnekort, der i standardiseret form<br />
kortlægger, organiserer eller integrerer data fra diverse interoperabilitetsaktiver.<br />
Sådanne ”OIO-emnekort” vil i sig selv være åbne overlejrede datastrukturer, der<br />
maskinelt kan behandles, udveksles eller sammenflettes, og som kan fungere som<br />
navigeringsværktøjer eller portaler i forbindelse med browsing og søgning.<br />
NORDTERM 2009, København 9.-12. juni 2009 106
FIGUR 1. Integration af ontologi, taksonomi og folksonomy i et emnekort.<br />
FIGUR 2. Emner (fra forskellige emnekort) sammenflettes, hvis de har samme emneidentifikator.<br />
NORDTERM 2009, København 9.-12. juni 2009 107
OIO-EMNEKORT<br />
Det er uden for rammerne af denne korte artikel at diskutere nøjere, hvordan OIOemnekort<br />
bør eller kan modelleres og struktureres. Men det kan måske være på sin<br />
plads lige at eksemplificere, hvordan begrebsmæssige oplysninger og OIOXML rent<br />
faktisk kan integreres og repræsenteres i XTM 2.0, det nyeste XML-format til<br />
udveksling af emnekort. Nedenfor ses et eksempel på dele af et simplificeret, fiktivt<br />
emnekort, der indeholder udvalgte oplysninger om et enkelt begreb, nemlig ”enke”,<br />
herunder dets OIOXML-repræsentation. Det fremgår således af emnekortet, at ”enke”<br />
er et OIO-begreb, hvis emneindikator kan findes på en nærmere angivet webadresse på<br />
Digitaliser.dk; at begrebet har navnet, eller termen, ”enke” på dansk; og at der til<br />
begrebet er knyttet en informationsressource af typen OIOXML, som har værdien<br />
widow.<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
enke<br />
<br />
<br />
<br />
<br />
<br />
<br />
widow<br />
<br />
<br />
<br />
..<br />
<br />
Læg mærke til, at elementet:<br />
• er den container, som indeholder selve emnekortet<br />
• indeholder alle oplysningerne om et enkelt emne<br />
• angiver emnets type<br />
• er koden for emnets identifikator<br />
• angiver emnets navn samt i hvilken kontekst (scope), dette navn er<br />
gyldigt<br />
• giver oplysninger om en informationsressource, der er knyttet til<br />
emnet<br />
• viser, hvilken type denne informationsressource har<br />
NORDTERM 2009, København 9.-12. juni 2009 108
• indeholder informationsressourcens indhold, som i dette<br />
tilfælde i sig selv er et XML-element, dvs. <br />
Bemærk også, at symbolet #, som optræder i attributten ”href” i elementet ”topicRef”<br />
angiver, at der er tale om en reference til et selvstændigt emne. Selvstændige emner er<br />
således typeangivelser som ”OIOConcept” og ”OIOXML” og sproget dansk ”DA”.<br />
Disse emner er dog af overskuelighedshensyn udeladt i eksemplet.<br />
AFSLUTTENDE BEMÆRKNINGER<br />
Forudsætningen for, at brugbare OIO-emnekort kan genereres og sammenflettes på<br />
basis af udtræk af datasæt fra interoperabilitetsaktiver som begrebssystemer, termbaser<br />
og OIOXML-skemaer, er dog nok, at disse datasæt i højere grad ”sættes fri”, end<br />
tilfældet er i dag. Det vil især sige, at de:<br />
• frigøres fra system- og rettighedsmæssige bindinger<br />
• udstilles i veldefinerede og f orudsigelige strukturer og i et standardiseret<br />
maskinlæsbart format, f.eks. via et REST API<br />
• udstyres med konsistente identifikatorer<br />
Det vil med andre ord sige, at ethvert fagligt begreb på eksempelvis<br />
socialebegreber.dk eksempelvis bør kunne tilgås ved hjælp af en logisk URL, og at<br />
man via denne URL automatisk er sikret relevante oplysninger om begrebet i en<br />
veldefineret og gennemskuelig struktur i XML.<br />
En URL på socialebegreber.dk kunne se således ud:<br />
http://www.socialebegreber.dk/begreber/maalgruppe/ADHD<br />
Her angiver adressen et bestemt begreb (ADHD) inden for et nærmere emne<br />
(målgruppe) inden for et specifikt domæne, nemlig det sociale område.<br />
Og aktiveringen af denne URL kunne generere en simpel XML-struktur som f.eks.:<br />
<br />
b345<br />
http://www.socialebegreber.dk/begreber/maalgruppe/ADHD<br />
<br />
ADHD<br />
udviklingsforstyrrelse, der er kendetegnet ved<br />
opmærksomhedsforstyrrelse og/eller hyperaktivitet og<br />
impulsadfærd<br />
...<br />
<br />
NORDTERM 2009, København 9.-12. juni 2009 109
(Oplysningerne er her taget fra begrebsdatabasen på socialebegreber.dk).<br />
Der vil altså her være tale om en slags kontrakt, der sikrer, at et givet sæt af data altid<br />
udstilles på samme måde, uanset hvordan disse data er organiseret eller teknisk<br />
implementeret i d et underliggende it-system på det pågældende website, her<br />
socialebegreber.dk.<br />
REFERENCER<br />
Garshol, L.M (2004): Metadata? Thesauri? Taxonomies? Topic Maps! Making sense of it all.<br />
(http://www.ontopia.net/topicmaps/materials/tm-vs-thesauri.html).<br />
Garshol, L.M. & Moore, G. (red.) (2006): Topic Maps – XML Syntax.<br />
ISO/IEC JTC1/SC34. Information Technology - Document Description and Processing Languages.<br />
(http://www.isotopicmaps.org/sam/sam-xtm/).<br />
Johnsen, L. (2009): National Data Standardization: A Place for Topic Maps? (upubliceret).<br />
NORDTERM 2009, København 9.-12. juni 2009 110
Terminologisamordning inom svenska<br />
myndigheter<br />
Ny språklag på väg<br />
Anna-Lena Bucher<br />
Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />
+46 8 446 66 18, anna-lena.bucher@tnc.se<br />
Abstract. TNC fick 2003 e tt särskilt bidrag från Näringsdepartementet för att föreslå hur en<br />
utvidgad terminologisk infrastruktur för Sverige (TISS) skulle kunna se ut. I TNCs förslag<br />
framhölls särskilt två viktiga komponenter: 1. en allmänt tillgänglig rikstermbank borde<br />
utvecklas – av TNC (!) och 2. inom varje myndighet, företag och organisation borde det finnas<br />
en funktion för terminologisamordning och terminologiarbete. Den första punkten har redan<br />
förverkligats: Rikstermbanken lanserades den 19 mars 2009. Den andra punkten,<br />
terminologisamordning på myndigheter, ser nu också ut att kunna bli verklighet i en mycket<br />
större omfattning än vad som hittills varit fallet. Den 1 juli 2009 kommer nämligen den svenska<br />
riksdagen att anta en språklag som innehåller bestämmelser om svenska språket, de nationella<br />
minoritetsspråken och det svenska teckenspråket. I lagens paragraf 12 sägs det: ”Myndigheter<br />
har ett särskilt ansvar för att svensk terminologi inom deras olika fackområden finns tillgänglig,<br />
används och utvecklas.” Med den nya lagen uppstår nya möjligheter för TNC. Vilka dessa nya<br />
möjligheter är och hur utvecklingen och spridningen av terminologiarbete i myndighetsvärlden<br />
kan se ut kommer att belysas i föredraget.<br />
Bakgrund<br />
Under 16 månader mellan oktober 2002 o ch december 2003 fick Terminologicentrum<br />
TNC en särskild finansiering av Näringsdepartementet för att genomföra en<br />
studie om hur en utvidgad terminologisk infrastruktur skulle kunna se ut, vari ingick<br />
en studie av det terminologiska landskapet i Sverige. Anledningen till att<br />
Näringsdepartementet ville att TNC skulle göra studien vid just denna tidpunkt var<br />
den pågående utvecklingen av den svenska e-förvaltningen.<br />
Studien lyfter fram två ingredienser som särskilt väsentliga i en terminologisk<br />
infrastruktur. Det ena är en terminologiportal på Internet där en nationell termbank,<br />
Rikstermbanken, skulle stå i centrum. Det andra är organisatorisk terminologisamordning<br />
i form av ett nätverk av personer på myndigheter och företag med<br />
terminologiarbete som sin främsta arbetsuppgift.<br />
NORDTERM 2009, København 9.-12. juni 2009 111
Rikstermbanken<br />
Nu har Rikstermbanken blivit verklighet. Den gjordes allmänt tillgänglig den 19<br />
mars 2009 oc h invigningen skedde med viss pompa och ståt. Mottagandet har varit<br />
positivt vilket illustreras i följande presscitat:<br />
”Rikstermbanken […] är en gåva till mänskligheten och särskilt till fackfolk och<br />
översättare.”<br />
”Jag sökte också på ”lane departure warning”, på både svenska och engelska, men<br />
fick ingen träff. Det kanske inte är en term? Den naturliga frågan blir då: Vad är en<br />
”term”? Träff! […] Och ett ”begrepp” – vad är det? […] Ja, så kan man hålla på.<br />
Utan att det kostar några pengar.”<br />
”Nu har nämligen Rikstermbanken öppnat. […] Kolla gärna under rubriken Källor<br />
så ser ni att den gör fog för namnet bank. Det är det ju inte alla banker som gör<br />
nuförtiden.”<br />
Men det finns också uttryck för besvikelse för att en viss term saknas:<br />
”Söker man på ”ord” hittar man däremot ingen definition. Ordet ”ord” skulle<br />
alltså inte vara en term enligt Rikstermbanken. Fast det är nog snarare ett uttryck för<br />
att databasen, trots sina 54 962 termposter, än så länge är rätt begränsad.”<br />
I och med lanseringen av Rikstermbanken är vi alltså i mål med en viktig del i den<br />
svenska terminologiska infrastrukturen.<br />
Terminologisamordning<br />
Med samordning menar TNC ungefär detsamma som man menar i en statlig<br />
offentlig utredning 1<br />
:<br />
”aktivitet som innebär att se till att den verksamhet som bedrivs av olika samhällsorgan genomförs<br />
med utgångspunkt i gemensamma utgångspunkter och att själva genomförandet inte präglas av<br />
divergerande mål mellan olika samhällsorgan”.<br />
Här kan man enkelt byta ut ”verksamhet” mot terminologiarbete för att förstå vad<br />
terminologisamordning skulle kunna stå för. Det säger dock inget om hur en sådan<br />
terminologisamordning rent praktiskt kan uppnås och vilka åtgärder som krävs.<br />
TNC har fört fram idén om ett nätverk av så kallade terminologisamordnare i flera<br />
olika sammanhang under de senaste tre–fyra åren. Bland annat ordnade TNC ett<br />
seminarium för terminologiskt intresserade personer på myndigheter hösten 2006. Där<br />
1 SOU 2007:31 Alltid redo! En ny myndighet mot olyckor och kriser<br />
NORDTERM 2009, København 9.-12. juni 2009 112
skisserade vi en modell för hur terminologisamordning i myndighetsvärlden skulle<br />
kunna se ut. Viktiga förutsättningar är förstås att personer utses och att tid och medel<br />
avsätts. Men det handlar i nuläget också om att förse dessa personer med argument för<br />
terminologiarbetet och om att konkretisera det, till e xempel genom att visa vilka<br />
verktyg (bland annat Rikstermbanken) som redan finns tillgängliga.<br />
Följande arbetsuppgifter är tänkbara för en terminologisamordnare på en<br />
myndighet. Terminologisamordnaren ska:<br />
1. informera internt om att terminologisamordning sker på myndigheten och vad detta<br />
innebär<br />
2. identifiera delfackområden som är specifika för myndigheten och inventera<br />
terminologi inom dessa<br />
3. hantera enstaka termfrågor från de anställda samt dokumentera både frågor och<br />
svar<br />
4. bilda nätverk eller grupper inom myndigheten av experter inom olika<br />
delfackområden<br />
5. medverka i harmonisering och samordning av olika terminologier, inom och mellan<br />
myndigheter<br />
6. initiera projekt där terminologi inom myndighetens delfackområden utreds<br />
7. medverka till att nya svenska termer skapas för till exempel EU-specifika begrepp<br />
8. se till att myndighetens terminologi finns lätt åtkomlig samt ansvara för kontinuerlig<br />
uppdatering av det som är publicerat<br />
9. delta i nätverksaktiviteter som rör språk och terminologi<br />
10. ha klart för sig hur termer hanteras i myndighetens arbete med klarspråk<br />
11. utarbeta och tillhandahålla en intern handledning över hur terminologisamordning<br />
på myndigheten ska se ut<br />
12. ha kontakten med TNC och anlita TNCs kompetens när det är befogat.<br />
Den nya svenska språklagen och dess paragraf 12 om<br />
myndigheternas terminologiansvar<br />
Under årens lopp har TNC idkat lobbyverksamhet för idén med<br />
terminologisamordning inom den offentliga förvaltningen, med viss framgång. Ett<br />
mycket tydligt exempel på framgångsrikt lobbningsarbete måste paragraf 12 i Sveriges<br />
nya språklag anses vara. Den paragrafen tilldelar myndigheterna ett eget ansvar för<br />
den egna terminologin.<br />
Den svenska språklagen antogs av riksdagen den 20 m aj i år (2009) och lagen<br />
trädde i kraft den 1 j uli 2009. Lagen lagfäster svenskan som huvudspråk i Sverige,<br />
vilket betyder att svenska ska kunna användas inom alla samhällsområden. Detta<br />
ställer förstås krav på att svenskan, och särskilt svensk terminologi, utvecklas och<br />
används också inom högre utbildning och forskning.<br />
Paragraf 12 av språklagen lyder:<br />
”Myndigheter har ett särskilt ansvar för att svensk terminologi inom deras olika fackområden finns<br />
tillgänglig, används och utvecklas.”<br />
NORDTERM 2009, København 9.-12. juni 2009 113
Myndigheterna ska alltså se till att deras terminologi ”finns tillgänglig, används och<br />
utvecklas” – en skrivning som mycket väl omfattar det som TNC avsett med<br />
terminologisamordning. Fortfarande återstår dock att konkretisera dessa tre typer av<br />
terminologiansvar.<br />
Trots att det kan ses som en framgång att lagen innehåller en paragraf om<br />
terminologi, har den paragrafen tyvärr inte varit särskilt uppmärksammad, varken i<br />
samband med presentationen av lagförslaget eller efter det att lagen antagits i<br />
riksdagen. Om man läser snabbprotokollet från riksdagsdebatten den 20 maj är det<br />
heller ingen riksdagsledamot som särskilt berör paragraf 12. Debatten handlar i stället<br />
om vilket parti som först kom på idén att Sverige skulle ha en språklag (mycket<br />
utrymme i debatten ägnas åt detta) och hur lagens intentioner ska kunna förverkligas.<br />
Man pratar om läsfrämjande åtgärder med hänvisning till att bokläsandet har minskat<br />
på en del håll, om behovet av undervisning i skolan i dialekter och attitydförändrande<br />
insatser avseende dialekter, om stärkandet av minoritetsspråken och teckenspråket, om<br />
vikten av att svenskan inte trängs undan i EU – men inte ett ord om terminologi. En<br />
vänsterpartist påpekar att svenska språkets ställning inom forskning och högre<br />
utbildning har behandlats styvmoderligt i regeringens proposition, men närmare<br />
fackspråk än så kommer inte debatten. Det är på något vis symptomatiskt för den<br />
breda språkdebatten i Sverige i dag: man talar gärna om språkets estetiska sida och<br />
ofta ligger debatten på en övergripande nivå, till exempel svenskan i EU och i<br />
forskning och högre utbildning. Många talar om risken för domänförlust och om<br />
vikten av den semantiska interoperabiliteten i samband med utvecklingen av eförvaltningen<br />
– men nästan ingen utanför TNC kommer in på vilka konkreta<br />
handlingar som behövs för att undvika domänförlust – eller uppnå domänvinster – och<br />
för att möjliggöra en semantisk interoperabilitet. Som slagord fungerar ändå<br />
domänförlust och semantisk interoperabilitet, närmare precisering behövs inte.<br />
Det återstår alltså en del arbete för att konkretisera paragraf 12. Fortfarande är det<br />
en viktig pedagogisk uppgift för oss terminologer att ständigt missionera, förklara,<br />
argumentera och visa exempel på när terminologiarbete behövs i samhället. Mycken<br />
okunskap råder alltjämt om terminologiarbetets natur och syfte, därför ”glöms” ofta<br />
paragraf 12 bort när språklagen debatteras bland politiker, språkfolk och journalister.<br />
Men i och med lagen och paragraf 12 ha r TNC fått en ny bas att utgå ifrån i sin<br />
pedagogiska uppgift; myndigheterna kan inte längre blunda utan måste se till att de<br />
ägnar terminologifrågorna viss uppmärksamhet. En ny uppgift – och utmaning – för<br />
TNC blir att verka för att paragrafen efterlevs.<br />
Vilka är myndigheterna och hur bör de ta sitt<br />
terminologiska ansvar?<br />
Beroende på hur man definierar ”myndighet” kan antalet svenska myndigheter<br />
variera. Som högst brukar man räkna att Sverige har cirka 300 m yndigheter. I den<br />
vidaste definitionen inräknas också universitet bland myndigheter. Då uppstår förstås<br />
frågan om vilket som är ”deras olika fackområden”. Universitetsadministration, kurs-<br />
NORDTERM 2009, København 9.-12. juni 2009 114
och studieplanering i den högre utbildningen, är naturligtvis ett fackområde, men<br />
universiteten arbetar ju inom ett stort antal fackområden via sin undervisning och det<br />
finns många fackområden som det undervisas i på många universitet. Hur ska man<br />
göra här?<br />
TNC har den uppfattningen att det ska bildas termgrupper bestående av ett nätverk<br />
med representanter för olika universitet, privata företag och myndigheter när det är<br />
relevant. Termgruppsmodellen fungerar bra för sådant här fortlöpande terminologiarbete<br />
som berör många olika organisationer. I Sverige finns redan Svenska<br />
datatermgruppen, Svenska biotermgruppen och Svenska optiktermgruppen. Flera<br />
liknande termgrupper kan behöva bildas nu. För ett sådant här terminologiarbete kan<br />
definitionerna i Rikstermbanken vara både ett bra underlag och fungera som en<br />
katalysator för själva arbetet.<br />
Lagens efterlevnad<br />
Språklagen är en ramlag vilket betyder att den ger riktlinjer. Det finns andra lagar<br />
som också säger något om språk och språkbehandling och dessa ”tar då över”<br />
språklagen. Till exempel säger minoritetsspråklagarna att enskilda har rätt att i s ina<br />
kontakter med förvaltningsmyndigheter och domstolar använda samiska, finska och<br />
meänkieli.<br />
Det är också en skyldighetslag vilket betyder att det allmänna har vissa skyldigheter<br />
när det gäller språket i samhället.<br />
Språkrådet, sedan 2007 en statlig myndighet, kommer att ha uppgiften att<br />
kontrollera hur lagens intentioner uppfylls och de har av den anledningen för 2010 fått<br />
ett utökat statligt bidrag. I sin förberedande planering räknar man inom Språkrådet<br />
med att uppgiften kan bestå i att göra stickprov och titta på myndigheternas utåtriktade<br />
texter. Är texterna skrivna på ett vårdat, enkelt och begripligt språk? Språkrådet<br />
kommer att titta på vilka universitet och högskolor som har uttalade principer för<br />
språkval, och hur dessa ser ut. Hur många engelskspråkiga doktorsavhandlingar som<br />
skrivs i Sverige har en sammanfattning på svenska? Hur ser situationen ut vad gäller<br />
tolkning och översättning till svenska inom EUs organ? Hur många grundskoleelever<br />
går i friskolor med engelska som undervisningsspråk, hur utvecklas dessa elevers<br />
svenskkunskaper? Språkrådet kommer också att behöva välja vilken eller vilka<br />
paragrafer man ska fokusera på under en viss period. Enligt uppgifter från Språkrådet<br />
kommer man att börja med att undersöka hur det ser ut med undervisning på engelska<br />
på universiteten.<br />
När det gäller paragraf 12 är TNC och Språkrådet överens om att TNC har en viktig<br />
roll när det gäller att se hur den paragrafen efterlevs. Det innebär, som vi ser det, att<br />
TNC har ansvaret för att redovisa hur det står till med det offentliga terminologiska<br />
landskapet. Det bör förstås också vara TNC som genom särskilda uppdrag på olika sätt<br />
stöttar myndigheterna i deras terminologiarbete. Det är viktigt att alla myndigheter lär<br />
sig samma metoder för sitt terminologiarbete, och poängen med det är att få ett<br />
kvalitativt bättre och mer enhetligt resultat tvärs över alla myndigheter. Vi vill också<br />
starkt understryka att man ska satsa resurser på själva terminologiarbetet och inte på<br />
att bygga några interna IT-verktyg för publicering av resultatet, till det finns nu<br />
NORDTERM 2009, København 9.-12. juni 2009 115
Rikstermbanken – där kan alla terminologiska ordlistor samlas och göras lätt<br />
tillgängliga för alla, vilket enkelt realiserar en del av ansvaret i paragraf 12.<br />
Trots att många myndigheter, de flesta, inte har terminologer anställda eller någon<br />
terminologisk samordningsfunktion, har ändå många ordlistor på sina webbplatser.<br />
Syftet med dessa ordlistor är inte alltid att effektivisera kommunikationen internt. De<br />
är snarare avsedda att vara till stöd för medborgarna när de besöker myndighetens<br />
webbplats; myndigheten förklarar där några för verksamheten centrala termer. På<br />
Åklagarmyndigheten förklaras till exempel vad en ”åklagare” är, medan Ekonomistyrningsverket<br />
förklarar vad ”ekonomisk styrning” är. Ordlistorna, som sägs ge<br />
förenklade och korta förklaringar, är avsedda både för en intresserad allmänhet och för<br />
dem som arbetar med ämnesinriktade frågor. Ofta är det myndigheternas<br />
informationsavdelningar som utarbetat ordlistorna.<br />
Dessa ordlistor är av skiftande kvalitet, kanske bland annat därför att de har en bred<br />
målgrupp. Dessutom är de många gånger ett engångsarbete, det vill säga de uppdateras<br />
inte regelbundet, och de kan i många avseenden vara ofullständiga.<br />
Sammanfattningsvis kan man säga om förutsättningarna för efterlevnaden av<br />
paragraf 12: Vi på TNC tror att det är bra att Rikstermbanken kom först och språklagen<br />
sedan. Rikstermbanken har redan visat sig fungera som en katalysator och den<br />
har väckt den terminologiska medvetenheten på många håll. Rikstermbanken kan<br />
därför bana väg för utbyggnaden av myndighetsinterna terminologisamordningsfunktioner.<br />
Utmaningar<br />
TNC ser en rad utmaningar för verksamheten om paragraf 12 s ka få den verkan<br />
som lagen avser. Vilka är då utmaningarna förutom att konkretisera paragrafens<br />
innehåll i tänkbara åtgärdssteg? Här kommer några av de viktigaste:<br />
1. Eftersom terminologikompetens är en bristvara i Sverige måste TNC medverka till att<br />
alla som ska arbeta med terminologi inom myndigheterna får en grundläggande<br />
utbildning i terminologiarbetets metoder och principer. Vi måste utbilda och sälja<br />
terminologisk kompetens, men vi får inte göra oss själva överflödiga!<br />
2. Vi måste också sälja in att våra tjänster behövs även efter det att myndigheten<br />
utbildat egna terminologer. Varför? Jo, TNC måste alltid ha en bredare erfarenhet<br />
och en djupare kompetens, vi måste ha en bättre överblick än de enskilda<br />
myndigheterna. Vi måste fortsätta att vara bäst på att bedöma kvaliteten i de<br />
enskilda myndigheternas terminologiarbete och kunna ställa krav på kvaliteten<br />
eftersom terminologierna ska komma in i Rikstermbanken som TNC förvaltar.<br />
3. Vi bör börja tala om ”terminologisk konsekvensanalys” i våra kontakter med<br />
myndigheterna. Visa med tydliga exempel vilken roll terminologin spelar i alla<br />
dokument och vad som kan hända om man inte har överblick, samordning eller<br />
ordning och reda. Vidare bör beslut fattas på goda terminologiska grunder.<br />
4. Vi måste klargöra förhållandet mellan att göra ordlistor på webben som ska vara till<br />
stöd för allmänheten och ordlistor som syftar till att effektivisera kommunikationen<br />
internt. I det sammanhanget måste vi också tala om klarspråksarbetet, som har fått<br />
NORDTERM 2009, København 9.-12. juni 2009 116
stor framgång på många myndigheter, och dess förhållningssätt till terminologi.<br />
Klarspråksarbete uppfattas ibland som en motsättning till terminologiarbete men vi<br />
menar att man måste framhålla att de båda arbetssätten kompletterar varandra.<br />
5. Vi måste framhålla att terminologi är betydelsefullt för svenskans ställning och<br />
användning i EU. När myndigheterna ska hjälpa EU:s översättare är det viktigt att de<br />
angriper ”översättningen” av termer med terminologiska metoder.<br />
6. Vi måste få universiteten, forskning och högre utbildning att förstå att de inte kan få<br />
till en parallellspråkighet eller sammanfattningar på svenska på avhandlingar om de<br />
inte också investerar i ett terminologiarbete.<br />
7. Just nu är även Sverige drabbat av den finansiella krisen. TNC har fått besked från<br />
både Näringsdepartementet och Kulturdepartementet om att de måste ha en viss<br />
återhållsamhet när det gäller finansiering av termgrupper eller förvaltning och drift<br />
av Rikstermbanken. Även hos myndigheterna själva finns en återhållsamhet just nu,<br />
många har anställningsstopp och man anlitar utomstående konsulter i mindre<br />
utsträckning än annars. Frågan är då om man anser att man kan sätta igång med<br />
terminologiarbete? Vår utmaning blir att visa att det kan vara mycket lämpligt att<br />
satsa på ett sådant infrastrukturellt arbete just i ekonomiskt svåra tider, eftersom det<br />
är en bra förberedelse till de bättre tiderna.<br />
8. Vi måste, oavsett finanskris eller inte, utveckla kringtjänster som ger oss stöd för<br />
driften av Rikstermbanken. Och vi har börjat planera för sådana.<br />
9. Sist men inte minst: Vi måste ständigt, ständigt arbeta för att höja den<br />
terminologiska medvetenheten i samhället ett par nivåer.<br />
Terminologisk medvetenhet<br />
Avslutningsvis vill jag med ett citat visa hur sådan terminologisk medvetenhet som<br />
TNC efterlyser kan se ut. Det är hämtat ur ett förord till en terminologisk ordlista som<br />
görs inom Dietisternas Riksförbund. Arbetet sker helt ideellt och med stor entusiasm<br />
bland förbundets medlemmar. De motiverar varför de arbetar med sin terminologi så<br />
här, något som fler borde kunna skriva under på:<br />
- Terminologin ska ligga till grund för ett gemensamt fackspråk för dietister.<br />
- Terminologin ska förbättra, underlätta och standardisera dokumentation och<br />
utvärdering av behandlingen.<br />
- Terminologin ska underlätta kvalitetsarbete, t.ex. utveckling av standarder, riktlinjer,<br />
behandlingsplaner och kvalitetsregister.<br />
- Terminologin ska underlätta forskning genom ett väl definierat fackspråk.<br />
- Terminologin ska tydliggöra dietistens yrkesroll. 2<br />
ReferensER<br />
Bucher, A.-L. (2007). Terminology work the Swedish way. In Terminologija 14. Vilnius: Lietuvių<br />
2 Dietisternas Riksförbund, 2009<br />
NORDTERM 2009, København 9.-12. juni 2009 117
kalbos institutas, ss. 37–48, ISSN 1392-267X<br />
Bucher, A.-L. (2008). Terminologiepolitik und Terminologieinfrastruktur in Schweden, In: eDITion,<br />
Ausgabe 2/2008, Deutscher Terminologie-Tag e.V. (DTT): Heidelberg, ss. 21–24, ISSN 1862-023X<br />
Bilaga: Språklagen<br />
Lagens innehåll och syfte<br />
1 § I denna lag finns bestämmelser om svenska språket, de nationella<br />
minoritetsspråken och det svenska teckenspråket. Lagen innehåller även bestämmelser<br />
om det allmännas ansvar för att den enskilde ges tillgång till s pråk samt om<br />
språkanvändning i offentlig verksamhet och i internationella sammanhang.<br />
2 § Syftet med lagen är att ange svenskans och andra språks ställning och användning i<br />
det svenska samhället. Lagen syftar också till att värna svenskan och den språkliga<br />
mångfalden i Sverige samt den enskildes tillgång till språk.<br />
3 § Om en annan lag eller en förordning innehåller någon bestämmelse som avviker<br />
från denna lag, gäller den bestämmelsen.<br />
Svenska språket<br />
4 § Svenska är huvudspråk i Sverige.<br />
5 § S om huvudspråk är svenskan samhällets gemensamma språk, som alla som är<br />
bosatta i S verige ska ha tillgång till och som ska kunna användas inom alla<br />
samhällsområden.<br />
6 § Det allmänna har ett särskilt ansvar för att svenskan används och utvecklas.<br />
De nationella minoritetsspråken<br />
7 § D e nationella minoritetsspråken är finska, jiddisch, meänkieli, romani chib och<br />
samiska.<br />
8 § Det allmänna har ett särskilt ansvar för att skydda och främja de nationella<br />
minoritetsspråken.<br />
Det svenska teckenspråket<br />
NORDTERM 2009, København 9.-12. juni 2009 118
9 § Det allmänna har ett särskilt ansvar för att skydda och främja det svenska<br />
teckenspråket.<br />
Språkanvändningen i offentlig verksamhet<br />
10 § S pråket i domstolar, förvaltningsmyndigheter och andra organ som fullgör<br />
uppgifter i offentlig verksamhet är svenska. I annan lag finns särskilda bestämmelser<br />
om rätt att använda nationella minoritetsspråk och annat nordiskt språk. När det gäller<br />
skyldigheten för domstolar och förvaltningsmyndigheter att anlita tolk och att<br />
översätta handlingar finns det särskilda bestämmelser.<br />
11 § Språket i offentlig verksamhet ska vara vårdat, enkelt och begripligt.<br />
12 § Myndigheter har ett särskilt ansvar för att svensk terminologi inom deras olika<br />
fackområden finns tillgänglig, används och utvecklas.<br />
Svenskan i internationella sammanhang<br />
13 § Svenska är Sveriges officiella språk i internationella sammanhang.<br />
Svenskans ställning som officiellt språk i Europeiska unionen ska värnas.<br />
Den enskildes tillgång till språk<br />
14 § Var och en som är bosatt i Sverige ska ges möjlighet att lära sig, utveckla och<br />
använda svenska. Därutöver ska<br />
1. den som tillhör en nationell minoritet ges möjlighet att lära sig, utveckla och<br />
använda minoritetsspråket, och<br />
2. den som är döv eller hörselskadad och den som av andra skäl har behov av<br />
teckenspråk ges möjlighet att lära sig, utveckla och använda det svenska<br />
teckenspråket. Den som har ett annat modersmål än de språk som anges i första<br />
stycket ska ges möjlighet att utveckla och använda sitt modersmål.<br />
15 § Det allmänna ansvarar för att den enskilde ges tillgång till språk enligt 14 §.<br />
NORDTERM 2009, København 9.-12. juni 2009 119
Koll på innehåll igen:<br />
Vad har kommit med i Rikstermbanken?<br />
Claudia Dobrina a och Henrik Nilsson b<br />
a Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />
+46 8 446 66 07, claudia.dobrina@tnc.se<br />
b Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />
+46 8 446 66 10, henrik.nilsson@tnc.se<br />
Abstract. Rikstermbanken öppnades på webben den 19 mars 2009. Rikstermbankens användare<br />
får tillgång till termer och begrepp från ett stort antal ämnesområden: ekonomi och teknik,<br />
juridik och humaniora. I Rikstermbanken finns till största delen termer på svenska, men också<br />
termer på flera av Sveriges minoritetsspråk och på andra språk, bland annat på engelska, franska,<br />
danska, norska, finska och ryska – i nuläget drygt 20 språk. I vårt föredrag under Nordterm 2007<br />
diskuterade vi våra ambitioner för innehållet i Rikstermbanken: det skulle vara omfattande,<br />
representativt, varierande, tillförlitligt och av god terminologisk kvalitet. I detta uppföljningsföredrag<br />
kommer vi att berätta om och hur våra ambitioner har förverkligats, om våra<br />
erfarenheter av arbetet med insamlingen och bearbetningen av olika typer av terminologiska<br />
data, om åtgärder (även automatiska) för kvalitetshöjning av materialet, och om kontakter med<br />
dem som levererat material. Frågor om aktualisering och revidering av termposter som finns i<br />
Rikstermbanken kommer också att beröras. Avslutningsvis kommer vi även att redovisa<br />
mottagandet av Rikstermbanken i Sverige och våra visioner för att utveckla termbanken vidare.<br />
FRÅN VISIONER TILL VERKLIGHETEN<br />
I vårt föredrag vid Nordterm ’07 1 tog vi upp en del krav som innehållet i vår (då)<br />
framtida Rikstermbanken skulle uppfylla: Rikstermbankens innehåll skulle vara<br />
omfattande, representativt, varierande, tillförlitligt, av god terminologisk kvalitet och<br />
upphovsrättsligt oklanderligt. Två år och många arbetstimmar senare är det dags för<br />
den första avstämningen: har vi lyckats? För att besvara vår första fråga tar vi en<br />
ögonblicksbild på Rikstermbankens innehåll denna oktoberdag 2009.<br />
Omfattande?<br />
Kan Rikstermbanken med sina 60 000 termposter och 250 000 termer på ett tjugotal<br />
språk beskrivas som omfattande? Frågan beror förstås på vad man jämför med, men<br />
svaret är nog: knappast. Å andra sidan befinner vi oss bara i början och inget (förutom<br />
förstås tid, pengar och eventuellt upphovsrättsliga frågor) hindrar att det blir fler och<br />
fler.<br />
1 Dobrina & Nilsson, 2007<br />
NORDTERM 2009, København 9.-12. juni 2009 120
Representativt?<br />
Med ”representativt” menade vi att det skulle finnas termer från de mest centrala<br />
fackområdena samt från områden av intresse för stora användargrupper. I<br />
Rikstermbanken finns nu begrepp inom bland annat ekonomi och juridik, energi och<br />
bygg, jordbruk och medicin och miljö. Under resans gång har vi dock kommit fram till<br />
insikten hur värdefull information från smala fackområden kan vara. Just på grund av<br />
deras relativa snävhet är de oftast svårtillgängliga. Vi hoppas att terminologisamlingar<br />
från områden som musiketnologi, osttillverkning och anordning av lotterier hittar sina<br />
– och nya – användare tack vare Rikstermbanken.<br />
Varierat?<br />
Detta krav innebär att materialet i Rikstermbanken ska:<br />
1) täcka ett brett spektrum av terminologiska resurser – från renodlade<br />
terminologiska ordlistor till termdatabaser, ontologier och tesaurusar<br />
2) komma från olika leverantörer<br />
3) innehålla relevant terminologisk information på ett stort antal språk.<br />
1) Än så länge är alla källor i Rikstermbanken ordlistor, om än av olika slag:<br />
ordlistor utarbetade enligt terminologins alla regler, ordlistor som bara innehåller<br />
termer och deras ekvivalenter på olika språk, webbordlistor med endast några begrepp<br />
förklarade och gamla hederliga pappersalster (som följaktligen behövde skannas). Vad<br />
gäller andra typer av terminologiska resurser som vi hoppades på (ontologier,<br />
taxonomier m.m.) hör de fortfarande till visionerna …<br />
2) Drömmen om många och olika leverantörer har gått i uppfyllelse:<br />
300 terminologisamlingar från ett 100-tal leverantörer från Sverige och andra nordiska<br />
länder – myndigheter, företag, stiftelser, föreningar och privatpersoner – har lagts in i<br />
Rikstermbanken. Ytterligare en variationsfaktor är namnen på de terminologisamlingar<br />
som levererats: ”Ordlista”, ”Begreppslista”, ”Centrala definitioner”,<br />
”Teoretiska definitioner”, ”Några begrepp”, ”Viktiga begrepp”, ”Ordförklaringar”,<br />
”Vad betyder alla ord?” osv. Denna variation, kombinerad med det faktum att<br />
funktionaliteten hos många sökfunktioner på webbplatser, hör till det som faktiskt<br />
försvårat urvalsarbetet till Rikstermbanken. I varje söksystem måste man nämligen<br />
använda en uppsättning av ”metatermer” för att hitta fram till intressant material, och<br />
det finns fortfarande en stor risk att man missar intressant material.<br />
3) Mångspråkigheten har inte heller blivit lidande: termer på 20 språk finns<br />
representerade. Hur många språk som finns med i varje termpost varierar med de olika<br />
källorna – från enbart svenska upp till ett tiotal andra språk. Utgångspunkten i Rikstermbanken<br />
har varit att beskriva den svenska begreppsvärlden, och i varje termpost<br />
finns antingen termer på svenska eller på något av Sveriges minoritetsspråk (finska,<br />
meänkieli, romani chib, samiska och yiddisch).<br />
NORDTERM 2009, København 9.-12. juni 2009 121
Tillförlitligt?<br />
Detta tål att diskuteras gång på gång. Med erfarenhet av drygt 300 bearbetade<br />
källor tycker vi att det viktigaste när det gäller en ordlistas tillförlitlighet är<br />
kompetensen hos upphovsmännen. Och med kompetensen menar vi i första hand<br />
fackområdeskompetensen men också den terminologiska kompetensen. Fackområdeskompetens<br />
har funnits hos många leverantörer och ett typiskt exempel är Regelsamling<br />
för byggande från Boverket som utarbetats av experter inom byggområdet. Med den<br />
terminologiska kompetensen verkar det ibland ha varit mer problematiskt – det visar<br />
sig i den ibland varierande terminologiska kvaliteten i de levererade samlingarna. Men<br />
eftersom allt som kommit in i Rikstermbanken har genomgått en terminologisk<br />
kontroll och bearbetats (mer om det nedan) kan man om, än med visst förbehåll, bocka<br />
av även detta krav.<br />
För att ytterligare hjälpa användaren i tillförlitlighetsbedömningen av<br />
Rikstermbanken har dessutom en förhållandevis stor mängd metadata inkluderats för<br />
varje källa. Dessutom har (i möjligaste mån) en länk tillbaka till originalkällan lagts in<br />
vilket gör att en användare själv kan gå tillbaka och jämföra med originalet. En risk<br />
för dubbellagring och misstämning mellan material som finns lagrat på två ställen<br />
föreligger alltid när man inte arbetar med en distribuerad databaslösning; TNCs<br />
lösning på detta är ett påminnelsesystem där varje leverantör uppmanas och<br />
regelbundet påminns att meddela eventuella ändringar i material till Rikstermbankens<br />
sekretariat 2 . Detta är också ett sätt att öka tillförlitligheten till en viss källa – och<br />
förstås till Rikstermbanken som helhet.<br />
Av god terminologisk kvalitet?<br />
God terminologisk kvalitet är som bekant resultatet av idogt arbete. Dessutom<br />
krävs en hög terminologisk medvetenhet och en bred terminologisk kompetens när en<br />
ordlista ska utarbetas. Så var inte alltid fallet med alla de ordlistor som levererades.<br />
Det saknades ibland definitioner, och det som kallades för definitioner var inte riktigt<br />
det en terminolog skulle kalla definition. Följaktligen krävs det fortfarande mycket<br />
arbete med att höja den terminologiska medvetenheten och många utbildningsinsatser<br />
för att detta krav på sikt ska kunna uppfyllas. Å andra sidan utgör de samlingar som<br />
utarbetats av fackexperter tillsammans med terminologer (t.ex. TNCs egna<br />
terminologiska ordlistor) en stor del av materialet – och de håller måttet.<br />
Upphovsrättsligt oklanderligt?<br />
Detta har vi sett till genom att bara importera material som vi fått tillåtelse att lägga<br />
in liksom även i någon mån det som kan anses vara ”fritt” material (visst<br />
myndighetsmaterial). I det brev som skickats ut till svenska myndigheter med en<br />
förfrågan om deras material har vi bland annat tryckt på det EU-direktiv 3 som uppmuntrar<br />
till vidareanvändning av offentlig information. Vi lyckades också få tillstånd<br />
2<br />
Allt arbete med Rikstermbanken har bedrivits av en projektgrupp som bestod av några TNCs terminologer. Nu efter lanseringen<br />
har vi skapat en särskild enhet inom TNC som har ansvaret för det fortsatta arbetet – Rikstermbankssekretariatet.<br />
3<br />
Europaparlamentets och rådets direktiv 2003/98/EG av den 17 november 2003 om vidareutnyttjande av information från den<br />
offentliga sektorn<br />
NORDTERM 2009, København 9.-12. juni 2009 122
från förlag för några publicerade samlingar. I de enstaka fall detta inte var möjligt fick<br />
vi avstå från att ta med det materialet.<br />
PÅ ANDRA SIDAN SÖKGRÄNSNITTET<br />
FIGUR 1. Rikstermbankens sökgränssnitt (för enkel sökning).<br />
I Rikstermbanken finns tre huvudtyper av terminologisamlingar: terminologiska<br />
ordlistor från TNC (drygt 40 ordlistor) och TSK i Finland, ett stort antal terminologier<br />
från olika myndigheter och organisationer i Sverige samt ett urval termer och<br />
definitioner ur lagtexter, föreskrifter och Statens offentliga utredningar (SOU).<br />
TNCs och TSKs ordlistor är resultatet av ett mångårigt samarbete mellan<br />
terminologer och experter inom olika fackområden, som tillsammans använt<br />
beprövade terminologiska metoder och principer i sitt arbete. I dessa samlingar fanns i<br />
de flesta fall begreppsbeskrivningar i form av definitioner och kompletterande<br />
information (anmärkningar) samt ekvivalenter på flera språk. Till exempel har TNC:s<br />
geologiska ordlista svenska termer, definitioner, anmärkningar samt ekvivalenter på<br />
åtta språk. TSKs Mobilordlista har termer, definitioner och anmärkningar på svenska,<br />
finska och engelska.<br />
Det material som hämtades från andra organisationer visade en mycket större<br />
variation vad gäller terminologisk kvalitet samt mängd och typer av information i<br />
termposterna. I Svensk-engelsk ordlista från Migrationsverket innehåller termposten<br />
bara den svenska termen och dess engelska ekvivalent. I Läkemedelsverkets Svenska<br />
definitioner av läkemedelsformer finns både terminologiskt korrekta definitioner och<br />
beskrivningar som ger en viss information om begreppet utan att avgränsa det mot<br />
relaterade begrepp. Majoriteten av materialet hade tidigare publicerats på webbplatser,<br />
men det finns också exempel på material som publicerats i bokform. Materialet från de<br />
svenska termgrupperna utgör ett annat välkommet inslag i Rikstermbanken, det<br />
handlar ju om aktuella begrepp inom deras respektive områden.<br />
Termerna och definitionerna ur Svensk författningssamling (SFS), föreskrifter och<br />
Statens offentliga utredningar (SOU) ger en inblick i hur juridiska definitioner<br />
utformas. Dessa är inte alltid uppbyggda enligt samma principer som terminologiska<br />
definitioner och är i många fall nära knutna till sina respektive dokument. I de fall<br />
NORDTERM 2009, København 9.-12. juni 2009 123
denna koppling varit alltför tydlig, och när den terminologiska kvaliteten varit för låg,<br />
har dessa inte tagits med (se vidare nedan).<br />
VÄGEN IN I RIKSTERMBANKEN<br />
Nu kommer vi att titta närmare på både de utmaningar som arbetet med att<br />
förbereda denna brokiga samling av terminologiskt material för import i en och<br />
samma termbank medfört, och på de lösningar som vi hitintills kommit fram till. Det<br />
handlar om urval, bedömningar och bearbetningar som till exempel omformatering<br />
(vilket bland annat innefattar borttagning av ”bokmässiga” aspekter), kompletteringar,<br />
språkliga och faktamässiga justeringar, men också om automatisk importkontroll – ett<br />
verktyg som varit en stor hjälp i bearbetningen.<br />
VAL AV LEVERANTÖRER<br />
En första fråga blev vem vi skulle kontakta och om vilket material. Lyckligtvis hade<br />
TNC genom sitt tidigare arbete inom infrastrukturprogrammet TISS 4 undersökt vilka<br />
terminologiska samlingar som finns bland olika organisationer. Dock krävdes ändå en<br />
hel del detektivarbete, inte minst vad gäller ordlistor som inte är publicerade som<br />
separata dokument utan som ingår som bilagor i till exempel rapporter och andra<br />
dokument.<br />
När det gäller själva uppsökandet av material generellt uppstår också andra frågor,<br />
relaterade till aspekter som representativitet och balans: Vilken av alla kommunordlistor<br />
ska man välja: alla eller någon viss, och i så fall, varför just den framför en<br />
annan? Bör man fråga alla banker som har ordlistor eller kan man nöja sig med vissa?<br />
Är det till exempel önskvärt att arbetsrelaterade ordlistor från både arbetsgivar- och<br />
arbetstagarorganisationer tas med eftersom detta kan påverka hur definitioner<br />
formuleras? osv. Svaret blir olika i de olika fallen, och kriterier som kvalitet och<br />
aktualitet har förstås varit viktiga.<br />
BEDÖMNING OCH URVAL<br />
Den första preliminära bedömningen av materialet gjordes utifrån de krav och<br />
prioriteringar som vi diskuterade i början av artikeln, bland annat om materialet är<br />
informativt, bearbetbart, tillförlitligt, aktuellt och unikt. Dessa låg till grund för ett<br />
urval på makrostrukturnivå, även om det bör sägas att det är enklare att bedöma enligt<br />
vissa av kraven, till exempel bearbetbarhet och informationsinnehåll än de tre sistnämnda.<br />
Just ”unikheten” är den aspekt som kan förväntas bli viktigare i takt med att<br />
mängden termposter i Rikstermbanken växer; då ökar nämligen också risken att ett<br />
visst begrepp, men en snarlik definition redan finns med.<br />
För urvalet på mikrostrukturnivå gällde frågan om allt i en viss samling skulle tas<br />
med eller om något borde tas bort. Detta förutsätter naturligtvis att innehållet kan<br />
tolkas entydigt vilket dock inte alltid varit fallet. Utgångspunkten här har varit att<br />
materialet ska läggas in i sin helhet, men i vissa fall har termposter tagits bort eftersom<br />
4 TISS = terminologisk infrastruktur för Sverige. Se Nilsson, 2005.<br />
NORDTERM 2009, København 9.-12. juni 2009 124
ett visst begrepp har varit perifert i förhållande till ordlistans eller<br />
leverantörens huvudsakliga fackområde,<br />
de har varit bristfälliga på ett eller flera sätt,<br />
de har varit alltför interna och specifika, till exempel anpassade till en viss<br />
målgrupp,<br />
de har innehållit värderande formuleringar (ibland i form av smygreklam),<br />
det redan har funnits flera snarlika termposter eller termposter av högre<br />
kvalitet i Rikstermbanken.<br />
BEARBETNING<br />
Som man lätt kan ana har den största utmaningen varit att ensa och importera ett<br />
terminologiskt material som hämtats från många olika håll, ett material som utarbetats<br />
av personer med mycket varierande grad av terminologisk kompetens, ett material<br />
som producerats mellan 1940-talet och 2000-talet, ett material där många sätt att<br />
strukturera information finns representerade, ett material som täcker såväl<br />
traditionella, hårda fackområden som ”mjuka” fackområden, till exempel förvaltning<br />
och administration där variationen vad gäller både uttryck och innehåll är stor osv.<br />
Under bearbetningen var vi tvungna att hantera både teoretiska och många praktiska<br />
utmaningar. Som exempel på de första kan man nämna valet av definition eller<br />
förklaring, aktualitet kontra korrekthet, införande av termstatus och avgränsning av<br />
fackområde. Och de praktiska? Det räcker kanske med att nämna att ”bokmässiga<br />
aspekter” av samlingarna på många sätt behövde anpassas till termbanksformatet.<br />
Under de flesta av rubrikerna nedan förklaras de olika utmaningarna, men de lösningar<br />
vi kommit fram till finns också beskrivna.<br />
Även om det mesta av bearbetningen har inneburit uppdelning av materialet har<br />
även sammanslagningar av material gjorts. I de fall en viss terminologisk samling<br />
funnits på flera språk, men varit lagrad i separata filer har dessa slagits samman till en<br />
enda, flerspråkig ordlista. I sådana fall har ett ”bryggspråk”, oftast svenska, underlättat<br />
sammanslagningen.<br />
I andra existerande termbanker 5 har även termposter som innehåller olika<br />
information (till exempel termer på olika språk) om ett och samma begrepp slagits<br />
samman till en enda. Detta ställer höga krav på att det av informationen i termposterna<br />
säkert går att avgöra om det handlar om samma begrepp; detta har hittills inte<br />
genomförts i Rikstermbanken.<br />
Definition eller förklaring?<br />
Som vid all kodning av material till en termbank är det viktigt att informationen<br />
fördelas på ett lämpligt sätt mellan de fält som bestämts i termbanksstrukturen. Redan<br />
i ett tidigt skede valde vi att skilja mellan definition och förklaring, och vi införde<br />
därför ett förklaringsfält som alternativ till definitionsfältet. Följden av detta blev ett<br />
vägval mellan två möjliga typer av begreppsbeskrivningar. Enkelt uttryckt bestämdes<br />
det att i de fall en begreppsbeskrivning inte enkelt lät sig göras om till en termino-<br />
5 EuroTermbank och den iriska termbanken Focal.ie.<br />
NORDTERM 2009, København 9.-12. juni 2009 125
logiskt korrekt definition 6 har den i stället angivits som förklaring. Felber skriver: ”If,<br />
for some reason or other, it is not possible to give a precise or complete definition, at<br />
least an approximate one should be given instead (explanation)” 7 . Vad kan det då vara<br />
som gör att det är svårt att klassa och koda något som en definition? Det kan till<br />
exempel handla om att definitionen inleds med uttryck av typen ”Med X avses”, att<br />
informationen är alltför generellt uttryckt för att kunna kallas definition eller att det<br />
saknas särskiljande kännetecken. Med tiden utvecklades också en viss praxis i fall där<br />
valet mellan definition och förklaring är diskuterbart; så kallade ”samlingsdefinitioner”<br />
8 , dvs. definitioner som inleds med ”sammanfattande benämning på” och<br />
liknande formuleringar, har kodats som förklaringar.<br />
Aktualitet korrekthet<br />
Vi anser att en rikstermbank bör representera de ingående källorna så väl som<br />
möjligt, och i viss mån även redovisa termer som inte längre används. Samtidigt måste<br />
en användare tydligt få veta vilken terminologi som är aktuell vid en viss tidpunkt. I<br />
nuläget signalerar sekretariatet en avvikelse från den ursprungliga källan med hakparenteser<br />
i termposten:<br />
svensk term: friggebod<br />
definition: mindre byggnad (på högst 10 kvadratmeter) [sedan 2008: 15<br />
kvadratmeter] som hör till ett småhus och som får byggas utan<br />
bygglov<br />
Denna typ av markering har även tillämpats för andra faktaändringar, till exempel<br />
Ceylon [numer Sri Lanka]” och för metaupplysningar av typen ”som uppfyller kraven<br />
i SS 84 21 08 (ISO 1496/3) [upphävd].” Detta system har dock nackdelar och kommer<br />
på sikt att ändras till ett särskilt kommentarfält på termpostnivå där sådan information<br />
i stället kan ges.<br />
Ett särskilt problem uppstår när en ordlista i Rikstermbanken innehåller termer som<br />
inte längre används och de nyare termerna ännu inte finns med. När den nyare termen<br />
inte finns med kan en ”uppehållande” kommentar anges på det sätt som angetts ovan.<br />
Exempel: I TNCs ordlista för arbetslivsinrikad rehabilitering (från 1995) används<br />
termen ”förtroendeläkare” som i dag ersatts av termen ”försäkringsläkare” inom<br />
Försäkringskassan. Försäkringskassan har dock ännu inte levererat material till<br />
Rikstermbanken och följaktligen går det inte att göra en korsreferens till en sådan<br />
termpost. I stället kan ett tillägg av typen ”[OBSERVERA: Informationen i den här<br />
termposten är föråldrad. Numer används termen ”försäkringsläkare” av Försäkringskassan.]”<br />
vara ett bättre alternativ än att ta bort hela termposten. Det kvarstår dock en<br />
del frågor kring aktualisering av material – ska till exempel samma upplysning in i alla<br />
termposter där ”förtroendeläkare” nämns? Och påverkas utländska ekvivalenter till<br />
”förtroendeläkare”? Ett särskilt problem gäller lagtexter; är terminologi som ingick i<br />
en tidigare lagtext som upphävts och inte finns med i den nya versionen också att anse<br />
som ”upphävd”?<br />
6<br />
Se till exempel ISO 704:2000 eller Terminologiguiden..<br />
7<br />
Felber, 1984<br />
8<br />
Se vidare Nilsson, 2009<br />
NORDTERM 2009, København 9.-12. juni 2009 126
Ett liknande problem kan uppkomma när ett material innehåller termer som av<br />
svenska termgrupper eller liknande (Svenska Läkaresällskapet, Svenska datatermgruppen,<br />
Svenska biotermgruppen och Svenska optiktermgruppen) anses mindre<br />
lämpliga; till exempel kan en kommentar av typen ”[OBSERVERA: Svenska<br />
datatermgruppen rekommenderar” eller ”Svenska Läkaresällskapet rekommenderar<br />
stavning med]” läggas till.<br />
Termval<br />
Om det i originalmaterialet fanns flera termer som benämner ett visst begrepp kan<br />
en fråga uppstå vilken av dessa som ska anges som den första. Enligt<br />
Terminologiguiden kan bara en av dessa anges som rekommenderad term, och en<br />
sådan presenteras i Rikstermbanken överst och andra (tillåtna termer) därunder. Vad<br />
gäller statusangivelse för de termer som ingår i en termpost används i Rikstermbanken<br />
statusbeteckningarna ”rekommenderad”, ”accepterad” (synonym) och ”avrådd” (som<br />
dessutom markeras grafiskt med överstrykning). Detta vållade inga problem när<br />
termstatusangivelserna fanns i det ursprungliga materialet, vilket oftast var fallet för<br />
TNCs egna ordlistor. För andra samlingar hade man inte alltid tydligt angivit vilken<br />
term som föredrogs och vi har i sådana fall försökt tillämpa ”sedvanliga” termkriterier<br />
(genomsynlighet, språkekonomi, etableringsgrad etc.) så som de beskrivs i ISO 704<br />
för att välja vilken term som ska placeras överst. Då anges inte heller uttryckligen<br />
”rekommenderad” i presentationen av termposten utan den tolkningen stöds endast av<br />
placeringen. Överlag har också tydligare, längre former valts framför kortformer.<br />
Jargongliknande termer, till exempel ”biträde” i Rättshjälpmyndighetens ordlista har<br />
placerats under den tydligare termen ”rättshjälpsbiträde”.<br />
Från ”bok” till termbank: korsreferenser, delar av termer,<br />
homonymi och polysemi<br />
Trots att den stora majoriteten av det material som matats in i Rikstermbanken<br />
utgörs av ordlistor i digital form som (oftast) varit publicerade på webben, har många<br />
av dessa behållit drag av traditionella, tryckta ordlistor. Just den detaljen hade kanske<br />
inte spelat så stor roll om det hade varit upphovsmännen själva som hade matat in sin<br />
ordlista i termbanken; i nuläget ledde det dock till en del problem. I många webbordlistor<br />
finns till exempel ofta ett stort antal termposter som endast består av en<br />
hänvisning till en annan termpost: ”A, se B” (till exempel ”Depå, se Aktiedepå”) 9 . En<br />
sådan upplysning är ganska onödig om man lagrar materialet i en termbank och<br />
bygger snarare på att användaren använder webben som en bok och ”rullar sig<br />
igenom” snarare än söker efter en viss term. Problem kan uppstå när det sedan inte<br />
tydligt framgår i termposten för B varför man hänvisats dit från A. I exemplet med<br />
”depå” ges under ”aktiedepå” endast följande upplysning: ”En tjänst som banker och<br />
andra fondkommissionärer erbjuder för hantering av aktier.” Är ”depå” då att betrakta<br />
som synonym trots att detta inte nämns uttryckligen? Normalt har detta kunnat lösas,<br />
9 Aktiespararna: Ordlista<br />
NORDTERM 2009, København 9.-12. juni 2009 127
men ibland har det krävts kontakter med leverantören för att klargöra vilket<br />
förhållande som råder.<br />
I andra fall nämns det kanske något om A i förklaringen av B utan att A för den<br />
skull är en synonym. Då handlar det inte om synonymi utan om så kallade<br />
inkorporerade termer, som står för ett annat begrepp, och som man av någon<br />
anledning inte velat beskriva i en separat termpost. I de fall dessa inte gått att ”bryta<br />
ut” till en egen termpost har i stället termen angivits i ett separat fält. Detta förfarande<br />
medför att termen ifråga blir sökbar och det underlättar sökningen för användaren;<br />
hade detta inte gjorts hade användaren nämligen enbart fått träff om fritextsökning<br />
använts.<br />
Ett annat specialfall är när man låtit begreppsinformationen för en sådan<br />
inkorporerad term stå kvar i en termpost men ändå skapat en separat termpost för att<br />
där kunna återge ekvivalenterna till termen på andra språk (vilket hade varit svårt i den<br />
ursprungliga termposten). I sådana fall har en speciell typ av korsreferens skapats<br />
(med texten ”Se under”) till den termpost där begreppsinformationen finns.<br />
En annan typisk ”bokaspekt” som ofta lever kvar även i webbordlistor är<br />
användningen av parenteser för att indikera att vissa delar av termer inte är<br />
obligatoriska. Sådana ”platsbesparande former” har vi genomgående ”löst upp” och då<br />
valt att sätta den längre formen först (om inte annat indikerats i ordlistan). Ett exempel<br />
på detta är den engelska termen ”(acoustic) absorption factor” som kodades som två<br />
olika termer: ”acoustic absorption factor” och ”absorption factor”. Vissa längre uttryck<br />
som inte kunde anses utgöra fraser 10 har sönderdelats: en del har angetts i termfältet,<br />
och den andra delen (som ibland snarare kunde ses som användningsområdet)<br />
presenteras i webbgränssnittet inom parentes efter termen. Ett exempel på detta är det<br />
engelska uttrycket ”connecting box for an air terminal device” som i gränssnittet<br />
presenteras som ”connecting box (for an air terminal device)”.<br />
En annan ”bokmässig” aspekt som justerats är det i allmänna ordböcker så vanliga<br />
sättet att presentera alla betydelser under ett och samma uppslagsord. I sådana fall har<br />
vi delat upp denna information i separata termposter och givit termerna nummer (som<br />
gäller inom en och samma terminologisamling). Dessutom har dessa termposter när så<br />
varit möjligt kompletterats med angivelse om särskilt användningsområde.<br />
incidens 1. antalet fall av en viss sjukdom som uppträder i en befolkning under viss tid; anges t ex som<br />
antalet diagnoser per 1 000 invånare per år. 2. antalet av en viss studerad »händelse i en klinisk<br />
prövning eller kohortundersökning, dividerat med antalet deltagare i gruppen. Graden av skillnad<br />
mellan två gruppers incidenstal kan uttryckas genom att det ena divideras med det andra till en<br />
incidenskvot. (originalordlistan)<br />
10 Vi har också fraser som typ av benämning i Rikstermbanken.<br />
NORDTERM 2009, København 9.-12. juni 2009 128
FIGUR 2. Exempel på uppdelning i två termposter med numrerade termer (homonymer eller<br />
polysemer).<br />
Språkliga justeringar<br />
När det kommer till språkliga aspekter finns inga begränsningar vad gäller de<br />
teckenuppsättningar som används i Rikstermbanken i dag (latin, grekiska, ryska), dock<br />
ingår ännu inget material på språk som skrivs från höger till vänster. Vissa av TNCs<br />
ordlistor hade ryska termer (translittererade) och dessa har nu fått sitt kyrilliska<br />
utseende tillbaka i Rikstermbanken. Däremot har japanska termer än så länge behållits<br />
i sin translittererade11 form. Det mesta av arbetet med den språkliga anpassningen har<br />
dock gällt skrivregler och teckenrepresentation.<br />
TNC deltar i det nationella språkvårdsarbetet och bedriver naturligtvis även<br />
fackspråkvård. Innehållet i Rikstermbanken måste därför också vara oklanderligt ur<br />
fackspråkligt skrivregelsperspektiv vilket bland annat innebär att skrivregler som finns<br />
beskrivna i TNCs skrivregelssamling måste följas. Stor och liten bokstav, användningen<br />
av bindestreck, tankstreck, punkt i förkortningar är bara några exempel där<br />
justeringar behövts: till exempel ändrades Monte Carlo metoden till Monte Carlometoden<br />
och Avtalet om ursprungsregler ändrades till avtalet om ursprungsregler.<br />
Särskild möda har ägnats åt att införa Unicode-koder för diverse specialtecken<br />
(minustecken −, dimensionskryss × med flera) och index och exponenter (i kemiska<br />
formler) som förekommer i många termposter. Eventuella felstavningar har<br />
naturligtvis även korrigerats, även för andra språk. 12 Särskild kodning har införts för<br />
kursiv och fet stil.<br />
Harmonisering på alla nivåer<br />
När en terminologisk samling lämnar sin ursprungliga kontext och splittras upp i<br />
enstaka termposter måste varje definition kunna ”stå på egna ben”. Detta får olika<br />
konsekvenser: när det gäller språket har vissa ordlistor ett personaliserat tilltal som blir<br />
underligt när inte längre en viss organisation lika tydligt är avsändare till<br />
informationen (även om det förstås framgår i termpostens källa). Följaktligen har, med<br />
tillstånd från respektive organisation, ”du” (och varianter och böjningar av detta<br />
uttryckssätt) ändrats till ”man” eller passiv form. Viss information – till exempel<br />
referenser till andra dokument eller delar av dokument, interna koder etc. – har också<br />
utelämnats eftersom den inte längre blir meningsfull i Rikstermbanken. Dock har<br />
11 Enligt Kunrei-Siki.<br />
12 En genomgång av tyska termer enligt modern tysk rättstavning genomförs till exempel under hösten 2009.<br />
NORDTERM 2009, København 9.-12. juni 2009 129
elationer mellan termposter behållits om dessa uttryckts i texten språkligt eller<br />
grafiskt (till exempel genom fet eller kursiv stil).<br />
Hjälp på vägen: automatisk importkontroll<br />
Vår börda har blivit lite lättare att bära tack vare ett egenutvecklat verktyg för<br />
automatisk kontroll av det material som importeras i Rikstermbanken. Utan att<br />
fördjupa oss i den bakomliggande tekniken 13 kan vi här ge en liten fingervisning om<br />
hur det går till. Den textfil som är utgångspunkt genomsöks för inkonsekvenser och<br />
felaktiga kodningar. Resultatet av genomsökningen presenteras som fel och varningar.<br />
Felen måste korrigeras för att filen ska kunna importeras, medan varningarna kan<br />
förbises. Vanliga feltyper som avslöjas i importkontrollen är felaktiga fältkoder och<br />
homonymer utan numrering, men inte felstavning eller såklart inte fel val av fält! Av<br />
särskild hjälp är indikationen av felaktiga korsreferenser mellan termposter (vilket ofta<br />
beror på en inkonsekvent skrivning av termerna på olika ställen i ordlistan eller att<br />
vissa termposter tagits bort och korsreferensen därefter inte justerats) eftersom<br />
storleken på materialet i många fall hade gjort det nästintill omöjligt att upptäcka felet<br />
manuellt.<br />
BEARBETNINGEN I BACKSPEGELN<br />
När vi nu ser tillbaka på allt det arbete som vi faktiskt lagt ner på det material som<br />
finns i Rikstermbanken kan man konstatera att det är mångfacetterat och tids- och<br />
resurskrävande. Alla termposter har bearbetats mänskligt och maskinellt utifrån de<br />
prioriteringar och beslut som fattas under processens gång och endast vissa av dessa<br />
moment kan automatiseras med gott resultat. Nya samlingar har inneburit nya<br />
utmaningar och ibland även medfört ändringar av Rikstermbankens datamodell. Med<br />
tanke på bristen på litteratur som beskriver det praktiska arbetet med att samla och<br />
ensa brokigt terminologiskt material kan förhoppningsvis dokumentation och<br />
beskrivningar av det praktiska arbetet med termbanksinnehåll (som den här artikeln<br />
och EuroTermBanks publikationer) vara till hjälp för andra som står i begrepp att<br />
bygga upp termbanker. (Norge och Danmark har båda uttryckt intresse för en nationell<br />
termbank.)<br />
Man kan också se att många av åtgärderna som genomförts under bearbetningen på<br />
olika sätt har lett till en högre terminologisk kvalitet än vad som var fallet i det<br />
ursprungliga materialet (TNCs ordlistor utgör i denna respekt inget undantag). I flera<br />
fall har det handlat om att utnyttja den information som redan fanns i materialet men<br />
som inte använts i ordlistans struktur och presentation. De korsreferenser som angavs i<br />
originalet (till exempel genom markering med fetstil o.d.) har i Rikstermbanken<br />
omvandlats till klickbara länkar, men även i fall där originalkällan inte uttryckligen<br />
angivit detta har sådan information tillförts i möjligaste mån. På det sättet kan<br />
materialet utnyttjas till fullo och förutsättningar för fördjupade kunskaper om<br />
begreppssamband ges.<br />
13 Se vidare Svanberg i denna volym.<br />
NORDTERM 2009, København 9.-12. juni 2009 130
Vi har i vissa fall även tillfört annan information i termposter för att ytterligare<br />
tydliggöra begreppet eller ge upplysningar om termen. Exempel på sådana tillägg är<br />
information om särskilt användningsområde, ordklass, böjning och uttal.<br />
VISIONER<br />
Rikstermbanken har lanserats och blir alltmer känd, använd, uppskattad och använd<br />
som referens. Det återstår dock en hel del att göra och vår slogan ”Alla termer på ett<br />
ställe” kommer att kräva mycket tid och resurser både från Rikstermbankssekretariatet<br />
och från alla som i framtiden kommer att försörja Rikstermbanken med material. Vi<br />
hoppas att den blir hela Sveriges angelägenhet – och för att komma dit behöver den<br />
ha:<br />
ökad omfattning och variation,<br />
ökad interaktivitet,<br />
ständig aktualisering,<br />
högre användaranpassning, bland annat genom flera sökalternativ och genom<br />
integrering med andra programvaror (Word, översättningsminnen),<br />
bredare ändamålsanpassning: Rikstermbanken ska inte bara användas för<br />
sökning utan också för lagring (arkivering av terminologi), för forskning och<br />
undervisning,<br />
kontinuerligt finansiellt stöd.<br />
Förhoppningsvis kan Rikstermbanken på ett generellt plan vara ett föredome och<br />
bli en angelägenhet även för andra utanför Sveriges gränser; på ett mer konkret plan<br />
kan detta åstadkommas genom att samsökningar med andra termbanker (IATE,<br />
EuroTermBank) möjliggörs eller genom att den inkorporeras i andras söksystem (till<br />
exempel söksystemet Quest inom EU).<br />
När det gäller andra typer av terminologiskt material är visionen att förutom<br />
ordlistor av alla slag även lägga in andra typer av terminologiskt relevant material<br />
(ontologier, taxonomier etc.).<br />
En tanke som påverkat det urval och de bearbetningar som beskrivits ovan är att<br />
Rikstermbanken i början befinner sig i en presentationsfas, dvs. de termposter som<br />
finns inom olika områden presenteras – och finns det flera för ett visst begrepp inom<br />
ett visst fackområde så presenteras de ”bredvid” varandra. Tanken är på sikt att denna<br />
fas kan övergå i en konsolideringsfas där vissa termposter kan ensas och en gemensam<br />
definition utvecklas som flera organisationer kan enas kring. Då har den verkligen<br />
blivit den viktiga komponenten i en nationell terminologisk infrastruktur 14 den är tänkt<br />
att vara.<br />
REFERENCER<br />
Dobrina C., Nilsson H. (2007). Koll på innehåll. Vad ska in i en nationell termbank? In NORDTERM 15<br />
Kunnskap og fagkommunikasjon. Oslo, ss.69–75.<br />
14 Se vidare Bucher i denna volym.<br />
NORDTERM 2009, København 9.-12. juni 2009 131
EuroTermBank Consortium (2006). Towards consolidation of European Terminology Resources.<br />
Experience and Recommendations from EuroTermBank Project. Tilde: Riga<br />
Felber, H. (1984). Terminology Manual. Unesco: Infoterm.<br />
ISO 704:2000 Terminology work – Principles and methods.<br />
Nilsson, H. (2005). TISS & IATE. Svensk terminologisk infrastruktur och svensk rikstermbank. I:<br />
Nordterm 14: Ord og termer. (Reykjavík, Island, 9.–11. juni 2005). Reykjavík.<br />
Nilsson, H. (2009). The realisation of a national term bank – how and why? (under publicering).<br />
Suonuuti, H. (2004). Terminologiguiden: en introduktion till terminologiarbete i teori och praktik.<br />
Solna: Terminologicentrum TNC.<br />
NORDTERM 2009, København 9.-12. juni 2009 132
Från Termdok på cd-rom till Rikstermbanken<br />
Peter Svanberg a<br />
a<br />
Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />
+46 8 446 66 15, peter.svanberg@tnc.se<br />
Abstract. Sveriges nationella termbank, Rikstermbanken, öppnades den 19 mars 2009 på<br />
webben. Vilka utmaningar stod TNC inför när terminologiska data skulle bli allmänt tillgängliga<br />
och lätt sökbara via en söktjänst på webben? Vad kunde användas av de tekniska lösningarna<br />
från utvecklingen av Termdok på cd-rom och vad nytt behövde göras för Rikstermbankens<br />
behov? Här ges inblickar i uppbyggnaden av programvaran, databasstrukturen, gränssnitet och i<br />
hanteringen av befintliga termpostdata.<br />
Hur det börjadE<br />
Den ursprungliga planen för Rikstermbanken var att använda programvaran i EUtermbanken<br />
IATE (http://iate.europa.eu/). Det ansågs som en bra lösning – den var<br />
redan utvecklad och TNC hade i ett särskilt projekt (finansierat av statliga Vinnova)<br />
testat programvaran och funnit den användbar för våra behov, efter vissa anpassningar.<br />
Men vidare efterforskningar visade att drift av IATE förutsatte innehav och drift även<br />
av databasprogrammet Oracle, vilket skulle bli mycket dyrt för det förhållandevis lilla<br />
system vi tänkte oss. Vi planerade att driva det själva på TNC, men med oklar framtida<br />
finansiering. Ett annat problem var att ägarskapet för IATE var oklart, vilket ledde<br />
till att det var svårt att få besked om huruvida vi skulle få använda programmet.<br />
Samtidigt fick vi tips om att det fanns en programmerare i Stockholm som arbetat med<br />
IATE-programvaran. Allt detta ledde till att vi beslutade att inleda egen utveckling av<br />
programvara för Rikstermbanken.<br />
TNC och NTRF<br />
En central fråga i utvecklingsarbetet var hur vi skulle arbeta med terminologiska data<br />
– vilket format skulle användas och hur skulle data redigeras?<br />
NTRF, Nordic Terminological Record Format (Hjulstad 1999), är ett termpostformat<br />
som utvecklades i ett samarbete mellan Nordiska terminologer under 1980talet,<br />
främst för att förenkla produktion av tryckta ordlistor. Det florerar olika ”dialekter”<br />
av detta format men grundprinciperna är desamma. Data lagras i enkla textfiler<br />
(dvs. utan någon formatering) och redigeras med ordbehandlingsprogram, normalt<br />
Microsoft Word. Exempel:<br />
KL XXX klassifikation<br />
svTE konvexform term<br />
NORDTERM 2009, København 9.-12. juni 2009 133
svAVTE hanform avrådd term<br />
svAVTE patris<br />
svDF formhalva med upphöjda arbetsytor definition<br />
svRETE konkavform länk till relaterad termpost<br />
enTE positive mould term på engelska<br />
enSYTE male mould<br />
frTE moule positif term på franska<br />
GNGR m grammatisk information<br />
frSYTE poinçon<br />
GNGR m<br />
noTE konveks formdel term på norska<br />
noSYTE positiv form<br />
Varje fält hör till en viss hierarkisk nivå, som påverkar fältvärdets giltighet, se tabell 1.<br />
Ett fält på termnivå måste komma efter – kopplas till – det språknivåfält som det knyts<br />
till. Regler finns för vilka termnivåfält som får knytas till vilka språknivåfält.<br />
TABELL 1 . Nivåer för fält i NTRF.<br />
Nivå Giltighet Exempel<br />
postnivå hela termposten KL – klassifikation av termpostens begrepp<br />
språknivå för ett visst språk svTE, svSYTE, svDF – term, synonym term resp.<br />
definition på svenska<br />
termnivå för ett visst fält som tillhör<br />
språknivån<br />
GNGR – genus för en viss term<br />
Med dagens utvecklingsnivå inom datahantering framstår NTRF-formatet och användning<br />
av MS Word for redigeringen som gammalmodigt och ineffektivt. Om man<br />
skulle utarbeta en termdatahantering idag skulle man troligen välja en XML-lösning,<br />
använda XML-editorer för redigeringen och XSLT för att extrahera data på olika sätt.<br />
Men nu var NTRF det lagringsformat som TNC-terminologer var vana vid att hantera<br />
och som allt TNC:s termdatamaterial var lagrat med. För Rikstermbanken krävdes<br />
följaktligen att program måste utvecklas för att tolka NTRF-data. Detta gjorde att vi<br />
valde att använda NTRF som importformat för Rikstermbanksdata.<br />
Under utvecklingen och utprovningen av NTRF-tolkningen insåg vi successivt:<br />
• Detta att data matas in i MS Word utan några automatiska kontroller medför att<br />
olika typer av fel uppstår i NTRF-filer:<br />
◦ syntaxfel (felstavad kod, uteblivna eller oavsiktliga radbyten)<br />
◦ logiska fel (fel ordning på koderna)<br />
◦ referensfel (felstavad referens eller referens till borttagen termpost)<br />
NORDTERM 2009, København 9.-12. juni 2009 134
• Strikt specifikation av regler saknades – data har lagrats på lite olika sätt under<br />
olika tidsperioder och av olika personer<br />
Detta fick konsekvenserna att en tydlig specifikation gjordes, som kompletterades<br />
efterhand, och att vi implementerade en omfattande importkontroll i systemet (se<br />
nedan).<br />
DATAMODELLEN<br />
Nästa fråga i utvecklingen var vilken datamodell som skulle användas i Rikstermbankens<br />
databas, dvs. vad som skulle lagras om varje termpost. Här valde vi att utgå<br />
från IATE:s hierarkiska datamodell (vilken i sin tur ungefär överensstämmer med ISO<br />
16642). Dess grundstruktur överensstämmer med strukturen i NTRF, så mappningen<br />
mellan NTRF och denna datamodell var till stora delar självklar. Men för vissa data<br />
krävdes en mer strikt specifikation av vad som ska lagras, och hur.<br />
Vi klargjorde också vissa implicita tolkningar. Ett exempel på detta var uppdelningen<br />
mellan term och synonym. Det finns en kod (TE) för term och en för synonym<br />
(SYTE). Men är det säkert en skillnad mellan dessa – är termen alltid den som rekommenderas,<br />
medan synonymer är mindre lämpliga och ska användas med försiktighet?<br />
Vi kom fram till att det bara är för vissa av de ordlistor där TNC medverkat som vi<br />
kan vara säkra på att en sådan uppdelning medvetet gjorts, och då bara för termerna på<br />
svenska. Detta ledde till att vi för varje ordlista måste ange hur dessa koder ska tolkas.<br />
En annan tolkningsupplysning vi insåg behövdes var hur ordklassinformation var<br />
kodad. Oftast var bara ordklass angiven för en term då den – för en läsare med viss<br />
erfarenhet av språket – inte var självklar. Men i vissa källor finns ordklassdata för alla<br />
termer.<br />
Att TNCs ordlistdata innehöll i vissa ordlistor ofullständiga termposter. I anmärkningen<br />
till en termpost om begreppet A nämns ibland termer för ett annat begrepp B. I<br />
de fall då man haft termer på andra språk för B har man gjort en termpost för B som<br />
saknar definition men som hänvisar till A (”se under”). Detta hanteras i Rikstermbankens<br />
datamodell med en riktad relation mer information finns i från termposten för<br />
B till termposten för A. I andra fall har bara existensen av termen för B markerats i Atermposten<br />
(kod UPTE, uppslagsterm). Detta hanteras med ett fält ”inkorporerad<br />
term” i vår datamodell.<br />
Förutom ovan nämnda tolkningsinformation krävdes förstås även att rena<br />
bibliografiska data om varje källa angavs: titel, utgivningsår, utgivare osv. Även en<br />
kortfattad bakgrund till och viktiga upplysningar om källan lagrades.<br />
Vad gäller tecken används genomgående teckenkoden Unicode.<br />
IMPORT TIL RIKSTERMBANKEN<br />
Import till Rikstermbanken sker via ett webbgränssnitt där en noggrann kontroll av<br />
indata görs: syntax och regler måste följas, korsreferenser kontrolleras. Dessutom görs<br />
försök att upptäcka och varna för vanliga fel, såsom glömda radbyten. Denna<br />
hantering har medfört en avsevärd kvalitetsförbättring: Många misstag i ordlistdata har<br />
upptäckts och rättats.<br />
NORDTERM 2009, København 9.-12. juni 2009 135
GRÄNSSNITTET<br />
Rikstermbankens gränssnitt ägnade vi mycket tid åt att utarbeta. Att Rikstermbanken skulle<br />
finnas gratis tillgänglig för alla på webben var ju en ny situation för en termbank: Det var inte<br />
längre bara vi själva eller särskilt intresserade och terminologiskt kunniga som skulle använda<br />
den och tolka termdata utan vem som helst kunde hamna på vår webbplats. Det ställde höga<br />
krav på gränssnittet – det måste vara mycket enkelt att förstå.<br />
Den enkla sökningen, som man ser direkt på ingångssidan – hur skulle den utformas?<br />
Det finns många fördelar med att källspråket är känt när man gör sökning i en<br />
termbank: användaren slipper onödiga träffar, vissa förutsättningar om böjningsmönster<br />
kan göras, etc. Men hur utformar man ett enkelt gränssnitt med en språkangivelse<br />
så att alla förstår att man syftar på källspråket (och inte målspråket)? Vi kom fram till<br />
att det inte går – risken för missförstånd blir stor hur man än gör. Dessutom bedömde<br />
vi att nackdelarna med att komplicera det enkla gränssnittet var allvarligare än<br />
nackdelarna med att källspråk inte är känt. Däremot kostade vi på oss att möjliggöra<br />
ett val mellan sökning bara i termer respektive sökning även i andra fält. Se figur 1.<br />
FIGUR 1. Rikstermbankens ingångssida, med gränssnitet för enkel sökning.<br />
Hur träfflistan skulle presenteras var en annan stötesten. Traditionell visning i form<br />
av en tabell kändes omodernt, svårläst och platsineffektivt. Istället valde vi en presentation<br />
med en några raders sammanfattande visning av det viktigaste om varje träff –<br />
ungefär som i Google. Definition eller förklaring visas alltid (ev. avkortat om den är<br />
lång) men termer på andra språk visas inte. Tanken med detta är att användaren snabbt<br />
ska hitta rätt termpost, och sedan lockas att titta på hela termposten, för att få all<br />
information. Den sökta texten framhävs i träfflistan (med mörkare bakgrund) så att det<br />
är lätt att se var man fick träff i termposten. Vad som presenteras om varje termpost i<br />
träfflistan styrs av var matchningen skedde. Först i träfflistvisningen står alltid den<br />
svenska termen, men om det blev träff i en term på ett annat språk visas den termen<br />
NORDTERM 2009, København 9.-12. juni 2009 136
också. Anmärknings- och exempelfälten visas bara om sökmatchningen endast var i<br />
det fältet.<br />
Sorteringen av träfflistan är noga genomtänkt: Termposterna i träfflistan sorteras<br />
efter bl.a. följande kriterier och nivåer 1<br />
:<br />
1. efter matchande språk – svenska först, sedan engelska, tyska, franska osv.<br />
2. efter plats – alla träffar där termen matchar först, därefter träffar i andra fält<br />
3. efter matchningens exakthet – träff på hela termen först, därefter träff på ett<br />
ord i en flerordsterm<br />
4. efter källas ålder – nyaste källor först<br />
Effekten av detta blir att först kommer alla träffar där träffen var på svenska, därefter<br />
de på engelska osv. Inom alla sådana delmängder (t.ex. träffar på svenska) kommer<br />
först alla träffar med matchning i termen, därefter de med matchning i andra fält. Inom<br />
varje sådan delmängd (t.ex. träffar i termen bland träffar på svenska) kommer först …<br />
Så fortsätter det för varje nivå. Se exempel i figur 2.<br />
PROGRAMMERINGSARBETET<br />
Programutvecklingsarbetet har utförts av en TNC-anställd (jag själv) och inhyrda programmerare<br />
från en konsultbyrå. Vi har använt öppen och fri programteknik: servletmotorn<br />
Apache Tomcat, sökmotorn Lucene, databashanteraren Mysql, programspråket<br />
Java, Javaprogramramverket Appfuse m.m. Utvecklingen har i stor utsträckning skett<br />
iterativt, dvs. genom successiva små förbättringar. Projektadministrationen har skötts<br />
via en webbtjänst.<br />
1 Med sortering i nivåer i menas att vid avgörande av ordningen mellan två objekt används först kriteriet för nivå 1. Bara om det<br />
inte räckte för att avgöra ordningen används kriteriet för nivå 2 osv.<br />
NORDTERM 2009, København 9.-12. juni 2009 137
FIGUR 2. Exempel på träfflista vid sökning efter investering i alla textfält.<br />
NORDTERM 2009, København 9.-12. juni 2009 138
VISIONER<br />
Självklart har vi önskemål och visioner för framtida utveckling av Rikstermbanken. Här följer<br />
några:<br />
• Stabila webbadresser (URL:er): Det finns flera som uttryckt önskemål att i<br />
dokument vill länka från en term i den egna texten till dess termpost i<br />
Rikstermbanken. För tillfället är det olämpligt, eftersom adresser in till en<br />
termpost inte är stabila – de kan ändras när vi ändrar i databasen. Vi tycker det<br />
är intressant med sådana länkar och ska försöka lösa detta problem.<br />
• Andra typer av sökning: Indexlista; på källkategori; expertsökning<br />
• Anpassning till användning på små skärmar – avancerade mobiltelefoner<br />
• Gränssnitt på andra språk<br />
• Möjlighet att göra en särskild ingång för organisationer, så att<br />
Rikstermbanken kan avlasta organisationen från arbetet att publicera materialet<br />
på egna webbplatser.<br />
• Hantering av begreppssystem och begreppsdiagram.<br />
• Exporthantering till TBX, Excel etc.<br />
• Dubblettkontroll/sammanslagning av termposter à la Eurotermbank<br />
ReferensER<br />
Hjulstad H., Eckmann, C. B. (1999). Nordic Terminological Record Format, Rådet för teknisk<br />
terminologi. <br />
ISO (2003). ISO 16642:2003, Computer applications in terminology -- Terminological markup framework.<br />
NORDTERM 2009, København 9.-12. juni 2009 139
Domænemodellering som grundlag for<br />
terminologier og ontologier:<br />
afgrænsningsproblemet<br />
Birthe Toft<br />
Insitut for Fagsprog, Kommunikation og Informationsvidenskab<br />
Syddansk Universitet<br />
Engstien 1<br />
DK-6000 Kolding<br />
Abstract. <strong>Indlæg</strong>get omhandler hvordan et sæt grundlæggende ontologiske og epistemiske<br />
kategorier, udviklet af I. Dahlberg til brug for et universelt klassifikationssystem, ICC, kan<br />
bruges som udgangspunkt for en checkliste med generelle, grundlæggende spørgsmål til et givet<br />
domæne. Det påvises gennem eksempler, at besvarelse af spørgsmålene kan understøtte såvel<br />
den første afgrænsning af et domæne som den indledende begrebsmodellering. Da visse<br />
grundlæggende epistemiske kategorier som tid og sted ikke er relevante i forbindelse med især<br />
rent abstrakte domæner, anbefales det her at supplere med såkaldte kognitive metaforiske<br />
modeller, som antages at kunne kombineres med de øvrige kategorier.<br />
Dette indlæg er en videreførelse af mit indlæg på TKE-konferencen i København i august<br />
2008 (Toft 2008), hvor jeg gjorde et første forsøg på at opstille nogle generelle retningslinjer<br />
for afgrænsning og indledende modellering af domæner i forbindelse med terminologiske og<br />
ontologiske projekter.<br />
Jeg mener dengang at have påvist, at det er muligt at opstille sådanne generelle - og derfor<br />
nødvendigvis meget overordnede - retningslinjer. I dette indlæg har jeg inddraget yderligere<br />
to eksempeldomæner, og jeg har justeret og udbygget retningslinjerne. Desuden har jeg<br />
kombineret dem med kognitive metaforiske modeller, en fremgangsmåde som især viser sig<br />
at være relevant i de tilfælde, hvor det på grund af domænets natur ikke er muligt at<br />
anvende de grundlæggende dimensioner tid, sted og position til afgrænsning og indledende<br />
modellering.<br />
En domænemodel omfatter normalt en funktionel og en strukturel del, hvoraf sidstnævnte<br />
svarer til en terminologisk begrebsmodel. Jeg mener at mine retningslinjer, i kraft af deres<br />
meget generelle karakter, har betydning for begge modellens dele.<br />
NORDTERM 2009, København 9.-12. juni 2009 140
DE PRÆSENTEREDE PROJEKTER OG DOMÆNER<br />
TABEL 1. I tabellen præsenteres de fire domæner, jeg bruger som eksempler, plus de projekter som<br />
modelleringen af de enkelte domæner indgår i.<br />
Domæne Projekt: formål med modelleringen<br />
arkitektur<br />
historie<br />
ernæring<br />
økonomi<br />
web-portal til arkitekturinteresserede borgere<br />
etablering af virtuelt museum om den dansk/tyske grænseregions<br />
historie<br />
oprettelse af forbruger-webportal med ernæringsråd<br />
etablering af termbase/vidensformidling (undervisning)<br />
Domænemodelleringens indledende faser<br />
I litteraturen om domænemodellering lægges der som regel stor vægt på vigtigheden af at<br />
fastlægge et projekts purpose (formål) og scope (’omfang’, ’rækkevidde’ eller<br />
’dækningsområde’). De to beslutninger har naturligvis afgørende betydning for hele<br />
processen og for resultatet.<br />
Jeg har valgt at inddele den indledende domænemodellering i to faser, hvoraf den første<br />
består i indledende afgræsning og ’chunking’ (dvs. grovinddeling), der til dels falder sammen<br />
med fastlæggelse af purpose og scope, medens den anden udgøres af den indledende<br />
begrebsmæssige modellering. Det er ikke muligt at skelne skarpt mellem de to faser.<br />
NORDTERM 2009, København 9.-12. juni 2009 141
Hverken i den terminologiske litteratur eller i litteraturen om vidensmodellering og<br />
ontologier finder man egentlige praktiske råd om, hvordan man tager de første skridt i<br />
domænemodelleringsprocessen. Felber og Budin (1989:222) beskriver for eksempel<br />
afgrænsningsprocessen forud for terminologisk behandling af et fagområde på denne måde:<br />
- afgræns fagområdet (det er ikke tilstrækkeligt at navngive det)<br />
- beskriv fagområdets omfang ved hjælp af så mange underinddelinger som muligt<br />
- undersøg anvendeligheden af eksisterende klassifikationer og systematisk ordnede<br />
indholdsfortegnelser i fagbøger<br />
Kun det sidste råd har vist sig at være brugbart i praksis, eksempelvis i arkitekturprojektet,<br />
hvor mine studerende og jeg foretog følgende ’chunking’ af domænet arkitektur på basis af<br />
en anbefalet lærebog (se også Bilag 1):<br />
- arkitekturhistorie<br />
- stilarter<br />
- grundlæggende teoretiske begreber<br />
- de fysiske omgivelser<br />
- oplevelse af arkitektur<br />
I økonomiske lærebøger bruges ofte nedenstående inddeling af faget. I højre side har jeg<br />
angivet, hvordan de enkelte dele af inddelingen kan hjælpe til at udføre indledende<br />
afgrænsning og ’chunking’:<br />
- Hvad er økonomi?<br />
o det økonomiske problem Afgrænsning i f.t.<br />
o økonomi som socialvidenskab andre videnskaber<br />
- mikroøkonomi<br />
o prissystemet<br />
o forbrug, produktion og omkostninger<br />
o markeder og prisfastsættelse<br />
o faktorprissættelse og indkomstfordeling ’Chunking’<br />
- makroøkonomi<br />
o nationalindkomst og finanspolitik<br />
o penge, bankvæsen og pengepolitik<br />
NORDTERM 2009, København 9.-12. juni 2009 142
Den teoretiske baggrund for retningslinjerne<br />
De retningslinjer, jeg foreslår, hviler som beskrevet i Toft 2008 på et systemisk og<br />
evolutionært videnskabsteoretisk fundament (Budin 1996, Vollmer 1983). Den direkte<br />
inspiration stammer fra Information Coding Classification (ICC), et universelt klassifikations-<br />
og vidensstruktureringsystem til brug for hele Informations- og Dokumentationsområdet, der<br />
blev udviklet af Ingetraut Dahlberg i 1970erne og 1980erne. I Dahlberg 1978 beskrives det,<br />
hvordan ICC direkte bygger på Feiblemans teori om virkeligheden som et gigantisk niveaudelt<br />
system af integrerede systemer (objektområder) samt dertil svarende videnskabelige<br />
discipliner (Feibleman 1965).<br />
Dahlberg byggede ICC på 9 generelle værenskategorier (ontiske kategorier), der kunne<br />
kombineres med 9 generelle formkategorier (epistemiske kategorier). Begge typer af<br />
kategorier er opdelt i hovedgrupper.<br />
Værenskategorierne tager udgangspunkt i virkeligheden som niveaudelt, integreret system,<br />
hvor graden af kompleksitet er stigende fra det nederste til det øverste niveau. I Tabel 2, der<br />
er udarbejdet på grundlag af Dahlberg 1982, er rækkefølgen dog af en eller anden grund den<br />
omvendte, således at gruppen af mest komplekse virkelighedsfænomener befinder sig<br />
nederst.<br />
TABEL 2. Generelle værenskategorier (baseret på Dahlberg 1982)<br />
I: stof og struktur 1. rene former og strukturer<br />
2. energi og stof<br />
3. jorden og rummet<br />
II: levende væsener 4. biologiske entiteter<br />
5. mennesker<br />
6. samfund<br />
III: artefakter 7. materielle produkter skabt af menneske eller samfund<br />
NORDTERM 2009, København 9.-12. juni 2009 143
8. intellektuelle produkter skabt af menneske eller samfund<br />
9. kulturelle og åndelige produkter skabt af menneske eller<br />
samfund<br />
Formkategorierne (Tabel 3) repræsenterer en udbygning af Aristoteles’ kategorier, men<br />
modsat listen over værenskategorierne er de mest grundlæggende kategorier her anført<br />
nederst.<br />
TABEL 3. Generelle formkategorier (baseret på Dahlberg 1982)<br />
I: objekttyper 1. principper<br />
2. materielle objekter<br />
3. abstrakte objekter<br />
II: attributter 4. mængde<br />
5. egenskab<br />
6. relation<br />
III: aktiviteter 7. tilstand<br />
8. proces<br />
9. operation<br />
IV: dimensioner 10. sted<br />
11. position<br />
12. tid<br />
Menneskelig erkendelse og vidensskabelse består i følge Dahlberg i kombination af værens- og<br />
formkategorier, for eksempel ved at værenskategorien 6 (samfund) bestemmes og beskrives<br />
NORDTERM 2009, København 9.-12. juni 2009 144
ved hjælp af formkategorierne 1 (abstrakt objekt) og 7 (tilstand). Bestemmelse og beskrivelse<br />
foregår naturligvis iterativt, hvilket vil sige, at eksisterende kombinationer af værens- og<br />
formkategorier indgår i nye kombinationer.<br />
Dahlberg beskriver den ramme, inden for hvilken kombination af værens- og formkategorier<br />
finder sted i ICC, som en ‘sequence of facets’ eller en ’systematifier’, der blandt andet muliggør<br />
systematisering af emne- og vidensområder gennem en bestemt rækkefølge af kombinationer<br />
af værens- og formkategorier (Dahlberg 1982: 88). I tabel 4 vises et lille uddrag af ICC-tabellen<br />
over emneområder, som bygger på denne ramme.<br />
TABEL 4. Udsnit af ICC – subject groups according to general entity areas (baseret på Dahlberg 1982)<br />
VÆRENSKATEGORIER FACETTER<br />
PRINCIP AKTIVITET RELATION<br />
form og struktur logik statistik ...<br />
energi og stof mekanik teknisk fysik kemi<br />
mennesker human biologi patologi og medicin psykologi<br />
samfund sociologi offentlig administration samfundsplanlægning<br />
materielle produkter økonomi teknologi generelt transport og service<br />
Retningslinjer i form af checkspørgsmål<br />
Inspireret af Dahlbergs ’systematifier’ har jeg udarbejdet en liste over checkspørgsmål til det<br />
enkelte domæne, baseret på værens- og formkategorierne i ICC. Spørgsmålene stilles i den<br />
indledende fase af domænemodelleringen.<br />
TABEL 5. Liste over checkspørgsmål<br />
NORDTERM 2009, København 9.-12. juni 2009 145
1. Inden for hvilke værensområder skal viden modelleres?<br />
2. Hvilken grundlæggende dimension (tid, sted, position) er vigtigst?<br />
3. Hvordan kan dimensionerne bruges i fase 1 og 2 af vidensmodelleringen?<br />
4. Hvilke andre formkategorier har betydning for afgrænsning og ’chunking’?<br />
5. Spiller svarene på spørgsmål 1 – 4 ind på den indledende begrebsmodellering?<br />
Jeg mener, at svarene på disse spørgsmål bidrager til at klargøre nogle basale egenskaber ved<br />
domænet, og at de samtidig muliggør endelig afgrænsning samt letter den indledende<br />
’chunking’ og begrebsmodellering. Checkspørgsmålene giver således svar på spørgsmål som<br />
- hvilke ’virkelighedsniveauer’ skal modelleres, og hvilke kan følgelig udelades?<br />
- kan de grundlæggende dimensioner anvendes som parametre for afgrænsning og<br />
modellering, og i bekræftende fald hvilke?<br />
- hvilke andre formkategorier er i fokus, og hvilke kan der ses bort fra?<br />
Eksempler på besvarelse af checkspørgsmålene<br />
Den følgende gennemgang af de svar, jeg for de fire valgte domæners vedkommende har givet<br />
på de 5 checkspørgsmål, giver anledning til nogle generelle kommentarer.<br />
NORDTERM 2009, København 9.-12. juni 2009 146
TABEL 6. Besvarelse af checkspørgsmål for domænet arkitektur. Formål: Web-portal til<br />
arkitekturinteresserede borgere<br />
SPØRGSMÅL SVAR<br />
1 Inden for hvilke værensområder skal viden<br />
modelleres?<br />
2 Hvilken grundlæggende dimension (tid, position, sted)<br />
er vigtigst?<br />
8 intellektuelle produkter<br />
9 kulturelle og åndelige<br />
produkter<br />
tid; sted og position kan<br />
derimod spille en større rolle i<br />
andre arkitekturprojekter<br />
3 Hvordan kan dimensionerne bruges i fase 1 og 2? tid bruges som grundlæggende<br />
afgrænsnings- og modelleringsparameter;<br />
overlapper til dels<br />
med ’stilarter’ (abstrakt objekt)<br />
4 Hvilke andre formkategorier har betydning for<br />
afgrænsning og ’chunking’?<br />
5 Spiller svarene på 1 – 4 ind på den indledende<br />
begrebsmodellering?<br />
3 abstrakte objekter (stilarter)<br />
8 processer (historisk udvikling)<br />
(deldomænet ’konkrete<br />
bygningsværker’ udelades)<br />
kategorierne ’perioder,’<br />
’stilarter’ og ’grundlæggende<br />
arkitektoniske begreber’<br />
underinddeles og forbindes så<br />
vidt muligt<br />
Kommentarer: Domænet egner sig fortrinligt til afgrænsning og modellering ved hjælp af de to<br />
grundlæggende dimensioner tid og sted. Valget af tidsdimensionen som den basale i netop<br />
dette projekt har afgørende betydning for afgrænsning og indledende modellering.<br />
Muligheden for at se bort fra visse formkategorier bidrager ligeledes til at lette afgrænsning og<br />
modellering.<br />
Nedenstående ses de studerendes skitse til domænemodel, udarbejdet i mind map-værktøjet<br />
Freemind.<br />
NORDTERM 2009, København 9.-12. juni 2009 147
NORDTERM 2009, København 9.-12. juni 2009 148
TABEL 7. Besvarelse af checkspørgsmål for domænet den dansk/tyske grænseregions historie. Formål:<br />
etablering af virtuelt museum<br />
SPØRGSMÅL SVAR<br />
1 Inden for hvilke værensområder skal viden<br />
modelleres?<br />
2 Hvilken grundlæggende dimension (tid, position, sted)<br />
er vigtigst?<br />
5 mennesker<br />
6 samfund<br />
7 materielle produkter<br />
8 intellektuelle produkter<br />
9 kulturelle og åndelige<br />
produkter<br />
tid; derefter sted og position<br />
3 Hvordan kan dimensionerne bruges i fase 1 og 2? grundlæggende afgrænsning<br />
sker på basis af periode (1830 –<br />
2000) og region (Nord- og<br />
Sydslesvig)<br />
4 Hvilke andre formkategorier har betydning for<br />
afgrænsning og ’chunking’?<br />
5 Spiller svarene på 1 – 4 ind på den indledende<br />
begrebsmodellering?<br />
næsten alle formkategorier<br />
involveret – derfor har de ringe<br />
betydning<br />
prioritering mellem<br />
værensområderne 6 (samfund)<br />
og 5 (mennesker) påvirker<br />
begrebsmodelleringen<br />
definitionen af begrebet<br />
’periode’ (granularitet, national<br />
synsvinkel) har stor betydning<br />
for modelleringen<br />
Kommentarer: projektet er afsluttet, og resultatet kan ses på nedenstående adresse 1<br />
.<br />
Checkspørgsmålene er således ikke blevet anvendt i praksis i dette projekt, men<br />
1<br />
http://www.vimu.info/general_01.jsp?lang=da&u=general&flash=true&s=B04FA8A033E6AA97CA9A<br />
NORDTERM 2009, København 9.-12. juni 2009 149
tankeeksperimentet har været meget nyttigt. Især viser det tydeligt, hvor grundlæggende<br />
dimensionerne tid og sted er, og hvor nyttige de er som parametre for afgrænsning og<br />
chunking i mange projekter, omend langt fra i alle, som det ses af de to sidste domæner.<br />
I det aktuelle projekt har det inden for dimensionen tid været vigtigt – og vanskeligt – at<br />
definere begrebet ’periode’, idet perioder både kan være rent numeriske og dermed objektive<br />
fænomener (f.eks. perioden 1910-1920) og kulturelt eller nationalt definerede fænomener<br />
som f.eks. perioden ’den tyske besættelse af Danmark 1940 - 45’, der formentlig ikke vil spille<br />
nogen rolle set fra et tysk historisk synspunkt.<br />
TABEL 8. Besvarelse af checkspørgsmål for domænet basisernæring. Formål: Web-portal om ernæring<br />
SPØRGSMÅL SVAR<br />
1 Inden for hvilke værensområder skal viden<br />
modelleres?<br />
2 Hvilken grundlæggende dimension (tid, position, sted)<br />
er vigtigst?<br />
2 energi og stof<br />
8 intellektuelle produkter<br />
ingen af dimensionerne spiller<br />
nogen rolle<br />
3 Hvordan kan dimensionerne bruges i fase 1 og 2? ingen af dimensionerne kan<br />
derfor anvendes hverken til<br />
afgrænsning eller chunking<br />
4 Hvilke andre formkategorier har betydning for<br />
afgrænsning og ’chunking’?<br />
5 Spiller svarene på 1 – 4 ind på den indledende<br />
begrebsmodellering?<br />
1 principper (råd om ernæring)<br />
2 mængde<br />
5 egenskab<br />
6 relation<br />
de to relevante<br />
værenskategorier fin-inddeles,<br />
og deres egenskaber, indhold<br />
(mængde) og indbyrdes<br />
relationer klargøres. Endelig<br />
BDE2DE55F7E7. Se også Granlie og Toft (2008), der handler om projektets terminologiske og<br />
vidensmodelleringsmæssige aspekter.<br />
NORDTERM 2009, København 9.-12. juni 2009 150
forbindes de med principper i<br />
form af råd om indtag af det<br />
enkelte næringsstof / den<br />
enkelte fødevare<br />
Kommentarer: I projektet drejer det sig om at angive anbefalede mængder af næringsstoffer<br />
samt hvilke mængder af næringsstofferne, der findes i bestemte fødevarer. På den ene side<br />
har man altså brug for inddeling af fødevarer og næringsstoffer i underkategorier, på den<br />
anden side har man brug for en række anbefalinger med hensyn til, hvilke af disse<br />
næringsstoffer og dermed fødevarer, der bør indgå i en sund kost.<br />
For dette domænes vedkommende er det den klare afgræsning af værensområderne og det<br />
klare fokus på de relevante formkategorier, der er resultatet af besvarelsen af<br />
checkspørgsmålene. Domænet er samtidig et klart eksempel på, at de grundlæggende<br />
dimensioner tid og sted langtfra kan anvendes som afgrænsnings- og ’chunking’-redskaber<br />
ved alle domæner.<br />
TABEL 9. Besvarelse af checkspørgsmål for domænet økonomi. Formål: etablering af termbase samt<br />
vidensformidling<br />
SPØRGSMÅL SVAR<br />
1 Inden for hvilke værensområder skal viden<br />
modelleres?<br />
2 Hvilken grundlæggende dimension (tid, position, sted)<br />
er vigtigst?<br />
5 mennesker<br />
6 samfund<br />
7 materielle produkter<br />
8 intellektuelle produkter<br />
ingen dimension er væsentlig<br />
3 Hvordan kan dimensionerne bruges i fase 1 og 2? grundlæggende dimensioner<br />
kan dermed ikke anvendes til<br />
afgræsning eller ’chunking’<br />
4 Hvilke andre formkategorier har betydning for<br />
afgrænsning og ’chunking’?<br />
3 abstrakte objekter<br />
4 mængde<br />
NORDTERM 2009, København 9.-12. juni 2009 151
5 Spiller svarene på 1 – 4 ind på den indledende<br />
begrebsmodellering?<br />
5 egenskab<br />
6 relation<br />
7 tilstand<br />
8 proces<br />
i høj grad. Der modelleres kun<br />
abstrakte objekter, disses<br />
egenskaber og indbyrder<br />
relationer samt de tilstande og<br />
processer, de indgår i<br />
Kommentarer: Alle svarene fortæller os, hvad vi måske godt var klar over i forvejen, nemlig at<br />
vi har at gøre med et rent abstrakt domæne. Ganske vist indgår værensområderne 5 - 7,<br />
mennesker, samfund og materielle produkter, men kun i form af abstraktioner.<br />
Ligesom det var tilfældet med domænet basisernæring, spiller de to grundlæggende<br />
dimensioner tid og sted ingen rolle for hverken afgræsning eller ’chunking’, men for økonomis<br />
vedkommende er årsagen udelukkende domænets rent abstrakte natur, hvilket man<br />
formentlig ikke kan hævde om domænet basisernæring.<br />
I sidste afsnit vil jeg komme ind på, hvordan kognitive metaforiske modeller så at sige kan<br />
erstatte de to grundlæggende dimensioner som ’skelet’ for modellering af visse domæner.<br />
Brug af kognitive metaforiske modeller som supplement<br />
Ved afgrænsning og modellering af rent abstrakte domæner kan de grundlæggende<br />
dimensioner tid, sted og position som nævnt ikke anvendes som redskaber til afgrænsning og<br />
’chunking’. For nogle domæners vedkommende kan en kognitiv metaforisk model imidlertid<br />
anvendes til erstatning for dimensionerne; det gælder eksempelvis for domænet økonomisk<br />
teori.<br />
NORDTERM 2009, København 9.-12. juni 2009 152
Kognitive metaforiske modeller er et begreb der stammer fra eksperientiel kognitionsteori,<br />
hvor det antages, at erkendelse og forståelse af nye begreber forudsætter skabelse af<br />
omfattende kognitive modeller med metaforisk basis. Modellerne fungerer som rammer,<br />
inden for hvilke det er muligt at kategorisere og forstå nye vidensområder metaforisk eller<br />
analogt, idet viden overføres fra et erfaringsdomæne til et nyt.<br />
Som omtalt i Toft 2007 kan klassisk økonomiske teori betragtes som en abstraktion, der hviler<br />
på en såkaldt ’rod’-metafor eller ’rod’-analogi, nemlig analogien til markedet med dets aktører<br />
og de kræfter, der spiller ind på aktørernes beslutninger. I økonomiske lærebøger udnyttes<br />
markeds-analogien faktisk i praksis, især på grundlæggende niveauer. Det sker i form af det<br />
såkaldte økonomiske kredsløb, der bruges som visuelt redskab og som udgangspunkt for<br />
gennemgangen af økonomiske begreber.<br />
Jeg mener, at det må være muligt at ’koble’ de relevante værens- og formkategorier på den<br />
eksisterende rod-analogi til erstatning for de grundlæggende dimensioner tid og sted. Ikke blot<br />
for teoretisk økonomis vedkommende, men også for andre rent abstrakte domæners<br />
vedkommende.<br />
Alene i kraft af, at al forståelse i følge eksperientiel kognitionsteori sker via metaforisk<br />
overførsel af viden fra et erfaringsområde til et andet, vil det nærmest være naturstridigt ikke<br />
at anvende denne metode, men det er blot vigtigt, at den anvendes bevidst og konsekvent, og<br />
at man ved hjælp af checkspørgsmålene gør sig klart, hvornår den er anvendelig.<br />
REFERENCER<br />
Budin, G. (1996). Wissensorganisation und Terminologie. Die Komplexität und Dynamik<br />
wissenschaftlicher Informations- und Kommunikationsprozesse. Tübingen: Gunter Narr Verlag.<br />
Dahlberg, I. (1978). Ontical Structures and Universal Classification. Bangalore: Sarada Ranganathan<br />
Endowment for Library Science.<br />
Dahlberg, I. (1982). ICC – Information Coding Classification – Principles, Structure and Application<br />
Possibilities. International Classification 9 (1982), No. 2.<br />
Feibleman, J.K. (1965). Theory of Integrative Levels. Kyle, B. (ed.): Focus on Information. London:<br />
Aslib.<br />
Felber, H., Budin, G. (1989). Terminologie in Theorie und Praxis. Tübingen: Günter Narr Verlag.<br />
Granlie, J. & B. Toft (2008). The Virtual Museum Project – From a Knowledge Modelling and<br />
Implementation Point of View, i: K. Robering (ed.): Information Technology for the Virtual Museum;<br />
NORDTERM 2009, København 9.-12. juni 2009 153
Museology and the Semantic Web. LIT Verlag.<br />
Temmerman, R. (2000. Towards New Ways of Terminology Description; The Sociocognitive Approach.<br />
Amsterdam: John Benjamins.<br />
Toft, B. (2007). Concept formation and indeterminacy in the LSP of Economics, i: B.E. Antia (ed.):<br />
Indeterminacy in terminology and LSP. Studies in honour of Heribert Picht. John Benjamins<br />
Publishing Company.<br />
Toft, B. (2008). Initial Delimitation of Domains and Initial Conceptual Modelling: Can General<br />
Guidelines be Devised?, i: Nistrup Madsen, B., Erdman Thomsen, H. (eds.): Managing Ontologies<br />
and Lexical Resources: Proceedings of the 8th International Conference on Terminology and<br />
Knowledge Engineering, Copenhagen Business School, 19. – 20. August, 2008. København: Institut<br />
for Internationale Sprogstudier og Vidensteknologi. S. 79-87.<br />
Vollmer, G. (1983). Evolutionäre Erkenntnistheorie. Stuttgart.<br />
NORDTERM 2009, København 9.-12. juni 2009 154
Personaliseret information<br />
Emnesystematik bag kommunikation af<br />
videnskabelig information på Internettet<br />
Jørgen Burchardt<br />
seniorforsker, Nyt om Arbejdsliv, Nyborgvej 13, 5750 Ringe www.burchardt.name.<br />
Abstract. Med relativt små midler kan en emnesystematik udvikles til brug hos en videnskabelig<br />
nyhedstjeneste. Med eksempel fra Nyt om Arbejdsliv fortælles hvorledes man ”quick and dirty”<br />
kan udarbejde en emnesystematik. Den er blevet en central del af hjemmesidens systemarkitektur,<br />
hvorved mere end 100.000 personer hvert år finder oplysninger blandt nettets mange<br />
milliarder sider. En systematik er samtidig nødvendig, idet folk ikke interesserer sig for et fag,<br />
men oftest kun for et afgrænset emne.<br />
HVORFOR PERSONALISERET INFORMATION<br />
Mængden af viden er de seneste årtier nærmest eksploderet. Digitaliserede arkiver er<br />
blevet fyldt med information, og Internettet har gjort dette tilgængeligt på en fantastisk<br />
effektiv måde. Søgemaskiner kan give adgang til dette næsten uendeligt store materiale.<br />
Med få tastetryk står man med links til det materiale man ønsker. Google har i skrivende<br />
stund efterår 2009 indekseret mere end 17 milliarder sider.<br />
Som bruger kan det imidlertid godt være vanskeligt at få adgang til den ønskede<br />
information. Det var lettere i 1472, hvor størstedelen af verdens bøger fandtes på et<br />
bibliotek som Queens College med dets i alt 199 bøger. Der er nemlig et meget stort<br />
problem: Der er så store mængder, at søgeresultaterne oftest er så omfattende med så<br />
mange henvisninger, at det er blevet vanskeligt og tidskrævende at finde de rigtige<br />
oplysninger. ”Information overload” hedder fænomenet, hvor man bliver overbelastet<br />
af for mange oplysninger, så man ikke kan finde den ønskede nål i høstakken.<br />
Dette problem vil naturligt vokse, idet mængderne af information fortsat vil vokse.<br />
Problemet eksisterer ikke alene på hele nettet. Selv på hjemmesider fra<br />
informationsudbydere er mængden af information vokset således at det bliver umuligt<br />
at overskue alt materialet. På vores nyhedstjeneste Nyt om Arbejdsliv har vi mere end<br />
8.000 sider. Kun en målrettet søgning kan forhindre spild af tid.<br />
Personaliseret information er løsningen på dette ”information overload” problem.<br />
Der skal kun bringes de informationer, som jeg er interesseret i, og ikke alle de øvrige,<br />
som ville spilde min tid.<br />
NORDTERM 2009, København 9.-12. juni 2009 155
Denne måde at organisere og vise oplysninger på er ikke ny. Kunderne hos<br />
Amazon.com kender til de anbefalede bøger, som firmaet anbefaler ud fra lighed med<br />
de tidligere købte bøger. Datamining har længe været benyttet af store ressourcerige<br />
firmaer.<br />
Denne arbejdsmåde kan også benyttes af fattigere organisationer, og<br />
informationerne kan ordnes på en endnu mere kvalificeret måde, end det er tilfældet<br />
hos Amazon.com.<br />
Emnesystematik er et vigtigt redskab i opbygningen af den interne infrastruktur,<br />
hvor det ønskes, at brugerne vælger lige præcis de emner, de er interesserede i, og som<br />
de til gengæld kan blive optimalt informeret om.<br />
ERFARINGSMATERIALET<br />
Jeg vil fortælle om erfaringerne fra et tværvidenskabeligt forskningsområde om arbejdsliv,<br />
arbejdsmarked og arbejdsmiljø. Mere end 500 danske forskere er aktive på feltet både på<br />
universiteter og private forskningsinstitutioner, og deres forskning bliver i stor udstrækning<br />
gjort tilgængelig for samfundet – lægmænd som andre forskere – gennem Internetportalen<br />
”Nyt om Arbejdsliv”. En del af de samme oplysninger findes på engelsk ”Working Life Info” i<br />
en automatisk ”spejlet” udgave.<br />
En emnesystematik på dansk og engelsk med en specifik udarbejdet liste over<br />
emneord er central i den etablerede IT-platform. Alle videnskabelige produkter –<br />
artikler, anmeldelser og bøger – bliver kategoriseret sammen med tilbud om møder og<br />
konferencer. Hvert år er der omkring 168.000 såkaldte unikke besøgende, hvilket i<br />
realiteten betyder, at ca. 100.000 forskellige personer benytter denne tjeneste gennem<br />
deres mere end 250.000 besøg.<br />
Vi startede op i 2003 og kan således give erfaring fra mere end 6 år videre.<br />
Brugernes ønsker – et emne<br />
Det er brugernes ønsker, som vi må tage udgangspunkt i, når vi designer en<br />
nyhedstjeneste på nettet. Vi har naturligvis vores egne ønsker og idéer, men når vi kommer<br />
til den endelige udformning, er det brugerne, vi i stor udstrækning skal tage hensyn til.<br />
Det var et forhold, vi meget hurtigt blev klar over, da vi havde lavet de første<br />
udgaver af vores hjemmeside og efterfølgende så på hvorledes brugerne i<br />
virkeligheden udnyttede de muligheder, vi havde stillet til rådighed for dem. Det blev<br />
vist gennem alle vores undersøgelser via interviews og gruppesamtaler med brugere<br />
samt ved analyse af logfiler.<br />
Vi må konstatere, at brugerne i stor udstrækning opførte sig helt anderledes, end vi<br />
havde forventet. Vores udgangspunkt er en forening for alle forskere inden for<br />
området arbejdsliv, som dækker alle områder af ”arbejdsliv”. Det viste sig hurtigt, at<br />
brugerne ikke interesserede sig for faget som sådan, men kun for et eller få emner.<br />
NORDTERM 2009, København 9.-12. juni 2009 156
Det blev derfor naturligt for os, at tage udgangspunkt i brugernes behov, nemlig det<br />
at de ville vide noget om et begrænset emne, mens de øvrige emner på det nærmeste<br />
var irrelevante. Vores nyhedstjeneste skulle derfor gøre det muligt at levere<br />
personaliseret information.<br />
Emnefeltet arbejdsliv<br />
Vores område er ”arbejdsliv”. Det er faktisk ikke nærmere defineret, men er blevet<br />
afgrænset af de aktiviteter, som vores organisation Center for Studier i Arbejdsliv står for.<br />
Forskningsfeltet er tværfagligt, idet der er aktive forskere fra så forskellige<br />
fagområder som sociologi, psykologi, medicin, etnografi, økonomi, politologi, jura,<br />
historie samt en del yderligere fagområder. Fagets emner er således ikke udviklet<br />
inden for en enkelt videnskab, men benyttes af en række forskellige forskere fra<br />
forskellige fag. Dette gør tillige, at der ikke findes en 100 % holdbar systematik for<br />
forskerne fra alle forskningsfelter.<br />
Af praktiske årsager har vi ladet aktiviteterne i Tidsskrift for Arbejdsliv definere<br />
områdets omfang og indhold.<br />
Tidsskriftet havde eksisteret siden 1999, og der var på det tidspunkt tale om<br />
omkring 100 artikler i tidsskriftet. Hertil kom omkring 1.000 bøger, som tidsskriftets<br />
anmelderredaktion havde udvalgt til at være relevante for anmeldelse i tidsskriftet.<br />
Dette har været en pragmatisk måde til at definere feltet på. Metoden vil derfor<br />
kunne bruges til fortsat at udvikle emneordslisten i takt med at området fagligt ændrer<br />
sig.<br />
Denne quick and dirty måde at definere emneområdet på har selvfølgelig en stor<br />
fordel ved at kunne etableres på meget kort tid. Svagheden er, at den er afhængig af<br />
relativt få menneskers beslutninger, nemlig redaktionens optagelse af artikler og en<br />
enkelt anmelderredaktørs beslutning om hvilke bøger, der skal medtages på<br />
tidsskriftets anmeldelsesliste.<br />
Disse begrænsninger er dog ikke særlig alvorlige, da det netop har drejet sig om at<br />
få indekseret bidragene til tidsskriftet samt de løbende boglister. Hvis der løbende<br />
bliver justeret, vil emneordslisten til stadighed være ajour i forhold til det aktuelle<br />
behov.<br />
NORDTERM 2009, København 9.-12. juni 2009 157
FIGUR 1. Denne hjemmeside er en nyhedstjeneste, som Center for Studier i Arbejdsliv udgiver med<br />
den nyeste forskning fra områdets mere end 500 forskere. Artikler og anmeldelser fra Tidsskrift for<br />
Arbejdsliv er unikt materiale, der suppleres med nyheder om bøger og konferencer. Mere end 1.700<br />
modtager CSA’s nyhedsmail, og årligt besøges siden mere end 250.000 gange.<br />
Emneordslistens opbygning<br />
Da vi startede arbejdet, havde vi ingen erfaringer på området. Vi kunne se, at det ville<br />
være ønskeligt med en systematik på flere hundrede emneord, således at mængden ved<br />
søgning via et emneord kunne reducere resultatet til en delmængde på i gennemsnit en<br />
hundrededel eller mindre.<br />
I første omgang blev det undersøgt, om der i forvejen fandtes et bestående system,<br />
som blot kunne overtages evt. efter en simpel revision. Det viste sig desværre ikke at<br />
være tilfældet.<br />
De første systemer var systemerne fra de danske folkebiblioteker og et officielt<br />
system fra IT- og Telestyrelsen. De viste sig ikke at kunne opfylde vores krav til<br />
detaljeringsgrad. Samtidig havde de begge en form for systematik, som i hvert fald for<br />
vores system ikke ville fungere optimalt. Bibliotekernes system kunne således ikke<br />
bruges i sin helhed, men de fundne ord blev lagt i en database for efterfølgende<br />
behandling. Det officielle danske IT-væsen havde selv et ønske om at benytte<br />
NORDTERM 2009, København 9.-12. juni 2009 158
systematik til sin sagsbehandling og brug af automatisk journalisering. Vi så nærmere<br />
på systemet, men måtte konstatere, at det var alt for simpelt.<br />
Større held var der med bibliotekssystemet hos det nu nedlagte Arbetslivsinstitutets<br />
bibliotek, som dengang var Europas mest omfattende forskningsinstitution på området.<br />
Der var ikke tale om en systematik, men mange gode emneord blev samlet sammen og<br />
supplerede den oparbejdede database.<br />
Jagten fortsatte, og mange andre udenlandske systemer blev gennemgået. Et af de<br />
mest gennemarbejdede systemer var det finske Työterveyslaitos. Det havde sin<br />
begrænsning i kun at medtage en del af det emneområde, vi gerne ville dække. Til<br />
gengæld var det på mange måder et optimalt udført arbejde. Mange ord var defineret,<br />
og der fandtes samtidig et tilsvarende engelsk begreb i mange tilfælde. 1<br />
Arbejde udført fra grunden<br />
Efter det forberedende arbejde havde vi opstillet en længere liste af ord. Vi vidste dog, at<br />
hele emneområdet ikke var dækket. Nu kom vi til det tidskrævende arbejde at få listen<br />
suppleret med de manglende ord.<br />
Her valgte vi at få suppleret ved at gennemgå 1.000 bøger, artikler og konferencer.<br />
Hver enkelt blev vurderet for hvad man kunne kategorisere dem at omhandle.<br />
Af praktiske årsager var det kun muligt at kategorisere ud fra titel, undertitel samt<br />
for bøger og tidsskriftsartiklers vedkommende fra det korte resumé leveret af forfatter<br />
eller udgiver.<br />
Dette arbejde gav mange nye begreber, som ikke havde været omfattet i de<br />
hidtidige emneordslister og systematikker. Der opstod dog samtidig et nyt problem,<br />
der skulle afklares, nemlig at mange ord dækkede et for detaljeret begreb, at det ikke<br />
ville være praktisk at benytte det i en systematik. Vi skulle ikke udarbejde en udførlig<br />
fagterm, men kun vælge de ca. 20 % mest brugbare og dækkende termer. I en artikel<br />
om arbejdsmiljø, kunne der til eksempel være omtalt begrebet ”sikkerhedsudvalgsmøde”.<br />
Det dækker over et reelt begreb, men det ville nok give en for<br />
detaljeret ordliste, hvis alle disse ord skulle medtages. ”Sikkerhedsarbejde” og<br />
”sikkerhedsudvalg” ville nok være begreber, der dækker møderne. Der var mange af<br />
denne type afgørelser, der skulle træffes. Af hensyn til de få ressourcer i projektet,<br />
måtte der hurtigt træffes en beslutning, hvilket skete uden større argumentering men<br />
blot ud fra en fornemmelse af, at dette eller hint begreb nok blev for specielt.<br />
1 Vi har bl.a. fået inspiration fra Mannheimer Zentrum für Europäische Sozialforschung, Library of Congress, Outline of Cultural<br />
Material, Universel Decimalklasse Klassifikation, Arbetslivsinstituttet, AMI, Svenska ämnesord, UNESCO Thesaurus ULCC,<br />
EUROVOC thesaurus, Cambridge Scientific Abstracts. Sociology Thesaurus, Työterveyslaitos (Työsuojelusanasto).<br />
NORDTERM 2009, København 9.-12. juni 2009 159
FIGUR 2. Emnet ”arbejdsliv” består af begreber fra en lang række fag. Det er derfor kun folk med<br />
føling i alle disse områder, der kan bedømme termer.<br />
HVEM KAN UDARBEJDE EN SYSTEMATIK?<br />
Vores erfaringer fra et fattigt forskningsfelt viser, at det kan lade sig gøre at etablere en<br />
fungerende emneordsliste med relativt få midler. Hvis bare metoderne er gennemtænkte,<br />
kan tingene udformes rimelig let.<br />
I praksis har der været få mennesker involveret i arbejdet. Det har ikke været<br />
nødvendigt at involvere mange mennesker i den første forberedende fase. Det har dog<br />
været et udgangspunkt, at mindst én person med et kendskab til hele forskningsfeltet<br />
har skullet deltage. Det praktiske arbejde omkring programmering og tilretning kunne<br />
udføres af personer uden for fagmiljøet.<br />
Det har i mange forbindelser været ønsket, at få tilbagemelding fra<br />
forskningsmiljøet. Sådanne tilbagemeldinger har det ikke været muligt at få i særligt<br />
omfattende eller gennemgribende omfang. Derimod er der modtaget mange<br />
enkeltstående kommentarer om fortrinsvis enkelte begrebers brugbarhed.<br />
At benytte en systematik<br />
Da vi startede op i 2003 ønskede vi ikke alene at have en emneordsliste. Listen skulle<br />
samtidig være systematisk. Det var et optimalt ønske, idet man herved kunne give brugerne<br />
mulighed for at søge på et meget snævert emne, men kunne samtidig give en alternativ<br />
mulighed for at vælge et større emne. Til eksempel kan man vælge emnet<br />
”lærlingeuddannelse”, men man kan også vælge det mere omfattende ”uddannelse”, som<br />
omfatter mange andre former for uddannelse.<br />
Det var et fint ideal. Virkeligheden viste sig at være mere problematisk. Vi starte<br />
med en usystematisk liste på 400 ord, og øvelsen var så at gruppere dem i et system. I<br />
NORDTERM 2009, København 9.-12. juni 2009 160
lighed med selve emneordene, fandtes der ingen systematik at bygge videre på. Det<br />
hele skulle udvikles fra grunden.<br />
Mange ord var lette at organisere. Størstedelen af ordene faldt nærmest af sig selv<br />
ind i en systematik. Arbejdet bestod ”blot” i at sætte etiketter på et hierarki, som man<br />
kunne forestille sig kun ventede på at dette meget indlysende arbejde skulle blive<br />
foretaget.<br />
Der var desværre en relativ stor gruppe ord tilbage, som ikke egentlig havde nogen<br />
systematik at høre til eller – hvilket var værre – kunne høre til to eller flere andre dele<br />
af den udarbejdede systematik.<br />
Det første kunne godt løse sig ved at lave nogle overbegreber, som blot dækkede<br />
disse emner. Det andet problem var vanskeligere – for ikke at sige umuligt - at løse, og<br />
det måtte man lære at leve med, at der var denne synlige svaghed.<br />
En systemarkitektur for personaliseret information<br />
I sommeren 2003 var arbejdet med systematikken afsluttet. Der var lavet en systematik<br />
med knap 400 emneord, som var blevet inddelt i et mindre antal overordnede begreber. Nu<br />
kunne systemet for alvor blive indført.<br />
Der blev valgt at arbejde med en relationelt opbygget database. Ønsket var at starte<br />
med at arbejde i den simple og billige database Access, som de fleste i forvejen har<br />
liggende på deres computer. Det var meningen senere at skalere til et større<br />
databasesystem. Der viste sig da også nogle kapacitetsproblemer med Access, da<br />
systemet kom i drift. Hvis der var for mange samtidig brugere, kunne systemet<br />
blokere, og kun en genstart af serveren kunne få systemet i gang igen. Det var et<br />
problem, som vi skulle identificere, og som vi efterfølgende skulle bede web-hotellet<br />
om at løse. Inden vi havde opdaget, at der var en fejl, kunne der gå dage, og hvis det<br />
skete ved en weekend, kunne der gå yderligere en del timer mens hjemmesiden ikke<br />
var tilgængelig.<br />
En omlægning ville tage ret lang tid, og da vi endelig havde besluttet at starte at<br />
omlægge til det forbedrede databasesystem, var der imidlertid ingen problemer mere<br />
på IT-siden. Web-hotellet havde på grund af forbedrede opsætninger gjort systemet<br />
mindre sårbart, samtidig med at Microsoft leverede bedre programmer både ved selve<br />
Access programmet, men også de servere og de web værktøjer vi havde valgt (hvilket<br />
var .Net tilsvarende fra Microsoft). Vi kører således med stor tilfredshed på en Access<br />
database, hvor oppetiden er på over 99,9%<br />
Vi valgte at arbejde med referencefiler til hver enkelt af de kategorier, der blev<br />
indtastet. Det har været en god løsning, idet det har fungeret robust, og hvor det har<br />
været let at udnytte emneordene gennem programmering af web-systemet.<br />
Det må nævnes, at vi havde valgt selv at opbygge vores CMS, hvorved de nævnte fordele let<br />
har kunnet implementeres. Det må dog også nævnes, at et standard CMS ville have løst os<br />
fra nogle af de opgaver, der løbende har været med opdatering til nye forhold.<br />
NORDTERM 2009, København 9.-12. juni 2009 161
FIGUR 3. Allerede ved planlægningen af nyhedstjenestens infrastruktur blev den systematiske<br />
emneordsliste indtænkt. Illustrationen viser tabellerne i den relationelle database.<br />
IGANGSÆTNING<br />
Da arbejdet skulle igangsættes, havde vi allerede omkring 1.000 dokumenter i systemet.<br />
Det var rimelig let at udføre indekseringen, idet der på indtastningsskærmen var blevet<br />
placeret et vindue, hvor man kunne vælge de ønskede emneord ud fra en menu.<br />
I praksis viste det sig, at det var relevant at give en bog, artikel eller konference<br />
mellem to eller tre emneord. Kun sjældent var der kun tale om et så smalt emne, at kun<br />
et enkelt ord var dækkende. Omvendt var der sjældent tale om at give mere end seks<br />
ord, og som nævnt var det mest almindelige to til tre ord.<br />
Der var naturligvis i f.eks. en bog berørt mange hundrede begreber. Imidlertid<br />
måtte vi som registratorer identificere bogens hovedemner. Som nævnt blev arbejdet<br />
udført med meget få ressourcer, hvorfor dette arbejde måtte udføres med en meget kort<br />
beslutningstid for hver enkelt enhed. Til en slags trøst vidste vi, at alle<br />
kategoriseringer kunne ændres, hvis de viste sig at være forkerte eller hvis de<br />
manglede emner. Dette har det dog ikke været tale om.<br />
Ved dette arbejde viste der sig imidlertid også en række svagheder ved det<br />
udarbejdede system, og en justering af ordlisten blev udført løbende i et vist omfang.<br />
Det kunne ske ved tilføjelse af nye ord til de etablerede begreber. Derimod viste det<br />
sig heldigvis ikke nødvendigt at flytte rundt på begreber eller ændre hierarkiet.<br />
NORDTERM 2009, København 9.-12. juni 2009 162
ORDLISTE PÅ ENGELSK<br />
Det var naturligt at udarbejde en engelsk ordliste, da vi skulle etablere en nyhedstjeneste<br />
på engelsk. I stor udstrækning var denne hjemmeside en ”spejling” af den danske udgave,<br />
således at indekseringen af bøger, artikler og begivenheder i den danske udgave automatisk<br />
blev overført til den engelske udgaves bøger, artikler og begivenheder (der var en del bøger<br />
og begivenheder på dansk, norsk og svensk, som ikke var medtaget i den engelske udgave).<br />
Vi fandt hurtigt ud af, at mange af de engelske begreber ikke kunne findes via en<br />
standard ordbog. Dels var der mange ord, som ikke fandtes i ordbogen, eller også<br />
fandtes der flere muligheder, hvor vi ikke var i stand til at bedømme, hvilke der var de<br />
rigtige. Det gav – i hvert fald i begyndelsen – en ordliste med visse svagheder.<br />
WIKI OG ORDBOG<br />
Svaghederne i den engelske ordliste blev dog efterhånden begrænset, og ordlisten fik<br />
herved nye brugsmuligheder.<br />
Vi søgte at finde de rigtige engelske begreber til at bekræfte eller supplere ordlisten.<br />
Det kunne blandt andet ske ved at se brugen af begreber i bøger, som vi tilfældigvis<br />
fik lejlighed til at gennemlæse.<br />
En anden og meget vellykket metode var at lade læserne kommentere og supplere<br />
ordlisten. Denne Wiki-metode fungerede især ved at folk påpegede fejl og svagheder<br />
ved ordlisten, hvor det engelske ord ikke svarede til det danske eller ikke helt havde<br />
den samme betydning. Der kom dog også nogle enkelte tilføjelser via denne metode.<br />
I lighed med den folkelige deltagelse, blev ordlisten samtidig en lille ordbog<br />
mellem dansk og engelsk. Herved har folk fået et gratis opslagsværk på dette<br />
fagområde.<br />
6 ÅRS GODE ERFARINGER<br />
Systemet har nu været i funktion i 6 år i den danske udgave, og det fungerer stadigvæk.<br />
Det bør justeres, som de angives i næste kapitel, men det har trods alt fungeret og fungerer<br />
stadigvæk godt.<br />
Emneordene har været nyttige på to helt forskellige områder.<br />
Det ene er den direkte personalisering, hvor hjemmesidens brugere har kunnet søge<br />
via emneord. De har haft mulighed for at vælge de overordnede begreber, eller de har<br />
kunnet vælge mere smalle begreber.<br />
Den anden brug har faktisk vist sig at være den vigtigste. Hjemmesiden er blevet<br />
opbygget således, at søgemaskinernes robotter har høstet hjemmesiden efter emne<br />
(samt navn og andre dimensioner). Denne opbygning har betydet, at til eksempel<br />
Google har indekseret vores hjemmeside meget høj på mange af de 400 emneord. Den<br />
NORDTERM 2009, København 9.-12. juni 2009 163
seneste opgørelse er fra 2007, hvor 70 af vores emneord lå inden for 20 af Googles<br />
bedste pladser. Af dem var 20 førstepladser. Derved har brugen af emneord været en<br />
forudsætning for at vores hjemmeside har haft en søgemaskineoptimering, som må<br />
betegnes at være tæt på det optimale.<br />
De mange mangler<br />
Jeg har ikke påstået, at systemet er perfekt. Det vil en emneordsliste eller en systematik<br />
vistnok aldrig kunne blive.<br />
Bortset fra enkelte tilføjelser af ord til listen, har der ikke været udført en egentlig<br />
revision. En sådanne står umiddelbart foran sin effektuering.<br />
Igennem alle årene er der blevet skrevet en ”fejlrapport”, når der har været en bog<br />
eller artikel, som ikke havde sit emne på listen. Der er derved blevet udarbejdet en<br />
liste på efterhånden mere end 100 ord.<br />
Årsagen er delvist, at den oprindelige ordliste allerede ved fødslen havde<br />
svagheder, således at den ikke kunne tage højde for videnskabelige resultater omkring<br />
visse specielle smalle emner, der kun opstod meget sjældent.<br />
En anden årsag er, at faget har udviklet sig. I tidsskriftets efterhånden mere end 10<br />
års forløb har videnskaben ændret sig både i takt med at samfundet har ændret sig,<br />
men sandelig også, fordi der i videnskaben selv har været en udvikling, som ikke<br />
nødvendigvis er parallel med samfundets udvikling<br />
Alle disse mangler skal der tages højde for ved den snarlige revision.<br />
Systematikkens svagheder<br />
Selvom systematikken benyttes, er der nogle svagheder i systemet, som ikke sådan lige er<br />
til at komme udenom. Det er tilfældet, når nogle ord benyttes ualmindeligt meget eller når<br />
de ikke udnyttes særlig meget.<br />
Nogle ord benyttes så meget, at de ikke er særlig velegnede til at lave en<br />
delmængde. F.eks. behandler mange bøger ”globalisering” eller de kan i det mindste<br />
have et aspekt omkring emnet. En søgning på dette emne i bøger på vores hjemmeside<br />
vil give 110 henvisninger, hvilket er et meget stort antal at forholde sig til.<br />
Af de mange søgeord havde 12 flere end 40 hits. Det må ved systematikkens videre<br />
udvikling søges at bringe dette antal ned. Ved begrebet globalisering må der til<br />
eksempel opfindes nye begreber, der underinddeler og findeler emnet. Det kunne til<br />
eksempel være ”globalisering, økonomi”, ”globalisering, ledelse” og tilsvarende<br />
opdeling af globalisering.<br />
Denne svaghed findes udelukkende ved brug af systematikken. Hvis man søger på<br />
emneord, vil man kunne kombinere ”globalisering” med et andet begreb og herved<br />
reducere antallet af hits.<br />
En anden svaghed er hvor emneord har få eller ingen resultater. 130 af emneordene<br />
havde faktisk kun én eller ingen bøger at henvise til. Med så få tilfælde kan man sige,<br />
NORDTERM 2009, København 9.-12. juni 2009 164
at disse emneord er for specifikke, og at de på en måde er ”støj”, der fylder op og gør<br />
tingene uoverskuelige. Det er ikke et mål i sig selv, at udvikle et ”optimalt” system,<br />
der dækker alle begreber. Der skal være en pragmatisk fornuft, og der vil derfor ikke<br />
ske noget ved at fjerne størstedelen af dem.<br />
FIGUR 4. Begreber med for få eller for mange henvisninger var uhensigtsmæssige.<br />
DEN MÅLBARE SUCCES – ELLER FIASKO<br />
Ved Internettet er vi så heldig, at vi i stor udstrækning kan se hvordan vores brugere<br />
benytter vores tjeneste. Mens man ved en udgivelse i bogform ikke kan se, om læserne<br />
benytter et indeks eller stikordsregister, er det helt anderledes let at se, hvorledes brugerne<br />
navigerer rundt på en hjemmeside. Faktisk er det muligt at registrere hvert eneste tastetryk.<br />
Det er ren Big Brother.<br />
Brugen af emneord viser sig således kun at være en betinget succes, eller i hvert<br />
fald, at kun en mindre del af brugerne udnytter de nye muligheder til at navigere via<br />
systematikken. Kun 50 ud af 1.000 besøgende udnyttede denne mulighed.<br />
Om dette nu er en fiasko, skal der en nærmere vurdering til for at afklare. Mange<br />
ikke-brugere navigerer efter andre metoder. De ser f.eks. alle bøger igennem på de<br />
aktuelle boglister, hvorved de bliver orienteret om hele forskningsfeltet. Andre søger<br />
efter en enkelt forfatter eller en bestemt artikel og er tilsyneladende tilfreds med dette.<br />
Den relativt ringe brug af systematikken kan have flere årsager – hvis det altså er en<br />
ringe brug. Det kunne være, at navigationen til systematikken var for besværlig. Det<br />
kunne man få bekræftet eller afkræftet ved at gøre navigationen i en periode<br />
ualmindelig let at komme til og herefter se, om det skulle være årsagen.<br />
Det kan også være, at en systematik kun benyttes, når en forsker skal i gang med et<br />
forskningsprojekt og her ønsker at få et overblik over den totale litteratur på et<br />
område. At det kun er de rigtige ”professionelle”, der benytter systematikken, men<br />
altså også, at almindelige mennesker måske ikke kender til fordelene ved at benytte en<br />
sådan mulighed.<br />
NORDTERM 2009, København 9.-12. juni 2009 165
De største succeser<br />
Inden vi kaster systematikken bort, vil jeg dog berette om dens brug på to områder, hvor<br />
den virkelig har vist at have berettigelse.<br />
Det ene er på muligheden for målrettet information, en aktiv push fra<br />
indholdsleverandørens side, til folk, der er interesseret i at følge med i bestemte<br />
områder. Det har vi organiseret via RSS, hvor brugerne har mulighed for at vælge<br />
mellem 216 emner. Når der på hjemmesiden kommer en ny bog, vil der blive givet<br />
sendt besked til brugernes RSS læser om nyheden.<br />
Den tekniske konstruktion af RSS bygger på emneordene, og her må vi konstatere,<br />
at det er en succes i stort omfang. Der er således udvalgt mere end 5.000 RSS-emner,<br />
hvilket vi er rimelig tilfredse med. Vores sammenligningsgrundlag er, at vi har 500<br />
abonnenter på den bogtrykte udgave af vores tidsskrift, og da vi har konstateret, at<br />
brugerne i gennemsnit kun vælger et par få emner at abonnere på, er der tale om flere<br />
tusinde brugere.<br />
Største succes for Google søgerne<br />
Den anden – og vel nok langt den største - succes for systematikken er for brugerne af<br />
søgemaskiner. Når man søger efter et ord, vil man typisk kun se efter søgeresultater på den<br />
første side og oftest kun efter de første få øverste resultater.<br />
Her har vores hjemmeside en ualmindelig god stilling. En analyse af hjemmesidens<br />
placering af søgeord viste i 2007, at stillingen for vores søgeord var blevet væsentlig<br />
forbedret siden indførelse af den nye teknik for søgemaskineoptimering baseret på<br />
systematikken. 71 begreber lå på de øverste 9 pladser i Google, den altdominerende<br />
søgemaskine, og heraf havde vi endda 21 ord på førstepladsen.<br />
Det er helt sikkert den vigtigste årsag bag vores hjemmesides succes. En meget stor<br />
del af de besøgende på vores hjemmeside kommer ind via søgemaskiner – mere end<br />
en tredjedel er der tale om ved de konkrete målinger, og da mange af de øvrige<br />
brugere, som linker direkte til hjemmesiden, i første omgang er blevet opmærksom på<br />
hjemmesiden på grund af en vellykket søgning, er resultatet efter brug af søgeord langt<br />
mere end halvdelen af hjemmesidens brug i det hele taget.<br />
Succes for det interne arbejde<br />
Ud over den nævnte direkte brug for de besøgende på hjemmesiden, har vi internt i<br />
redaktionen yderligere haft udbytte af systematikken. Ved at analysere brugernes<br />
anvendelse af systematikken, er vi blevet klogere og kan derved lave et bedre produkt.<br />
Vi har til eksempel set på hvilke begreber, som brugerne har benyttet og hvilke de<br />
ikke har benyttet. Det giver os herved en mulighed for at justere vores udvælgelse.<br />
Selvfølgelig skal det – efter vores mening – ikke været styret fuldt ud af brugernes<br />
NORDTERM 2009, København 9.-12. juni 2009 166
interesser. Det er os i redaktionen, som har forstand på kvalitet og som redigerer ud fra<br />
denne selvforståelse. Det vil dog være ufornuftigt, hvis vi ikke lader os inspirere af de<br />
ord, som brugerne i særdeleshed efterspørger, idet de afslører et behov for viden på<br />
disse områder hos brede kredse, hvilket vi kan lade indgå i vores fremtidige arbejde.<br />
Der må dog nævnes et negativt aspekt ved brug af denne type analyser: De tager<br />
tid. Det er i hvert fald for vores nyhedstjeneste ikke muligt at udføre denne type<br />
analyser mere end én gang om året.<br />
KONKLUSION<br />
Det må konstateres, at vores nyhedstjeneste har haft et stort udbytte af at benytte en<br />
faglig systematik inden for det tværfaglige forskningsfelt, arbejdsliv. Alle vores oplysninger er<br />
blevet indekseret, således at hver bogomtale, artikel, anmeldelse eller præsentation af<br />
konference har fået et eller oftest flere emner koblet til dig.<br />
Emnesystematikken er blevet udviklet af vores egne redaktører, som er de bedste<br />
(og vel også eneste) med et indgående kendskab til fagområdets begreber. Vi har ikke<br />
haft økonomi til at få erfarne emneordsudviklere til at hjælpe os med systemet, men<br />
kunne dog godt have tænkt os at have fået hjælp undervejs, hvilket ville have lettet os<br />
arbejdet og sikkert givet et bedre resultat.<br />
Selvom vi har gjort brug af og blevet inspireret af samtlige nationale og<br />
internationale emneordslister i og omkring vores område, har vi måtte udføre arbejdet<br />
fra grunden af. Vi kunne dog godt tænke os, at arbejdet med emneord på bedre vis<br />
bliver koordineret internationalt, således at andre vil kunne udnytte vores systematik<br />
og vi omvendt få hjælp af andre. Det ville være en god forudsætning for en fremtidig<br />
udveksling af oplysninger baseret på emneord og systematik.<br />
REFERENCER<br />
Nyt om Arbejdsliv, systematik www.nyt-om-arbejdsliv.dk/systematik.aspx<br />
Working Life Info, systematik www.workinglife.info/esystematik.aspx<br />
NORDTERM 2009, København 9.-12. juni 2009 167
Ordningen i redan<br />
– om uppräkningar i begreppsbeskrivningar<br />
Henrik Nilsson<br />
Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />
+46 8 446 66 10, henrik.nilsson@tnc.se<br />
Abstract. De extensionella ”definitionerna” (det vill säga en begreppsbeskrivning som innebär<br />
någon form av uppräkning, av underbegrepp eller referenter) har ofta diskuterats i<br />
terminologivärlden. Detta föredrag kommer genom exempel från olika områden att titta närmare<br />
på denna och andra liknande begreppsbeskrivningar. Kan dessa ”definitioner” användas praktiskt<br />
och vad bör man tänka på i så fall? Är de ibland t.o.m. att föredra framför andra typer av<br />
definitioner? Och vilken relation finns till klassifikation – särskilt vad gäller de närliggande<br />
typer av begreppsbeskrivningar som man skulle kunna kalla ”referensdefinitioner” och ”rubrikdefinitioner”?<br />
Särskilt kommer fokus att ligga på om och i så fall hur själva ordningen på de<br />
uppräknade elementen (referenter eller underbegrepp) påverkar definitionens innehåll.<br />
INLEDNING<br />
Den brittiske filmaren och konstnären Peter Greenaway tyckte inte att bara USA<br />
skulle få bestämma vilka objekt som skulle skickas med vid rymdfärder för att<br />
representera mänskligheten. Han skapade därför en ”prop-opera” som han kallade<br />
”100 objects to represent the world” 1<br />
. Hans uppräkning av 100 objekt (som bland<br />
annat omfattar regnbågen, en kyss, stolar, Mozarts kranium, själen, kvicksilver, Venus<br />
från Willendorf, Freuds hatt och portfölj, röda böcker, skräp och Archaeopteryx) är<br />
hans personliga uppfattning av vad som kan representera världen av i dag, men kan<br />
inte ses som en definition av världen. Det handlar endast om ett urval, och dessutom<br />
av fenomen och objekt blandat. I de fall uppräkningar använts som metod (i s.k.<br />
extensionella ”definitioner”) för att beskriva begrepp terminologiskt har kravet just<br />
varit att uppräkningen ska vara uttömmande.<br />
De så kallade extensionella ”definitionerna” – det vill säga definitioner som räknar<br />
upp alla referenter som begreppet syftar på eller alla underordnade begrepp – har inte<br />
ansetts riktigt rumsrena i terminologiarbetet. Många menar att de inte bör kallas<br />
definitioner alls. Men i själva verket rymmer begreppsbeskrivningar (för att nu<br />
undvika termen ”definitioner”) väldigt ofta uppräkningar i någon form. När vi på TNC<br />
importerat terminologiskt material till Rikstermbanken har vi gått igenom tusentals<br />
definitioner. Det har då visat sig att icke-uttömmande uppräkningar inte så sällan<br />
används som begreppsbeskrivningar, särskilt i lagtexter, och inte alls är ovanliga i<br />
begreppsbeskrivningar.<br />
1 Se vidare: http://www.changeperformingarts.it/Greenaway/100objects.html<br />
NORDTERM 2009, København 9.-12. juni 2009 168
I den här artikeln koncentrerar jag mig på hur och var uppräkningar används i och<br />
som begreppsbeskrivningar, med fokus på uppräkningen som begreppsbeskrivning i<br />
sig och dess lämplighet.<br />
Det är inte helt enkelt att hitta en definition av ”uppräkning” utan att hamna i<br />
mycket generella beskrivningar av typen ”redogörelse i (viss) ordningsföljd” 2<br />
. Denna<br />
definition är dock inte ointressant och just användningen av ”viss” behandlas i slutet<br />
av den här artikeln.<br />
UPPRÄKNINGAR I DEFINITIONER<br />
En första distinktion som kan göras är den mellan uppräkningar i<br />
begreppsbeskrivningar och uppräkningar som begreppsbeskrivningar.<br />
Den vanligaste typen av terminologisk definition, den s.k. intensionella<br />
definitionen, kan innehålla en uppräkning, ofta som en (då icke-uttömmande)<br />
exemplifiering i slutet:<br />
biomassa<br />
material med biologiskt ursprung och som inte eller endast i ringa grad omvandlats, till<br />
exempel energigröda, energiskog, halm, trä, vass<br />
I en äldre TNC-artikel står följande att läsa: ”Även om [exempel] inte kan anses<br />
tillhöra själva definitionen kan de dock tillfogas direkt efter, eller infogas i,<br />
definitionen. […] Exemplen kan framför allt avse uppslagstermens användning; ibland<br />
anger exemplet någon belysande omständighet av annan art; i andra fall kan<br />
exemplifieringen gälla något i ordförklaringen.” 3<br />
. Även Wright & Strehlow (1995) har<br />
påpekat nyttan av att göra beskrivningen av ett begrepp tydligare med hjälp av<br />
exemplifieringar; de säger dock inget om var detta bör göras. I Rikstermbanken har<br />
sådana exempel i stället placerats i ett separat exempelfält som presenteras separat från<br />
definitionen. På så sätt renodlas själva definitionen ytterligare.<br />
I vissa definitioner är det i stället överbegreppet som utgörs av en uppräkning, även<br />
om detta är ovanligare:<br />
stiftare<br />
person, företag eller förening som startar ett aktiebolag<br />
kylmedium<br />
gas eller vätska som transporterar bort värme, till exempel från en reaktorhärd 4<br />
2 Nationalencyklopedins ordbok<br />
3 TNC, Ord och uttryck, 1963<br />
4 TNC: manus till basordlista<br />
NORDTERM 2009, København 9.-12. juni 2009 169
I just det här exemplet hade den inledande uppräkningen kunnat undvikas genom att ”vätska<br />
eller gas” kunnat ersättas med ”fluid” (som i sig definieras just extensionellt som ’vätska eller<br />
gas’ 5<br />
).<br />
Till detta kommer definitioner som utgör hybridformer mellan intensionella och<br />
extensionella definitioner:<br />
intermediära varor<br />
insatsvaror, halvfabrikat och komponenter av olika slag, det vill säga normalt varor som ingår<br />
som en delprodukt i en slutlig vara/produkt<br />
I ovanstående definitionsexempel kombineras extensionens underbegrepp<br />
(insatsvaror, halvfabrikat och komponenter) och intensionens beskrivning (”varor som<br />
ingår som en delprodukt i en slutlig vara/produkt”) – något som förstås även kunde ha<br />
gjorts i ett separat fält i termposten (se ovan).<br />
Referensdefinitioner<br />
Särskilt i lagtexter förekommer ett specialfall av den extensionella definitionen som<br />
skulle kunnas kallas referensdefinition. I själva definitionen finns det egentligen inte<br />
så mycket relevant information om begreppet utan i stället bara en referens till det<br />
ställe där den informationen finns – i till exempel en paragraf eller bilaga. Där görs då<br />
inte sällan en – ofta ganska utrymmeskrävande – uppräkning. Det som alltså kan se ut<br />
som en intensionell definition, med överbegrepp och kännetecken blir en sorts<br />
”förtäckt” extensionell definition:<br />
”med hushållstjänster avses de tjänster som är uppräknade i 4 § lagen (2007:346) om<br />
skattereduktion för hushållsarbete”<br />
I exemplet ovan specificeras överbegreppet ”tjänster” på detta, ”referentiella” sätt<br />
(och i 4 § räknas sedan det som räknas till hushållstjänster upp: städarbete eller annat<br />
rengöringsarbete som utförs i bostaden, vård av kläder och hemtextilier som utförs i<br />
bostaden, matlagning som utförs i eller i nära anslutning till bostaden […]) 6<br />
5 TNC 98: Tekniska basord (1995)<br />
6 Lag om ändring i lagen (2007:346) om skattereduktion för hushållsarbete (SFS 2009:538)<br />
NORDTERM 2009, København 9.-12. juni 2009 170
Uppräkningar som definitioner<br />
Även om ovanstående exempel är intressanta utgör de ändå en minoritet, och den<br />
kategori där uppräkningar i sig utgör hela begreppsbeskrivningen, det vill säga ”egna”<br />
definitioner, överväger. Sedan tidigare finns här början till en typologi med en<br />
indelning utifrån vad som räknas upp i ”traditionella” extensionella definitioner<br />
(eventuellt med ovan nämnda undertyp referensdefinition) och beståndsdelsdefinitioner.<br />
Kanske finns här dock behov av fler typer, uppdelade utifrån det sätt<br />
definitionen skapas på; här kallade rubrikdefinitioner.<br />
Den ”traditionella” extensionella definitionen (som i litteraturen även kallats<br />
omfångsdefinition, denotativ definition och extensiv definition) är en ”definition som<br />
räknar upp begreppets alla underordnade begrepp eller referenter enligt en viss<br />
indelningsgrund” 7<br />
:<br />
flerbostadshus<br />
gathus, lamellhus, smalhus, skivhus, stjärnhus, loftgångshus eller låghus<br />
En ofullständig exemplifiering kan inte sägas utgöra en definition, det vill säga allt<br />
som ingår i begreppets extension måste räknas upp. Det sista elementet i uppräkningen<br />
måste också föregås av ”eller” för att definitionen ska vara användbar som definition.<br />
Angivandet av vad som räknas upp har växlat i definitionen av extensionell<br />
definition under årens lopp. Det vanligaste fallet är att begreppets extension<br />
(begreppsomfång) räknas upp, det vill säga underbegreppen (som i sig är sidobegrepp<br />
och företrädesvis på samma nivå i ett begreppssystem) eller referenterna. I många fall<br />
är den bakomliggande begreppsrelationen då ”antingen–eller” (det som Nuopponen et<br />
al kallar ”extensionell disjunktion”):<br />
kronprinsessa<br />
kvinnlig tronföljare eller gemål till en kronprins 8<br />
klausul<br />
tilläggsbestämmelse eller förbehåll 9<br />
Beståndsdelsdefinitioner<br />
Extensionella definitioner där delbegrepp räknas upp är också ganska vanligt<br />
förekommande; dessa kallas då ofta för beståndsdelsdefinition, och de uppräknade<br />
elementen (delbegreppen) har en partitiv relation till helhetsbegreppet:<br />
7 Nordterm 13: ”Terminologins terminologi på nordiska”<br />
8 Nordisk förvaltningsordbok, 1991<br />
9 Nordisk förvaltningsordbok, 1991<br />
NORDTERM 2009, København 9.-12. juni 2009 171
vecka<br />
måndag, tisdag, onsdag, torsdag, fredag, lördag och söndag<br />
Rubrikdefinitioner<br />
Så långt är det hela föga komplicerat – underbegrepp, referenter eller delbegrepp<br />
räknas upp. Det finns dock en del fall där det verkar råda en annan typ av<br />
begreppsrelation mellan det som definieras och de begrepp som räknas upp:<br />
kalandrering<br />
utvalsning, laminering, dubblering, friktionering eller beläggning (1) i kalander<br />
I det här exemplet handlar det inte om underbegrepp (inget av dem definieras som<br />
’kalandrering som …’) eller referenter och inte heller om delbegrepp. Snarare har<br />
dessa begrepp något gemensamt – en kalander ingår i alla processerna. Samtidigt<br />
antyder definitionens ”eller” att man inte bara klumpat ihop begreppen för att man kan<br />
använda termen ”kalandrering” för att kunna tala om alla dessa processer samtidigt.<br />
När ordet ”kalandrering” används kan snarare någon av dessa processer avses. Valet<br />
att definiera på det här sättet verkar alltså vara avsiktligt. Att det hade varit möjligt att<br />
definiera intensionellt visar andra ordlistor som innehåller definitioner av just<br />
begreppet ”kalandrering”: ’ytförändrande mekanisk behandling i valsverk<br />
(kalander)’ 10<br />
.<br />
Även syftet med att göra uppräkningar i begreppsbeskrivningar är intressant.<br />
Österberg skriver i sin bok ”Hierarkisk begreppsanalys” (1979) att man i processen att<br />
skapa en begreppshierarki kan gå i två riktningar. ”Riktningen ’uppifrån och ned’<br />
motsvarar […] ’division’. ’Nedifrån och upp’ motsvaras av ’klassifikation’. Kan det<br />
vara så att vissa uppräkningar som begreppsbeskrivningar uppstår i sammanhang när<br />
man egentligen vill klassificera och egentligen inte definiera, det vill säga när man vill<br />
kunna tala om flera begrepp med en gemensam rubrik, och alltså slippa upprepa alla<br />
elementen i uppräkningen varje gång de förekommer i en text?<br />
förnybar energi<br />
vindkraft, solenergi, vågenergi, geotermisk energi, biobränslen och vattenkraft<br />
10 TNC 76: Textilordlista, 1981<br />
NORDTERM 2009, København 9.-12. juni 2009 172
anordningar för personlig hygien<br />
omklädningsrum, dusch, handtvättanordningar och liknande 11<br />
I de här exemplen understryks detta av det faktum att uppräkningarnas sista element<br />
föregås av ”och” och inte av ”eller”; det är helheten som avses, inte vart och ett av de<br />
uppräknade elementen. Man kan konstatera att den här typen av begreppsbeskrivningar,<br />
som man skulle kunna kalla rubrikdefinitioner, är vanligare<br />
förekommande i vissa texttyper (bland annat lagtexter) där de verkar ha skapats just av<br />
klassificerings- och regelskäl. Uppräkningen utgör således en helhet för vilken man i<br />
ett dokument använder en ”rubrikterm” för att slippa upprepa alla elementen. På det<br />
sättet liknar dessa definitioner det man hittar under ”rubrikord” som ibland används i<br />
ordlistor där man under ett gemensamt uppslagsord samlar allt som på något sätt har<br />
en association till begreppet ifråga att göra och på så sätt stafettmässigt leder<br />
användare vidare i ordlistan:<br />
glasteknik<br />
hyttarbetat (drivet), formblåst (fastblåst, optikblåst, stött), gjutet (sandgjutet), centrifugerat,<br />
pressglas, automatblåst (till exempel buteljtillverkning), studioglas, fusing, slumping,<br />
bending, paté [sic] de verre, limmat, kulat 12<br />
I vissa fall kan man nästan misstänka att begreppsanalysen i sig givit upphov till<br />
den här typen av definition, och att det som i själva verket är en indelningsgrund i ett<br />
begreppssystem får status av term – vars motsvarande begrepp då lämpligen definieras<br />
just med en rubrikdefinition (de element som räknas upp i definitionen har då ofta<br />
heller inga egna definitioner i ordlistan ifråga):<br />
trafikslag<br />
vägtrafik, järnvägstrafik, luftfart och sjöfart<br />
Samlingsdefinitioner<br />
Ibland kan det vara svårt att avgöra om en definition är en intensionell definition<br />
med ett mycket generellt överbegrepp (verksamhet i exemplet nedan) eller snarare<br />
någon form av extensionell definition med en inledningsfras:<br />
11 föreskrift från Arbetsmiljöverket<br />
12 Svensk Forms Opinionsnämnd Ordbok, 2001<br />
NORDTERM 2009, København 9.-12. juni 2009 173
telekrigföring<br />
Verksamhet omfattande signalspaning, falsk signalering, insats av telemotmedel, insats mot<br />
teleanläggningar av signalsökande vapen samt teleskydd. 13<br />
telekrigföring<br />
sammanfattande benämning på militära åtgärder för att upptäcka, utnyttja, påverka,<br />
försvåra eller förhindra motståndarens användning av telemedel, som utnyttjar<br />
elektromagnetisk vågutbredning, samt egna åtgärder för att minska verkan av<br />
motståndarens telekrigföring. 14<br />
Under en kurs i definitionsskrivning som hölls på TNC 1975 angav man att sådana<br />
definitioner, som skulle kunna kallas samlingsdefinitioner, som inleds med en metaformulering<br />
som ”sammanfattande benämning på …”, också skulle räknas som<br />
extensionella definitioner. För det är nog tveksamt om den typen av formuleringar ska<br />
anses utgöra ett överbegrepp i något som liknar en intensionell definition. Oavsett hur<br />
man ser på det är ”samlingsdefinitionen” inte ovanlig och det förekommer många<br />
varianter, bland annat ”Samlingsterm för …”,”Sammanfattande benämning för …”,<br />
och ”Begreppet omfattar …”. (I samtliga dessa fall anges ”och” före det sista<br />
elementet i uppräkningen.)<br />
banljus<br />
Sammanfattande beteckning för bankantljus, tröskelljus, banändljus, centrumlinjeljus,<br />
sättningszonljus och ljus vid utrullningsområde. 15<br />
Hur räknas det upp?<br />
Om man nu i stället frågar sig hur det räknas upp i begreppsbeskrivningar sker det<br />
oftast uttömmande enligt en viss indelningsgrund med de uppräknade elementen på<br />
samma begreppsnivå (dock icke-uttömmande i exemplifieringar och liknande som<br />
visats ovan, det vill säga när uppräkningar ingår i en definition).<br />
I vilken ordning räknas så elementen upp – och ger ordningen någon information<br />
om det bakomliggande begreppet? Jag ger här en bakgrund till min fråga:<br />
När jag en gång (innan Pluto blivit dvärgplanet 16<br />
) gjorde en OH-bild av en<br />
extensionell definition av begreppet planet med planeterna i bokstavsordning möttes<br />
det av förundran hos kollegerna: ”Så kunde man väl inte göra – de måste ju stå i<br />
13<br />
Frivilliga Radioorganisationen, http://www.fro.se/ordlista<br />
14<br />
ÖB<br />
15<br />
Luftfartsstyrelsen: Definitionssamling, 2008<br />
16<br />
I lanseringen av Nationalencyklopedins nya, uppdaterade kortversion (20 band) i Sverige lyfter man bland annat fram att Pluto<br />
inte längre är en planet. Detta är helt sant efter att den astrononiska unionen IAU röstat och kommit fram till att Pluto enligt den<br />
nya intensionella definitionen av ”planet” snarare ska räknas till dvärgplaneterna, men det är intressant att noterat man väljer att<br />
just ta upp något som är så inlärt (i en viss ordning) sedan skoltiden som planeterna i solsystemet.<br />
NORDTERM 2009, København 9.-12. juni 2009 174
ordningen från Solen räknat!?” Men gjorde bokstavsordningen dem mindre till planet<br />
– var det inte bara så att ett kännetecken mindre uttrycktes?<br />
planet<br />
Merkurius, Venus, Jorden, Mars, Jupiter, Saturnus, Uranus, Neptunus eller Pluto<br />
Ordningen från Solen räknat är den vi lärt oss i skolan och den som känns naturlig;<br />
någon annan ordning, även bokstavsordning, om än mer logisk på ett sätt, blir svårare<br />
att komma ihåg. Det är svårt att dra slutsatser om den ordning som används när<br />
element räknas upp som begreppsbeskrivningar, men ofta verkar det ske i en för<br />
fackområdet och målgruppen logisk ordning (till exempel vad gäller planeterna), det<br />
vill säga enligt ett underförstått kännetecken (avstånd från solen). I exemplet om<br />
”ädelgas” känner många säkert igen ordningen (som gjorts efter det underförstådda<br />
kännetecknet ”plats i periodiska systemet”), men förmodligen för att ordningen är<br />
inlärd snarare än för att man i detalj kan redogöra för det periodiska systemets<br />
uppbyggnad. Men kanske den definitionen inte alls är tänkt för lekmän utan för<br />
experter? Men då behöver den väl inte nödvändigtvis vara särdeles pedagogisk?<br />
ädelgas<br />
helium, neon, argon, krypton, xenon eller radon<br />
Varför räknas det upp?<br />
Om man sammanfattar vilka skälen kan vara till att element räknas upp i och som<br />
begreppsbeskrivningar förefaller det som att de praktiska skälen är de vanligaste, till<br />
exempel för att det kan vara svårt att skriva en intensionell definition eller som i<br />
följande fall, där man just vill undvika att specificera och istället använder ett<br />
överordnat uttryck – något som snarare liknar ett klassifikationsskäl. Ibland framgår<br />
motivet tydligt:<br />
sorption<br />
överterm för absorption och adsorption<br />
Termen används när man ej kan avgöra om absorption eller adsorption föreligger.<br />
Till dessa kan läggas ”traditionsenliga” och kunskapsmässiga såväl som<br />
mnemotekniska skäl, det vill säga att man har lärt in något i en viss ordning som<br />
förefaller naturlig i ett visst sammanhang eller i en viss kultur (börjar till exempel<br />
veckan på söndag eller måndag i en extensionell definition av ”vecka”?).<br />
Picht & Draskau (1985) har påpekat att extensionella definitioner är kortare och<br />
mer förklarande. Åhlberg (1986) framhåller att det är enklare att använda de här<br />
typerna av definitioner för estetiska begrepp eftersom det ofta råder större enighet om<br />
konnotationen av ett begrepp än av denotationen, det vill säga uppräkningen är minst<br />
NORDTERM 2009, København 9.-12. juni 2009 175
provokativ. Frågan kvarstår dock om dessa beskrivningar – som i litteraturen har<br />
framhållits som pedagogiska trots att de egentligen säger lite om det begrepp som<br />
”definieras” – verkligen är så pedagogiska i alla sammanhang, särskilt om det<br />
underförstådda kännetecken som uttrycks genom elementens ordning endast är<br />
självklart för en liten grupp fackexperter.<br />
Särskilt i lagtext verkar den extensionella definitionen vara vanlig. I en offentlig<br />
utredning (SOU 2008:120 Bättre kontroll av missbruksmedel. En effektivare<br />
narkotika- och dopningslagstiftning m.m.) beskrivs nio olika sätt att definiera inom<br />
juridiken, bland annat uppräkningsdefinitioner och s.k. definitionsmängder som kan<br />
vara slutna eller öppna. Den slutna definitionsmängden ”innebär att den mängd<br />
företeelser som definitionen åsyftar är bestämd eller känd vid ett visst givet tillfälle.”<br />
Man kan alltså ange alla element i definitionsmängden. Ofta sker det genom<br />
uppräkning. Inga nya element kan tillfogas mängden, som inte kan växa i omfång om<br />
inte definitionen ändras. Den öppna definitionsmängden innebär i stället att det kan<br />
tillfogas nya element som motsvarar definitionens kriterier. En öppen<br />
definitionsmängd kan alltså växa i omfång utan att definitionen behöver ändras.<br />
När det gäller begreppen ”narkotika” och ”dopningsmedel”, som är fokus för<br />
utredningen, beskrivs de med en sluten respektive en öppen definitionsmängd. Även<br />
om man i definitionen av narkotika anger ett överbegrepp (”läkemedel eller<br />
hälsofarliga varor”) så blir i praktiken ”den svenska narkotikadefinitionen en<br />
uppräkningsdefinition, genom att all narkotika anges på Läkemedelsverkets narkotikaförteckningar”<br />
och utgör alltså en sluten definitionsmängd. Detta anges i utredningen<br />
ha haft fördelar eftersom man enkelt har kunnat säga om ett ämne varit narkotika eller<br />
inte. Samtidigt framhåller man att den snabba utvecklingen av nya droger gör att<br />
förteckningarna snart blir inaktuella vilket påverkar rättssäkerheten. Det innebär att en<br />
extensionell definition är olämplig när extensionen ofta ändras. En önskan om en<br />
”generell” definition framhålls således samtidigt som man har invändningar mot en<br />
sådan eftersom man då riskerar att täcka in för många preparat och ev. kriminalisera<br />
tidigare legala ämnen.<br />
Man ska inte heller glömma att användningen av extensionella definitioner även har<br />
många andra nackdelar: de ger inte någon egentlig information om begreppet, det<br />
finns sällan en uttömmande extension och de är ej alltid särskilt varaktiga eftersom<br />
extensionen i många fall ändras med tiden. Dessutom avspeglar de inte alltid tydligt<br />
ett bakomliggande begreppssystem och anger inte alltid tydligt de uppräknade<br />
elementens position i ett sådant begreppssystem (handlar det t.ex. om underbegrepp,<br />
referenter eller exempel?). De uttrycker inte alltid explicit grunden för sin<br />
presentation, det vill säga ordningen, och de kan svårligen användas i stället för<br />
termen (Försök att fråga någon: Vilken januari, februari, mars, april, maj, juni, juli,<br />
augusti, september, oktober, november eller december fyller du år?).<br />
Till sist …<br />
I den här artikeln har jag försökt se på en kategori av ”definitioner” som visat sig<br />
vara ganska vanlig utan att gå till botten med uppräkningarnas alla mysterier. Mer<br />
skulle behöva göras och förhoppningsvis kan detta resonemang uppmuntra till mer<br />
forskning på den här typen av begreppsbeskrivningar. Mycket är ogjort och det är till<br />
NORDTERM 2009, København 9.-12. juni 2009 176
exempel inte uppenbart hur ett begreppssystem över den här typen av ”definitioner”<br />
skulle se ut:<br />
intensionell definition<br />
definition<br />
(relat ionstyp och form)<br />
extensionell definition<br />
(riktning)<br />
? ”traditionell”<br />
extensionell<br />
definition<br />
?<br />
(”rubrikdefinition”)<br />
beståndsdelsdefinition (”samlingsdefinition”)<br />
uppräkningar<br />
FIGUR 1. Útkast till begreppssystem för ”uppräkningsdefinitioner”.<br />
Till sist vill jag räkna upp några punkter om uppräkningar som kan användas i det<br />
praktiska definitionsarbetet. Tänk på att:<br />
• uppräkningar kan fylla olika funktioner och ha sitt berättigande även som egna<br />
begreppsbeskrivningar – när det verkligen finns skäl<br />
• man bör vara medveten om varför och hur uppräkningen görs<br />
• man bör ange sorteringsgrunden när uppräkningar görs, i alla fall när de används som<br />
begreppsbeskrivningar!<br />
REFERENCER<br />
Nilsson, H. (2008). Ordning i redan – om extensionella ”definitioner”. I: Med tydlig intension, Solna:<br />
Terminologicentrum TNC, ISBN 978-91-633-3194-7, ss. 111–128<br />
Nilsson, H. (2009). X. I: Terminfo nr X 2009, Helsingfors: Terminologicentralen TSK<br />
Picht, H. & Draskau, J. (1985) Terminology : an introduction Guildford: Univ. of Surrey, ISBN: 0-<br />
9510943-1-9<br />
SOU 2008:120 Bättre kontroll av missbruksmedel. En effektivare narkotika- och dopningslagstiftning<br />
m.m., Socialdepartementet, Narkotikautredningen, Stockholm: Fritzes, ISBN 978-91-38-23114-2,<br />
http://www.sweden.gov.se/sb/d/10057/a/117523, 2009-09-04<br />
NORDTERM 2009, København 9.-12. juni 2009 177
Wright, S.E. & Strehlow, R.A. (red.) (1995) Standardizing and harmonizing terminology : theory and<br />
practice, Philadelphia: ASTM, ISBN: 0-8031-1984-4<br />
Åhlberg, L.-O. (1986) Konst, språk och värde : om begrepp och definitioner inom de estetiska<br />
vetenskaperna. Uppsala: Uppsala univ., Inst. f. estetik, ISBN: 91-506-0475-9<br />
Österberg, H. (1979), Hierarkisk begreppsanalys : ett hjälpmedel vid undersökning av komplexa<br />
forskningsproblem, Stockholm: EFI : Norstedt, 91-1-787741-5<br />
Exemplen är (om inte annat nämns) hämtade från Rikstermbanken: .<br />
NORDTERM 2009, København 9.-12. juni 2009 178
TERMDIST – nordisk terminologiutbildning i<br />
ljuset av europeiskt utbildnings- och<br />
certifieringsarbete inom terminologi<br />
Henrik Nilsson a och Niina Nissilä b<br />
a Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige, +46 8 446 66 10,<br />
henrik.nilsson@tnc.se<br />
b Vasa universitet/Vaasan Yliopisto, Institutionen för nordiska språk, PB 700, FI-65101 Vasa,<br />
+358 6 324 81 11, niina.nissila@uwasa.fi<br />
Abstract. Sedan ett par år har C openhagen Business School (København), Norges<br />
Handelshøyskole (Bergen), Syddansk Universitet (Kolding), Terminologicentrum TNC<br />
(Stockholm) och Vasa u niversitetet (Vasa), Tolk- och översättarinstitutet (Stockholms<br />
universitet, Stockholm) och Stofnun Árna Magnússonar í íslenskum fræðum (Reykjavík) samarbetat<br />
inom projektet TERMDIST. Målet är att sk apa ett nätbaserat magister-/masterprogram i<br />
terminologi. Projektet presenterades under Nordterm 2007, och sedan dess har arbetet fortskridit.<br />
Höstterminen 2009 genomförs en pilotkurs. Denna kurs ska sedan upprepas som ett första steg i<br />
ett längre magister-/masterprogram, eventuellt med start hösten 2010. I denna artikel kommer vi<br />
att redovisa hur arbetet har fortskridit med kursen och på vilket sätt en nordisk utbildning av det<br />
här slaget är i ntressant för nordiska företag och deras anställda. Under ett seminarium om<br />
terminologens yrkesroll som hölls i Paris i feb ruari 2009 presenterade TermNet en plan för hur<br />
”terminologihanterare” (”terminology managers”) ska kunna certifieras (ino m projektet EU-<br />
CERT). Planen innehöll bland annat de l ärmoduler som ansågs behöva ingå i terminologiutbildningar<br />
för att en så dan certifiering skulle kunna ske. Artikeln kommer därför även att<br />
behandla i vilken mån innehållet i det tänkta nordiska magister-/masterprogrammet (sett även i<br />
förhållande till an dra existerande europeiska masterprogram) kommer att motsvara den<br />
planerade certifieringen. Mer information finns på: .<br />
TERMDIST: NÄTVERK OCH UTBILDNING<br />
Det nordiska nätverket TERMDIST skapades 2005 med stöd från Nordplus Språk.<br />
Nätverket TERMDIST arbetar aktivt m ot målet att skapa en samnordisk utbildning i<br />
terminologi på master-/magisternivå 1 .<br />
I nätverket ingår för närvarande fyra nor diska högre utbildningsinstitutioner där det<br />
bedrivs forskning och undervisning i terminologi och fackspråk och ett företag som är<br />
en drivkraft för terminologisk utveckling i sitt land:<br />
Copenhagen Business School (Handelshøjskolen i København), Institut for<br />
internationale sprogstudier og vidensteknologi, Danmark<br />
Norges Handelshøyskole, Institutt for fagspråk og interkulturell<br />
kommunikasjon, Norge<br />
1 Här råder viss språkförbistring mellan länderna varför både beteckningarna magisterprogram och masterprogram används.<br />
NORDTERM 2009, København 9.-12. juni 2009 179
Stofnun Árna Magnússonar í íslenskum fræðum, Island<br />
Syddansk Universitet i Kolding, Institutt for fagsprog, kommunikation og<br />
informationsvidenskab, Danmark<br />
Terminologicentrum TNC, Sverige<br />
Vasa universitet, Institutionen för nordiska språk, Finland<br />
Förutom dessa har Tolk- och översättarin stitutet TÖI (Stoc kholms Universitet)<br />
också deltagit i nätverket.<br />
Förutom nätverksorganisationernas egen finansiering har projektet m ottagit stöd<br />
från Nordplus Språk under 2005–2008. Språkrådet i Norge bidrar till utveckling av<br />
läromedel. Utveckling av den kurs i term inologi som ges hösten 2009 (projektåret<br />
2008/09) finansieras av Norgesuniversitetet.<br />
Magister-/masterprogrammet 2 har p lanerats som ett Internetbaserat p rogram (60<br />
ECTS, högskolepoäng) enligt Bolognam odellen. Fokus kommer att ligga på distansundervisning.<br />
Enligt planerna ska programmet omfatta ett år, men kommer tidsmässigt<br />
att fördelas över två år så att det går att kombinera med till exempel förvärvsarbete.<br />
PILOTKURSEN 2009<br />
Hösten 2009 genomför s den första m odulen (Terminologi I) i nordiska m aster-/<br />
magisterprogrammet som en pilotkurs ”Nordi sk kurs i terminologi”. Kursen riktar sig<br />
till kunskapsförmedlare, kommunikationsmedarbetare, översättare och<br />
dokumentalister, men också till fackexpert er med interesse för effektiv språklig<br />
kommunikation. Kursen ger 7,5 ECTS och varar 11 veckor (v. 40–50) hösten 2009.<br />
De medverkande instanserna kommer att va ra ansvariga för olika delar av kursen.<br />
Deltagarna kommer från alla de nordiska länderna.<br />
Kursen är nätbaserad och genom förs i nätinlärningsplattform en It’s learning.<br />
Undervisningen sker i form av självstudi er, presentationer på nätet, asynkron dialog,<br />
synkron chatt i mindre grupper, och övningar i grupper eller individuellt.<br />
It’s learning fungerar som kurswebbplats, so m används som materialbank för<br />
studiematerialet, som diskussionsplattform för m edstuderande och lärare, som<br />
postfack för inläm ningsuppgifter och övninga r och som ”lärarrum”. Undervisningsspråket<br />
varierar m ellan danska, norska oc h svenska. En del av övningarna och<br />
grupparbetena genomförs i bl andade nordiska grupper, en del av dem är språkspecifika.<br />
Antagningskrav är minst tre års utbildni ng på universitets- och högskolenivå. Den<br />
främsta målgruppen är personer som i sitt arbete kan tänkas ha nytta av terminologiska<br />
principer och metoder.<br />
Kursens mål är att ge studenterna färdigheter i terminologiarbete, ge grundläggande<br />
kunskaper om terminologi och terminologins teoretiska och m etodologiska grunder i<br />
ett nordiskt perspektiv, och ge en uppfattni ng om term inologins roll för en effektiv<br />
fackspråklig kommunikation. Studenterna får träning i att analysera och systematisera<br />
begrepp, identifiera och värdera term er i texter, utarbeta och bedöma definitioner och<br />
analysera texter term inologiskt. Kursinnehållet är f örankrat i te rminologistandarder<br />
2 Se nedan.<br />
NORDTERM 2009, København 9.-12. juni 2009 180
utarbetade av ISO. Exempel och övningar som ingår är of ta hämtade från praktiskt<br />
terminologiarbete. Dessutom får student erna bekanta sig m ed terminologiska<br />
problemställningar på alla niv åer, från det lokala till det nordiska planet. Kursen är<br />
tänkt att utgöra en bas för fortsatta studier i terminologi.<br />
Kursen kommer att ge en översikt över terminologins centrala begrepp (begrepp,<br />
referent, begreppskännetecken, begreppsrelationer och be greppssystem, definitioner,<br />
termer etc.), förhållandet mellan fackspråk och allmänspråk, samt förhållandet mellan<br />
terminologilära och lexikografi. Det i ngår många övningar i praktisk term inologiarbete,<br />
såsom strukturering av begreppssystem, definitionsskrivande och<br />
termskapande. För att kunna göra övningarn a får man en introduktion i term inologihanteringssystemen<br />
i-Term och i-Model. Efter kursen ska studenterna kunna:<br />
Strukturera begrepp i begreppssystem<br />
Använda principerna för definitionsskrivning korrekt och redogöra för dem<br />
Känna till principerna för termskapande<br />
Välja ut termer utifrån etablerade kriterier<br />
Argumentera för terminologins roll i en effektiv fackspråklig<br />
kommunikation, både fackinternt och fackexternt<br />
Använda terminologins terminologi korrekt<br />
Examen genomförs som en digital portfölj 3 evaluering. Detta betyder att man under<br />
kursens gång ska lämna in fyra uppgifter, varav man sedan omarbetar tre med hjälp av<br />
individuella kommentarer från läraren. Den slutgiltiga ”portföljen” ska innehålla dessa<br />
tre uppgifter, både i den version som först lämnades in och i en bearbetad form samt<br />
en reflektionstext.<br />
Undervisningen genomförs av nordiska terminologiexperter med erfarenhet av<br />
undervisning, forskning och praktiskt terminologiarbete. Lärarna på kursen har alla en<br />
anknytning till nordiska forskningsinstitutioner eller terminologicentrum.<br />
MAGISTER-/MASTERPROGRAM<br />
Den ovan beskrivna pilotkurse n är tänkt att utgöra en fö rsta modul i ett ettårigt<br />
master-/magisterprogram 4 omfattande 60 HCTS fördelade på 8 moduler som är tänkta<br />
att distribueras enligt följande:<br />
3<br />
I Danmark där metoden är vanlig pratar man både om ”portfolio” och ”portefølje” i pedagogiska sammanhang (Nyt fra<br />
sprognævnet, 2009/2, s. 13).<br />
4<br />
Intresset för ett sådant magisterprogram undersöks nu inom ramen för en doktorsavhandling vid Vasa universitet. En inledande<br />
enkätundersökning visar intressanta, preliminära resultat, bland annat att en stor andel skulle skicka sina anställda på en sådan<br />
kurs, att de föredrar två år framför ett år och att de skulle uppskatta terminologisk kompetens vid nyanställning.<br />
NORDTERM 2009, København 9.-12. juni 2009 181
TABELL 1. Översikt över det planerade magister-/masterprogrammet.<br />
År 1 År 2<br />
Terminologi I (7, 5 ECTS)<br />
Terminologihanteringssystem (TMS:er)<br />
(7,5 ECTS)<br />
Terminologi II (7,5 ECTS)<br />
Projektledning (7,5 ECTS)<br />
Språkpolitik (5 ECTS)<br />
Kunskapsstrukturering (5 ECTS)<br />
Översättningsorienterat<br />
terminologiarbete (5 ECTS)<br />
Masteropgave (15 ECTS)<br />
I nuläget finns inte så m ånga andra liknande utbildningar 5 , men i Spanien erbjuds en<br />
Master Online en Terminología 6 och vi har därför valt att även jäm föra med deras<br />
moduler; även om en sådan jämförelse endast kan bli förhållandevis ytlig; djuplodande<br />
information om vad som ingår i respektive modul har inte funnits tillgänglig.<br />
TABELL 2. Översikt över IULAs ”Master Online en Terminología”<br />
Obligatoriska moduler Valbara moduler<br />
Online Postgraduate Diploma:<br />
Terminology and Professional Needs<br />
(20 ECTS)<br />
Methodology on terminological work<br />
(10 ECTS)<br />
Supervised Master Project (10 ECTS)<br />
Online Postgraduate Course on<br />
Introduction to Terminology<br />
(10 ECTS)<br />
Resource for terminology by Internet:<br />
search and evaluation (5 ECTS)<br />
Using corpora for terminology<br />
(5 ECTS)<br />
Terminology management on computer<br />
assisted translation (5 ECTS)<br />
Making Terminological DB (5 ECTS)<br />
Problems of terminological work<br />
Redan den här enkla överblicken ger vid ha nden att det m esta av innehållet i den<br />
spanska utbildningen överensstämm er med som ingår i det planerade nordiska<br />
magister-/masterprogrammet, även om omfattningen i E CTS varierar något. Som i<br />
TERMDIST finns en grundläggande kurs som också ges separat (Online Postgraduate<br />
Course on Introduction to Terminology). En skillnad är den vikt man i Spanien lägger<br />
på korpusbaserat terminologiarbete.<br />
Exemplet EU-CERT<br />
Inom EU-CERT 7 (European Certificates Campus Project) pågår för närvarande ett<br />
projekt för certifiering av ”terminology managers” och ”financial term inology<br />
managers” med deltagare från Ungern, Rum änien, Spanien och Österrike (Term Net).<br />
5 Vi räknar här inte med de självstudiekurser som erbjuds av bland annat Termisti i Belgien: Abrégé de terminologie multilingue<br />
() och Translation Bureau (BtB) i Kanada: Terminology Tutorial (”Le Pavel”)<br />
(). Vi har heller inte jämfört med EMLex:<br />
European Master in Lexicography: .<br />
6 Se vidare för vidare information om det spanska magisterprogrammet.<br />
7 Se för mer information om projektet.<br />
NORDTERM 2009, København 9.-12. juni 2009 182
Nedanstående översikt presenterades vi d EAFTs seminarium ”The Term inology<br />
Profession and the Marketplace” 8 som hölls i Paris i februari 2009. Enligt denna ska<br />
en certifiering bygga på att term inologen har en utbildning som motsvarar sex s.k.<br />
”skill units” (kompetensenheter) med tillhörande ”learning e lements” (lärkomponenter).<br />
Dessa presenteras närmare i figur 1:<br />
FIGUR 1. Översikt över de delar som ingår i den certifiering av ”terminologihanterare” som föreslagits<br />
inom projektet EU-CERT.<br />
8 Dokumentation finns på .<br />
NORDTERM 2009, København 9.-12. juni 2009 183
I det följande komm er vi att jäm föra innehållet i den tänk ta certifieringen med de<br />
moduler som i dag finns planerade för TER MDISTs magister-/masterprogram. På det<br />
sättet kan man få en uppfattning om huruvi da de som kommer att följa den nordiska<br />
utbildningen skulle kunna certifiera sig i framtiden. Jämförelser med den spanska<br />
utbildningen kommer också att göras.<br />
Även om en sådan jämförelse inte kan bli helt fullödig eftersom information om<br />
EU-CERTs olika kom petensenheter inte h ar funnits tillgänglig kan det ändå ge en<br />
uppfattning om vad som tidigare, och i nuläget, anses tillhöra term inologens<br />
grundutbildning. I beskrivningen av profilen för ”certified terminology manager” sägs<br />
att ”Terminology and term inology management build an in tegral, high quality and<br />
quality assuring part of the end products, services and tolls in the fields of infor mation<br />
& communication, classification & categorization, translation & localization. The new<br />
job profile “Certified Term inology Manager” combines and bundles the various<br />
competencies of professionals active in these areas”. 9<br />
Överlag kan man konstatera att fyra av de sex modulerna verkar täckas in väl i både<br />
det nordiska och det spanska programmet, även om momentet om standardisering inte<br />
får lika stor plats som det verkar ha i EU-CERT. Modulerna om affärsprocesser och<br />
samarbete och psykologi är de som inte täcks in i nuläget. Man ka n då diskutera om<br />
dessa bör ingå eller om de fra mtida terminologerna ska ha detta i bagaget alternativt<br />
skaffa sig den utbildningen någon annans tans. Den här frågan diskuterades under<br />
ovannämnda EAFT-seminarium och Gabriele Sauberer från TermNet varnade då för<br />
att terminologen kan bli en ”eierlegende W ollmilchsau” 10 , dvs. en m ultikonstnär som<br />
ska klara allt, eventu ellt med tveksamt resultat. Man kan diskutera om detta är en<br />
önskvärd utveckling m en vi kan inte förd jupa den diskussionen här utan bara<br />
konstatera att man bör väga in tidigare kom petenser och kompletterande studier när<br />
man bedömer term inologens kompetens. Nedan beskriver vi varje kom petensenhet<br />
från EU-CERT med vad som nämns i olika yrkesprofiler och med praktisk erfarenhet<br />
av terminologiarbete och terminologiundervisning.<br />
Kompetensenheten ”Understanding Term inology Management” motsvarar huvudsakligen<br />
det som i TERMDIST ingår i m odulerna Terminologi I och Term inologi i<br />
Norden och de därtill kopplade lärkom ponenterna är sådana som en terminolog<br />
använder när han eller hon de ltar i aktiviteter som rör terminologiplanering, ensar och<br />
harmoniserar terminologier, skapar nya termer, produktnamn eller funktionsbeskrivningar,<br />
normerar terminologier eller granskar och följer upp terminologier så<br />
att termer och begrepp används på ett rikt igt sätt. Annorlunda ut tryckt, när han eller<br />
hon agerar term inograf, dokumentalist, fackspråkrådgivare, granskare, redaktör eller<br />
fackspråkvårdare. Det ingår mer övergripande moment som att skriva handledningar i<br />
begreppsanalys och term inologiarbete och delta i m er övergripande term inologiplanering<br />
på företags-, myndighets- eller sa mhällsnivå – aktiviteter som term inologer<br />
bevisligen arbetar med i Sverige i dag.<br />
Terminologyrket håller, som så m ånga andra, på att bli alltm er tekniskt och allt<br />
oftare ställs krav på kunnande i hanteri ng av olika term hanteringssystem. När det<br />
gäller kompetensenheten ”Terminology Management Skills” ligger dock Norden väl<br />
9<br />
http://www.iscn.com/projects/eu_cert/index.php?id=52 (2009-05-30)<br />
10<br />
Ung. ”äggläggande ullig gris som går att mjölka”, dvs. ett djur som ger både ull, mjölk, ägg och fläsk – en metafor för en person<br />
med extremt bred kompetens.<br />
NORDTERM 2009, København 9.-12. juni 2009 184
framme: i Danm ark och Sverige finns fler a lokalutvecklade term inologihanteringssystem<br />
(TMS:er) o ch diskussioner om olika typer av m odellering och notation av<br />
begreppssystem fortgår. Det finns oc kså en god inblick och m ånga praktiska<br />
erfarenheter av hur term inologiprojekt bäst bedrivs. I Sverige och D anmark finns<br />
också några terminologer anställda inom offentlig och privat sekt or. I det planerade<br />
magister-/masterprogrammet motsvaras denna enhet av flera moduler: Terminologi II,<br />
Översättningsorienterat terminologiarbete, Kunskapsstrukturering och Projektledning.<br />
Den sistnämnda har tidigare ingått i den Master of La nguage Administration (MLA)<br />
som tidigare getts vid Handelshøjskolen i København 11<br />
Man ska inte underskatta den ökade ”t eknifiering” som också skett av<br />
terminologyrket (automatisk excerpering, kor pusbaserat terminologiarbete etc.) och<br />
Hayhoe (2000) uttrycker detta på följande sät t: ”If we want to prom ote our profession<br />
and ourselves, of course we m ust be competent users of tools. But at the sam e time,<br />
we should not led the tools define us or di stract us, our m anagers, or our audiences<br />
from the essential expe rtise that makes us effective communicators of specialized<br />
information. […] Wha t’s important about our work is the effectiveness and<br />
appropriateness of the content that we deve lop […], not the tools we use to encode<br />
that content. The tools make the production and delivery of the content easier, but it’s<br />
our technical subject matter expertise and communication skills that make us technical<br />
communicators.” Även om detta gällde teknikinformatörer kan mycket sägas vara sant<br />
även för terminologer.<br />
Den översättning av Snom ed (Systematized Nomenclature of Medicine) som har<br />
sysselsatt och sysselsätter m ånga i Danm ark och Sverige är bara ett ex empel på en<br />
tillämpning av terminologiläran inom en vi ss sektor. Och många fler sådana exem pel<br />
finns, liksom exempel på terminologiska tillämpningar i den semantiska webben och i<br />
lokalisering. Det finns alltså ett bra utgångs material för den kompetensenhet som EU-<br />
CERT kallar ”Application, Scenarios”.<br />
Norden har också varit och är fram trädande inom ISO och standardisering av<br />
terminologins egen terminologi och terminologiska arbetsmetoder vilket i sig gör att<br />
det finns mycket att ta upp i den kompetensenhet som kallas just ”Standards and Legal<br />
Issues”. ISO-standardisering utgör bas för den metodik som lärs ut.<br />
Detsamma gäller utbytesformat för terminologiska data (EU-CERT nämner TBX 12 )<br />
där de nordiska länderna har en ganska lång tradition. Däremot finns det nog en del att<br />
komplettera med vad gäller sambandet terminologi och juridik, till exempel<br />
upphovsrätt och liknande frågor.<br />
Som tidigare nämnts är de två kvarv arande kompetensenheterna ”Business Process<br />
& Management Skills” och ”Tea m Working & Communication Skills” d e som i<br />
nuläget minst finns representerade i utbildni ngar. Att terminologiarbete inte är något<br />
ensamarbete är ingen nyhet, och när det gäller den mer ”psykologiska delen” av att till<br />
exempel arbeta m ed en expertg rupp och få m edlemmarna att komm a till konsensu s<br />
kring en definition eller en term finns det en hel del kunskap och erfarenhet bland<br />
yrkesverksamma terminologer. Kanske finns dock inte så mycket av detta beskrivet i<br />
11 Se vidare .<br />
12 TBX (Term Base eXchange) är en öppen, XML-baserad standard för utbyte av terminologiska data som utvecklats av LISA<br />
men som kommer att publiceras som ISO-standard (ISO 30042). Mer information finns på .<br />
NORDTERM 2009, København 9.-12. juni 2009 185
form av utbildningsm aterial och teorier. När det gäller den m er affärsmässiga och<br />
ekonomiska delen har den komm it att bli en del av mången terminologs vardag i takt<br />
med att det krävs alltfler hå rda argument för att m otivera ett terminologiprojekt eller<br />
inköp av ett term inologihanteringssystem. Går det att räkna hem ? Det finns dock<br />
exempel på hur sådan argum entation kan ly ckas; ett sådant är uppbyggnaden av en<br />
termbank på Finlands Bank 13 .<br />
Allt innehåll i dessa kompetensenheter är dock inte helt och hållet frånvarande från<br />
planerade och existerande utbildningar – och i viss utsträckning kan nog en del av dem<br />
vara något som en term inolog har m ed sig sedan tidigare (p resentations- och<br />
undervisningskompetens etc.). En helt annan fråga är i vilken omfattning dessa<br />
moment som å ena sidan är specialkompetens, men å andra sidan allt viktigare som en<br />
del av te rminologiarbetet ska ing å i en terminologiutbildning – kan det räcka m ed<br />
gästföreläsningar eller krävs hela moduler med andra lärare än de som i dag undervisar<br />
terminologi?<br />
Certifiering av terminologer?<br />
Man kan här stanna upp och fråga sig om idén med en certifiering är lämplig för<br />
den lilla yrkeskår som kallar sig terminologer i Norden. Men allra först, några ord om<br />
begreppet certifiering. Begreppet kan definieras som ”handling utförd av en tredje part<br />
som visar att tillräcklig tilltro uppnåtts att en vederbörligt identifierad produkt, process<br />
eller tjänst är i överen sstämmelse med en bestäm d standard eller m ed ett annat<br />
regelgivande dokument” 14 , men nämns ofta ( i Sverige) i samma a ndetag som<br />
ackreditering, legitimering och auktorisering, och kring dessa begrepp råder, i varje<br />
fall i Sverige ibland viss förvirring. 15 Vi ska dock inte fördjupa denna diskussion här,<br />
men man kan konstatera att det teoretiskt skul le vara möjligt att i Sverige certifiera<br />
personer 16 .<br />
Diskussionen om certifiering har interna tionellt förts bland teknikinform atörer<br />
(Turner & Rainey, 2004; Rainey, Turn er & Dayton, 2005; W hiteside, 2003; Brady<br />
2007, Hayhoe 2000) – en yrkesgrupp som har beröringspunkter med terminologerna,<br />
varför dessa diskussioner kan vara intr essanta att app licera på term inologernas<br />
situation. Enligt dessa (Turner & Rainey, 2004) förutsätter certifiering bland annat:<br />
ett giltigt testförfarande<br />
en överenskommen kunskapsbas<br />
en kompetent administration<br />
ett tillförlitligt certifieringsorgan<br />
en rimlig kostnad<br />
13<br />
Se vidare Puttonen i denna volym.<br />
14<br />
SS-EN 45 011 (utg 1), 1989: Certifieringsorgan – Allmänna krav vid certifiering av produkter. Det finns dock flera snarlika<br />
definitioner i andra standarder och ordlistor.<br />
15<br />
Turner & Rainey (2004) definierar begreppet ”certification” som ”recognition or validation by a professional organization<br />
(including a college or university) or agency that an invididual possesses the qualification for engaging in a specific profession”.<br />
TNC har inlett en analys av dessa begrepp och deras svenska termer.<br />
16<br />
Det finns yrken som kan få titeln ”legitimerad” (inom vårdsektorn) och andra som är ”auktoriserade” (revisor och translator).<br />
NORDTERM 2009, København 9.-12. juni 2009 186
En grundläggande fråga blir då om det fö r terminologer går att ta fram en sådan<br />
överenskommen kunskapsbas (body of knowledge) – som definierats som ”essential<br />
information of which practitioners m ust demonstrate mastery to be certified as<br />
professionals in that field” (Hayhoe , 2000). När det gäller kompetenser och<br />
kvalifikationer finns o m möjligt ännu fler begrepp och definition er i om lopp:<br />
kvalifikation, kompetens, skill, qualification, competence … Men oavsett vad man<br />
lägger i dessa begrepp och i begreppet kunskapsbas<br />
17 har det redan gjorts ett antal<br />
sammanställningar, yrkesprofiler, för term inologer 18 som just försöker beskriv a<br />
terminologens olika yrkesroller och länka dessa till nödvändiga kompetenser:<br />
RaDT: Berufsprofil 19<br />
Quirion, Caignon & Mareschal, 2004: ”Formation de terminologues”<br />
OTTIAQ : Kompetenstabeller (”Grilles de compétence”)<br />
EU<br />
Syddansk Universitet, Danmark<br />
Dessa profiler och deras innehåll utgör en bra utgångspunkt för en internationell<br />
kunskapsbas. Men kanske kan det be hövas ytterligare uppspjälkning av<br />
kompetenserna. För det ändamålet kan en diskussion som förts av Ellström (1997) och<br />
en tillhörande modell tjäna som utgångspunkt:<br />
p<br />
attribut<br />
hos<br />
individen<br />
formal competence<br />
officially demanded competence<br />
{<br />
competence in use<br />
actual competence<br />
competence required by the job<br />
FIGUR 2. Modell över yrkeskompetenser (Ellström, s. 268).<br />
Ellström (1997) beskriver den term inologiska oreda som föreligger när det gäller<br />
kompetens och börjar m ed att skilja m ellan begreppen ”competence”, ”occupational<br />
competence” och ”qualification”.<br />
Kompetens (competence 20 ) definierar han som ”the potential capacity of an<br />
individual (or a co llective) to successfully (acc ording to certain form al or inform al<br />
criteria, set by oneself or by som ebody else) handle certain situations or com plete a<br />
certain job or task”<br />
Denna ”capacity” kan, enligt Ellström, beskrivas ytterligare genom fem klasser av<br />
”skills”: motoriska, kognitiva, affektiva, personlighetsrelaterade och sociala.<br />
17 I det här sammanhanget talas det också ibland om s.k. generiska kompetenser men då avses oftast kompetenser en person bör ha<br />
oavsett yrke. Dahllöf (2006) beskriver dessa kompetenser som ”sådana som är av en allmän relevans för många ämnesområden<br />
och som man som student därför torde kunna ta med sig från ett sammanhang till ett annat”.<br />
18 Se vidare Grinsted (2007) för en jämförelse av existerande profiler.<br />
19 Se vidare < http://www.radt.org/veroeffentlichungen.html>.<br />
20 Vi har valt att ibland behålla Ellströms engelska termer (och ibland även definitioner) i stället för att riskera att använda en<br />
felaktig eller olämplig svensk ekvivalent (om sådana ens finns).<br />
NORDTERM 2009, København 9.-12. juni 2009 187<br />
{<br />
attribut<br />
hos<br />
arbetet
Yrkeskompetens (”occupational competence”) kan då ses som ett komplex av dessa<br />
fem klasser, en relation m ellan en individs kapacitet och det en viss s ituation eller<br />
uppgift kräver vilket gör det snarare till en potentiell kapacitet än en verklig kapacitet.<br />
Detta resonemang leder till att begreppet ”qualification” kan definieras som en typ av<br />
kompetens: ”the com petence that is act ually required by the work task; and /or<br />
implicitly or explicitly prescribed by the employer” (Ellström, 1997)<br />
Han fortsätter därefter med att ta upp fe m typer av kompetens och tre sätt att se på<br />
kompetens. Enligt de t första sättet (till vänster i bilden) ses kom petensen som ett<br />
kapital som individen besitt er och man talar då om ”formell” eller ”verk lig”<br />
kompetens:<br />
formal competence: kompetens som kan mätas i antal skolår, examina eller i<br />
vitsord från referenspersoner etc.<br />
actual competence: den potentiella kapaciteten hos person att klara av<br />
arbetsuppgift (baseras på utbildning och erfarenheter)<br />
Mycket av fokus har i m ånga sammanhang legat på den formella kompetensen och<br />
hur den säger något om den verkliga kom petensen. Ellström betonar d ock att d etta<br />
synsätt har kritiserats eftersom man inte alltid vägt in kvaliteten på olika utbildningar.<br />
Man har också tyckt att allt för stor vikt har lagts vi d intellektuella ”skills” på<br />
bekostnad av de övriga (till exem pel attityd, motivation och intressen) Dessutom bör<br />
man inte glömm a att den verkliga kom petensen innefattar även sådant som lärs in<br />
under själva arbetet och inte bara resultatet av utbildning. (Ellström, s. 268). Tillämpar<br />
man det här synsättet på term inologyrket infinner sig nog en mycket jäm nare<br />
fördelning mellan tyngden i form ell och verk lig kompetens; eftersom det saknas ett<br />
regelrätt utbildningsprogram handlar det i många sammanhang om att som terminolog<br />
lära sig genom att arbeta handfast m ed terminologi (”learning by doing”), genom en<br />
sorts modernt lärlingsutbildning. Samtidigt kan tidigare utbildning i både<br />
terminologilära och andra äm nen påverka ens yrkeskompetens som terminolog och<br />
bör därför vägas in vid kompetensbedömningar.<br />
Det andra synsättet (till höger i bilden) betonar yrkeskompetensen som något som<br />
framkommer i kraven som ställs för ett vi sst jobb, i en viss jobbannons, på en viss<br />
arbetsplats, av en chef etc. Detta gör att yrkeskompetens närmar sig begreppet<br />
”qualification” (se ovan). Ellström trycker på att det kan f innas skillnader mellan vad<br />
som officiellt krävs och vad som verkligen krävs, särskilt om man inte noggrant<br />
analyserat vad ett visst jobb innebär och vilka krav som bör ställas:<br />
”officially demanded competence”: föreskrivna kompetenskrav<br />
(platsannonser)<br />
competence required by the job: verkliga/egentliga kompetenskrav<br />
”Terminologjobbet” har väl inte hittil ls varit föremål för någon riktigt<br />
genomgripande analys (även om flera av de ovannäm nda yrkesprofilerna tar upp<br />
exempel på arbetsuppgifter en term inolog kan – och får – ut föra) och det skulle alltså<br />
kunna finnas en risk att det som föreskrivs (i jobbannonser och likna nde) inte är det<br />
som krävs – och inte heller det som tagits upp i term inologiutbildningen. Ellström<br />
NORDTERM 2009, København 9.-12. juni 2009 188
etonar dock att den typen av jobbanalyser inte är enkla att genomföra. I stället vill<br />
han föra fram ett tredje, och mer interaktivt synsätt (mitten av bilden):<br />
”competence in use”: fokus ligger här på interaktionen mellan individ och<br />
arbete och den kompetens som verkligen används när arbetet utförs .<br />
Yrkeskompetensen är alltså varken ett attribut som hör till individen eller till själva<br />
yrket/jobbet utan om den kompetens som utvecklas i interaktionen m ellan individen<br />
och arbetet, den kom petens som verkligen används. Och det är kanske snarare den<br />
som beskrivits i de existerande yrkespro filerna för term inologer; eftersom många<br />
utvecklat yrkesrollen, åtminstone i Norden, genom praktiskt arbete har m an studerat<br />
vilka arbetsuppgifter man verkligen har utfört och inte resonerat fram vad man borde<br />
kunna göra med en viss utbildning i bagaget.<br />
Flera andra frågor kvarstår naturligtvis rörande kompetens och certifiering: Bör en<br />
analys av terminologjobb i Norden genomföras och på vilket sätt? Vilket organ skulle<br />
utföra en certifiering i varje land? Förmodligen bör certifieringen utföras lokalt, m en<br />
ett alternativ vore a tt en internationell organisation på terminologiområdet, som till<br />
exempel Infoterm eller TermNet, skulle sköta detta, men en förutsättning är då att d et<br />
finns beskrivningar som är jämförbara för existerande terminologiutbildningar.<br />
Alldeles oavsett om certifieringen realiseras eller in te kan det vara in tressant att<br />
föra en diskussion om terminologyrkets status och utveckling. I takt m ed att yrkeskåren<br />
förhoppningsvis växer bör man studera vilka krav som kan komma att ställas.<br />
Återigen kan man jämföra med teknikinformatörerna; i studier (W hiteside, 2003) har<br />
det framkommit att det som nyutexaminerade teknikinformatörer och chefer anser vara<br />
det viktigaste att komplettera en utbildning med är:<br />
”business operations<br />
project management<br />
problem-solving skills<br />
scientific and technical knowledge”<br />
Återigen är det inte svårt att tänka sig att flera av de här punkterna är relevanta även<br />
för terminologer, särskilt med tanke på de kom petensenheter i de n föreslagna<br />
certifieringen som i dag verkar vara något mindre utvecklade i terminologiutbildningar<br />
(ekonomisk argumentationsförmåga etc.).<br />
Diskussionens vågor för och em ot certifiering har alltså sva llat höga bland teknikinformatörer<br />
och inform ationsspecialister, men enbart nyligen väckts bland<br />
terminologer. Man kan därför fråga sig om det är lika relevant med en certifiering för<br />
terminologer och vad den i så fall skulle tjäna till. Följande uppställning presenterar<br />
några argument för och emot:<br />
För:<br />
Kan ge yrket status och<br />
legitimitet – och eventuellt<br />
högre löner<br />
Ansvarsmekanism<br />
Dokumenterar<br />
yrkeskunskaper<br />
Skapa (inter)nationell samhörighet<br />
NORDTERM 2009, København 9.-12. juni 2009 189
Emot:<br />
För få yrkesutövande<br />
terminologer<br />
Svårt att sätta upp kriterier<br />
Svårt att få fram objektiva<br />
data om vad som efterfrågas<br />
på arbetsmarknaden<br />
Av en sådan samm anställning är d et förstås svårt att dra några slutsatser om en<br />
certifiering bör genomföras eller e j, men den kan möjligtvis väcka en diskussion som<br />
kan fortsätta inom bland annat Nordterm s ramar. Vad m an kan konstatera är att<br />
terminologyrket innehåller et t brett spektrum av roller och uppgifter och att<br />
terminologen ofta innehar många roller på samma gång.<br />
Terminologiutbildning – några utmaningar och frågor<br />
Alldeles oavsett om den ovannämnda certifieringen realiseras eller inte kan det vara<br />
intressant att fortsätta föra en diskussi on om terminologyrkets status och utveckling<br />
och vilka konsekvenser detta får för aktuell och framtida utbildning av term inologer.<br />
Redan i dag finns m ånga utmaningar för terminologiutbildningen i de nordiska<br />
länderna:<br />
Inget större genomslag av terminologi som akademiskt ämne och<br />
terminologiprofessurer finns i få nordiska länder.<br />
Otillräckligt antal studenter: en av anledningarna att TERMDIST startades<br />
var just att det i varje nordiskt land inte ansågs finnas tillräckligt studenter<br />
för att kunna starta en längre utbildning i terminologi.<br />
Olika utbildningskontexter (nätkurser, självstudiekurser, kurser i samband<br />
med projekt, kurser som ingår i introduktioner för nyanställda etc.) ställer<br />
olika (och nya?) krav på innehåll och metodik.<br />
En förändrad arbetsmarknad (och en framtida certifiering) ställer nya krav<br />
på innehållet i terminologiutbildningar vilka i sin tur ställer nya krav på<br />
terminologiutbildarna och på tvärvetenskapliga samarbeten.<br />
När det gäller målgrupper för terminologiutbildningar kan man fundera på om man<br />
bör sträva mot en ”terminologisering” av andra yrkesgrupper – och utbildningar?, dvs.<br />
parallellt nyutbilda terminologer vid universitet och högskolor i särskilda program<br />
men också erbjuda fortbildning för yrkesverksamm a personer från andra områden och<br />
erbjuda terminologi som en m odul i he lt andra utbildningsprogram än enbart<br />
språkorienterade? Quiron et al (2004) nä mner i sin yrkes- oc h kompetensprofil för<br />
terminologer att när det gäller term inologens kunskaper i ett fackområde kan man<br />
antingen tillgodose detta genom en introduktio n i fackområdet eller genom att ställa<br />
krav på tid igare studier inom detta om råde. Ska m an alltså, annorlu nda uttryckt,<br />
utbilda terminologer i kem i och andra fackom råden och parallellt utbilda kemister,<br />
fysiker etc. i term inologi? Kan man då i förlängningen tänka sig att en utbildning i<br />
terminologi ska kunna ses som en del i livs långt lärande och något som man snarare<br />
ska kunna få lära på/i jobbet vilket i sin tur ställer andra krav på didaktik och metodik.<br />
En annan relaterad fråga är hur m an bör resonera kring antagningskraven till<br />
terminologiutbildningarna. I Kanada har m an på Translation Bureau, som anställer<br />
NORDTERM 2009, København 9.-12. juni 2009 190
många terminologer, nyligen ändrat kraven så att det nu krävs en översättarexamen för<br />
att få påbörja det tvååriga interna utbildningsprogrammet som leder fram till titeln<br />
terminolog. På TNC arbetar flera te rminologer som har annan huvudsaklig<br />
utbildningsbakgrund än språklig, vilket ibla nd har förvånat utländska term inologer.<br />
Även i TERMDIST di skuterades dessa frågor eftersom det ibland ställs krav in om<br />
institutioner på särskilda bakgrundsstudier för studenter som vill söka till ett nys tartat<br />
magister-/masterprogram.<br />
SLUTSATSER OCH IDÉER<br />
En bit in i p ilotkursen framstår TERMDIST som ett gott n ordiskt samarbete, som<br />
trots många utmaningar och olikheter kunna t realiseras. TE RMDIST-samarbetet har<br />
satt fingret på viktiga skillnader i uppfa ttningar och undervisningmetoder – något som<br />
också förtjänas att beskrivas i en egen artikel. Det framstår allt tydligare att det än så<br />
länge kan bli svårt för varje nordiskt land att få tillräckligt med studenter för att ordna<br />
ett eget master-/magisterprogram i terminologi, men det förhållandet kan naturligtvis<br />
ändras. Dock ändras inte det faktum att en samnordisk kurs är berikande på flera sätt,<br />
både för lärare och studenter.<br />
I ljuset av europeiskt arbete m ed certifiering och europeisk term inologutbildning<br />
kan det magister-/m asterprogram som skisserats inom TERMDIST, m ed vissa<br />
tänkbara kompletteringar, sägas väl motsvara EU-CERTs tänkta certifiering, och även<br />
täcka in innehållet i andra utom nordiska motsvarande program. Och de EU-CERTenheter<br />
som i dag saknas eller är m indre utvecklade skulle kunna ge upphov till nya<br />
intressanta tvärvetenskapliga samarbeten som kan bli till gagn även för utveckling av<br />
terminologiläran.<br />
Vi vill avs luta med några f rågor och idéer på tem at yrkeskompetens och<br />
certifiering: Frågan om certifiering skulle behöva fortgå – varför inte inom ramen för<br />
Nordterm, som ett nytt gem ensamt nordiskt projekt? – och utv ecklingen inom DTTs<br />
arbetsgrupp för utbildning där m an nyligen skapat ett system för viktning och arbetat<br />
fram kompetensmatriser bör följas. Ka nske dessa kan anpassas till nordiska<br />
förhållanden på samma sätt som deras Berufsprofil?<br />
Den enkätundersökning som genomförs vid Vasa universitet blir en intressant<br />
utgångspunkt för diskussioner och eventuellt fler undersökningar om olika typer av<br />
kompetenser hos terminologer. Kanske bör man djupdyka i vilka behov som finns på<br />
arbetsmarknaden av färdigutbildade te rminologer – och av vidareutbildning i<br />
terminologi av andra yrkesgrupper som kan pågå parallellt. Skulle en studie av<br />
jobbannonser och intervjuer m ed anställda och chefer kunna vara produktivt för en<br />
sådan diskussion eller varför inte ett sem inarium om kompetenser o ch en eventuell<br />
certifiering i Norden?<br />
REFERENCER<br />
Brady, A. (2007). What We Teach and What They Use. Teac hing and Learning in Scientific and<br />
Technical Communication Programs and Beyond.. In Journal of Business and Technical<br />
Communication 21(1), Sage Publications, ss. 37–61.<br />
Dahllöf, M. (2006). ”Generiska kompetenser”. PM, Uppsala: Uppsala universitet, Institutionen för<br />
NORDTERM 2009, København 9.-12. juni 2009 191
lingvistik och filologi, , hämtad 2009-07-31<br />
Ellström, P.-E. (1997). The many meanings of occupational competence and qualification. In Journal of<br />
European Industrial Training 21/6/7. MCB University Press, ss. 266–273<br />
Grinsted, A. (2008). TERMdist. Et Nordisk Initiativ om en Masteruddannelse I Terminologi. In J. Hoel<br />
(red.) Kunnskap og fagkommunikasjon. (Nordterm 15, Nordterm 2007, 13.–16. juni 2008) Oslo:<br />
Språkrådet, ss. 76--84.<br />
Grinsted, A. (2007). TERMdist. Sammenligning af pr ofiler. Terminologer. Opublicerat<br />
projektdokument.<br />
Hayhoe, G.F. (2000). What Do Technical Communicators Need to Know? In Technical Communication<br />
47(2), ss. 151–153.<br />
Nilsson, H. (2009). Le terminologue en profil | The terminologist in profile. Opublicerad presentation<br />
framförd vid EAFTs seminarium The Terminology Profession and the Marketplace som hölls i Paris<br />
den 19 februari 2009.<br />
Pulitano, D. (2009). Le profil du terminologue du RaDT. Opublicerad presentation framförd vid EAFTs<br />
seminarium The Terminology Profession and the Marketplace som hölls i Paris den 19 februari<br />
2009.<br />
Rogers, M. (2000). Training in Terminology. In Conference on Co-operation in the Field of<br />
Terminology in Europe, Union Latine & EAFT: Paris, ss. 167–177.<br />
Sauberer, G. (2009). Terminology and the famous RoI. Opublicerad presentation framförd vid EAFTs<br />
seminarium The Terminology Profession and the Marketplace som hölls i Paris den 19 februari<br />
2009.<br />
Turner, R.K., Rainey, K. T. (2004). C ertification in Technical Communication. In Technical<br />
Communication Quarterly 13(2). Hillsdale, NJ: Lawrence Erlbaum Associates, ss. 211–234.<br />
Turner, R.K., Rainey, K.T. & Dayton, D. (2005). Do Curricula Correspond to Managerial Expectations?<br />
Core Competencies for Technical Communicators. In Technical Communication 52(3), ss. 323–352.<br />
Whiteside, A.L. (2003). The Skills that Technical Communicators Need: An Investigation of Technical<br />
Communication Graduates, Managers, and Curricula. In Journal of Technical Writing and<br />
Communication 33(4), Baywood Publishing Co, ss. 303–318.<br />
NORDTERM 2009, København 9.-12. juni 2009 192
Begreppsstrukturer i språkbadselevers<br />
ämnesspecifika skriftliga produktion<br />
Niina Nissilä a och Nina Pilke<br />
aInstitutionen för nordiska språk, Vasa universitet<br />
Abstrakt. Den här artikeln diskuterar terminologiska metoder i analysen av begreppsstrukturer i<br />
skolelevers skriftliga produktion på L2. Materialet består av 117 uppsatser skrivna av<br />
språkbadselever på årskurs 6. Elevernas begreppsorientering undersöks med hjälp av<br />
begreppskartor (satellitmodell) som förväntas visa hur eleverna strukturerar ett angivet tema<br />
(väder) med tanke på olika nivåer. Studien visar att med stöd av begreppskartor är det möjligt att<br />
identifiera olika känneteckenkategorier på olika nivåer. Med hjälp av de terminologiska metoderna<br />
kan man därmed få en helhetsbild av hurdana begreppshierarkier det finns i texterna och på detta<br />
sätt få en uppfattning om hur elever på en viss årskurs strukturerar ämnesspecifik kunskap.<br />
INLEDNING<br />
I vår artikel diskuterar vi användning av terminologiska metoder i analysen av<br />
begreppsstrukturer i skolelevers skriftliga produktion på L2 (andra språket). Vår studie<br />
är en del av forskningsprojektet Begreppsvärldar i svenskt språkbad (BeVis) vid<br />
institutionen för nordiska språk vid Vasa universitet.<br />
Vi är intresserade av på vilket sätt (om och hur) terminologiska metoder kan<br />
tillämpas i en ämnesspecifik kontext som ändå inte är kommunikation mellan experter.<br />
Vi undersöker elevernas begreppsorientering med hjälp av begreppskartor som<br />
förväntas visa hur eleverna strukturerar ett angivet tema med tanke på olika nivåer. Vi<br />
kommer också att göra en preliminär analys av begreppskännetecken genom att<br />
undersöka vilka aspekter eleverna har med i sina texter.<br />
PROJEKTET BEVIS OCH MATERIAL<br />
Det övergripande syftet med det bakomliggande större forskningsprojektet (BeVis)<br />
är att studera hur språkbadselevernas ämnesspecifika kunskapsstrukturer och<br />
kunskapshantering utvecklas i den grundskoleundervisning som ges via både<br />
språkbadsspråket svenska och första språket finska (BeVis 2009). Svenskt språkbad i<br />
Finland är ett flerspråkigt undervisningsprogram där barn som har majoritetsspråket<br />
finska som sitt förstaspråk lär sig språk och innehåll parallellt. Språkbadet<br />
introducerades i mitten av 1980-talet i Vasa med en grupp i daghem. (Laurén 1999).<br />
Idag deltar ca 4000 elever i svenskt språkbad på daghems- och grundskolenivå på 13<br />
orter. (Laurén & Buss 2009: 3).<br />
Projektet BeVis förenar två forskningstraditioner vid institutionen för nordiska<br />
språk, nämligen forskning i svenskt språkbad och forskning i fackspecifik<br />
NORDTERM 2009, København 9.-12. juni 2009 193<br />
b
kommunikation. Forskargruppen be står av fackspråksforska re och språkbadsforskare<br />
på post doc -nivå, doktorander och avhand lingsskribenter på magisternivå. Denna<br />
kombination förväntas ge dels nya insikter i åldersrelaterad ämnesspecifik kompetens i<br />
andraspråk i språkbad, dels nytt ve tande om tillämpningen av term inologiska och<br />
fackspråkliga metoder i en ny kontext.<br />
Materialinsamlingen inom projektet inleddes 2004 m ed en skriftlig<br />
pilotundersökning och avslutades 2009 med klassrumsobservationer och<br />
lärarintervjuer. Den insamlade korpusen består av enkät, muntlig t material, skriftligt<br />
material och klassrumsobservationer på tre årskurser (3, 6 och 9) i tre städer i Finland<br />
(Esbo, Åbo och Vasa). I denna artik el sätter vi det skriftliga materialet på årskurs 6<br />
som samlats in i oktober 2005 i fokus.<br />
På uppgiftspapperet har eleverna fått krys sa för kön (flicka/pojke) och skriva in<br />
klass. Själva uppgiften är som följer:<br />
Berätta för en språkbadselev i Australien vad som händer när det blir vinter i<br />
Finland. På papperet finns några ledtrådar som ger dig idéer vad du kan skriva<br />
om. Du får välja så många av dem som du vill. Sätt ”Nu blir det vinter i<br />
Finland” som rubrik.<br />
Eleverna har därm ed haft som uppgift att under ungefär 30 m inuter skriva en<br />
uppsats med rubriken Nu blir det vinter i Finland utgående från sex ämnesspecifika<br />
stimulusord (vädret, marken, vattendragen, växterna, djuren, människan). Eleverna på<br />
årskurs 6 i Esbo, Åbo och Va sa har skrivit 119 uppsatser som innehåller sammanlagt<br />
18121 ord. Ord har räknats som grafiska ord med hjälp av W ord i den autentiska<br />
kontext där de förekomm er. Felaktig sä rskrivning av sa mmansättningar (t.ex. minus<br />
grader, Golf strömen, jätte kalt) resulterar således i tv å eller flera ord. Bland<br />
skribenterna finns det enligt den inform ation som eleverna ger på uppgiftspapperet 56<br />
flickor och 61 pojkar. Därtill finns det 2 el ever som inte har angett sitt kön. Av dessa<br />
finns den ena bland flickorna (93 ord) och de n andra bland pojkarna (104 ord) i tabell<br />
1.<br />
TABELL i). Ord i uppsatserna.<br />
Flickor Pojkar Totalt<br />
Ord 10936 7186 18121<br />
Flickorna har skrivit knappt 11000 ord (i genomsnitt 192 ord/uppsats) och pojkarna<br />
drygt 7 000 ord (i geno msnitt 113 ord/uppsats). I genomsnitt har eleverna skrivit 152<br />
ord i sina uppsatser (rubriken inte m edräknad) och variationsvidden för ländgen mätt i<br />
ord i det utvalda m aterialet är 10–388 ord. En kvantitativ genom gång av m aterialet<br />
ifråga om ledtråden väder visar att endast två elever av 119 inte alls diskuterar<br />
begreppet ’väder’ i sina texter. En kvalitativ analys av hur de 117 eleverna presenterar<br />
NORDTERM 2009, København 9.-12. juni 2009 194
egreppet ’väder’ i sina texter gör vi genom att analysera vilka begreppsstrukturer som<br />
förekommer i materialet.<br />
I vår analys använder vi terminologiska metoder med vissa modifieringar. Texterna<br />
är skriva av barn/ungdomar på ett andraspråk och därmed kan man varken förvänta sig<br />
helt korrekta term er eller att de olika begr eppsnivåerna och alla begreppsrelationer<br />
uttrycks explicit i tex terna. Däremot är det av intress e att und ersöka vilka<br />
begreppsnivåer eleverna på årskurs 6 i svenskt språkbad se r ut att favorisera, vilken<br />
intension i form av kännetecken de ger de begrepp som de har valt att diskutera och<br />
hur de uttrycker det ämnesspecifika innehåll et i sina texter. Alla exem pel som vi<br />
presenterar nedan är autentiska (f elen är därmed inte rättade) och kodade (inom<br />
parentes ges årskurs, kön, ort, skola, skribent).<br />
GRÄNSDRAGNINGAR<br />
Vi har inte sett på hur eleverna definierar begreppet ’vinter’, utan koncentrerar oss<br />
på kännetecken som de använder när de be skriver vädret. Gränsdragningen för vilka<br />
kännetecken som har tagits m ed i analysen baserar sig på Nationalencyklopedins<br />
(1996) definition av väder. Där definieras sökordet ”väder” på följande sätt:<br />
rådande tillstånd i fråga om vind, nederbörd, temperatur och liknande<br />
naturföreteelser i den närmast omgivande atmosfären på viss plats vid visst<br />
tillfälle el. under viss tidrymd.<br />
I fråga om ’nederbörd’ har vi avgränsat de t undersökta materialet så att vi tar m ed<br />
de uttryck som hänvisar till väderlek (t.ex. händelserna det snöar, det regnar, det faller<br />
snö), men inte de uttryck som beskriver hur det ser ut i Finlan d på vintern (t.ex.<br />
tillståndet marken är helt vit av snö). Enligt samma princip har vi i d et här sk edet<br />
utelämnat uttryck som marken blir kallare och kallare och marken är frysen, och har i<br />
stället koncentrerat oss på uttryck som klart anknyter till väder och ’temperatur’ (t.ex.<br />
sen blir vädret kallare och det blir hela tiden kallare och kallare). Längden på dagen<br />
och mörkret ingår inte i definitionen av ’väder’. Därför läm nas exempelvis<br />
beskrivningar som det är mycket mörkare än på sommaren utanför den nu aktuella<br />
analysen.<br />
Texterna ger många forskningsmöjligheter. Vår gränsd ragning att ta enbart<br />
begreppet ’väder’ som undersökningsobjekt medför att flera intressanta teman den här<br />
gången lämnas utanför vår analys. Ett av de m är begreppsrelationerna mellan de olika<br />
stimulusbegreppen.<br />
Begreppet ’väder’ i uppsatserna<br />
Vi har upprättat ett satellitsystem (mer om satellitsystem i Nuopponen 2000)<br />
utgående från de begrepp och kännet ecken som förekommer i uppsatserna.<br />
Satellitsystemet kan användas som verkt yg i arbetsprocessen då m an skapar en<br />
indelning för ett om råde. Det kan också användas för att hålla samman fackom rådets<br />
begreppssystem. Satellitsystem kan fungera som visuellt verktyg när man vill illustrera<br />
komplicerade begreppsproblem och som flexibelt begreppsligt verktyg som tillåter<br />
NORDTERM 2009, København 9.-12. juni 2009 195
förändringar, avgränsningar och specifi ceringar under arbetets gång (Nuopponen<br />
2000: 130, 142ff.).<br />
Vi har excerperat kännetecken på ’väder’ i uppsatserna och använder<br />
satellitsystemet för att illustrera kollektivt alla känn etecken på ’väder’ s om<br />
förekommer i uppsatserna från årskurs 6. På de t sättet vill vi illust rera hur barnen på<br />
årskurs 6 ordnar sitt vetande och hurdana be greppshierarkier barnen skapar när de<br />
beskriver begreppet ’väder’. I fortsättni ngen kommer vi att upprätta likadana system<br />
utgående från det övriga undersökningsm aterialet från årskur serna 3 och 9, och<br />
jämföra systemen med varandra. De olika sy stemen förväntas visa hur elever i o lika<br />
åldrar strukturerar ämnesspecifikt vetande.<br />
Vi har byggt satellitsystemet runt begreppet ’väder’ (se Bilaga). Satellitsystemet har<br />
tre satellitnoder. För tydlighetens skull har vi i vår tex t markerat med fet stil de taljer<br />
som är med i figuren. Vi beskriver en satellitnod åt gången, och går vidare med en nod<br />
åt gången från helhet till detalj. Vi koncen trerar oss främst på begreppsnivån och<br />
bortser från eventuella språkfel.<br />
Enligt eleverna på årskurs 6 är den kalla temperaturen och nederbörden i form av<br />
snö de två viktigaste kännetecknen på ’vin ter’. De här två har fått egna noder i vårt<br />
satellitsystem om väde r. De mer sällsynta företeelserna i uppsatserna, d.v.s. solen,<br />
molnigheten, vinden och åskan presenterar vi i en tredje nod (Andra företeelser).<br />
NEDERBÖRD<br />
Enligt eleverna på årskurs 6 hör nederbörd ti ll vinter. Att det snöar är enligt barnen<br />
ett viktigt kännetecken på vinterväder, det näm ns i näs tan alla uppsatser (1a).<br />
Nederbörden kommer enligt barnen i form av snö, slask eller regn (1b och 1c):<br />
Ex.1 a) I Finland snöar det på vintern. (6FV17)<br />
b) I mällan kan det rägna slask (6FED5)<br />
c) Ibland regnar det, ibland snöar det (6FÅ1)<br />
Barnen skriver om hur ofta det snöar ( frekvens), hur m ycket det snöar ( mängd)<br />
och när och var det snöar ( lokalisering). Frekvensen utgör en skala från att det snöar<br />
några gånger eller ibland till att d et snöar ofta (2a) eller att de t snöar oftast flera<br />
gånger i veckan. Det intressanta i dessa klimatförändringens tider är observationen att<br />
det kanske inte alltid snöar (2b) på vintern. Mängden va rierar likaså på en skala från<br />
lite till mycket och mera (2c).<br />
Ex. 2 a) Det snöar ganska ofta. (6PV112)<br />
b) De är kanske trokigt när där komma inte snö (6FED6)<br />
c) Det snöar jätte mycke när de är vinter. (6PV116)<br />
Lokaliseringen av snön är både tidsmässig och rumsmässig i uppsatserna. Ifråga om<br />
tid menar eleverna att d et snöar på vintern och både hela vintern och varje vinter<br />
(3a) nämns i texterna. Snöandet börjar enligt eleverna i början av vintern eller i<br />
december (3b). Uppgiften att skriva ett brev st yr innehållet i texterna så att några<br />
elever har en starkt deiktisk syftning (s e Aristotle 1989; Saarin en 1999: 140f.) i sina<br />
NORDTERM 2009, København 9.-12. juni 2009 196
texter (dagsaktuella förhållanden) och skriver att det snöar idag. Att det till sist snöar<br />
är en konsekvens av att vädret blir kallare och att det först regnar mycket.<br />
Ex. 3 a) Det regnar snö varje vinter i Finland. (6PED8)<br />
b) Ibland smälter snön i november men senast i december kommer det<br />
ny snö. (6PV117)<br />
c) Här i Finland Faller snö från himlet. (6PV19)<br />
d) Snö flingorna kommer ner till marken. (6FEA3)<br />
Rumsmässigt nämns det i de fles ta uppsatserna att det snöar i Finland (3a, 3c) på<br />
vintern. Några har specificerat att det snöar mest i Lappland eller tänkt på sin hem ort<br />
och konstaterar att det snöar i Vasa på vintern. De som anger riktning skriver att snön<br />
kommer från himlen (3c) och att snön faller till marken (3d).<br />
Ex. 4 a) Oftast regnar det mycket före de första snön kommer. (6PEA24)<br />
b) Först regnar det litet (6PEA17)<br />
Tidsmässigt menar barnen att det kan regna ibland eller hela vintern. I fråga om<br />
mängden av regn menar de att det regnar oftast mycket (4a) eller först litet (4b).<br />
TEMPERATUR<br />
I sina uppsatser nämner alla elever som skriver om väder i vårt m aterial<br />
kännetecknet temperatur i en eller annan form. En del hänvisar till<br />
temperaturbegreppet genom att skriva att d et är minusgrader respektive plusgrader.<br />
Alla går längre ner i begreppshierar kin och ger tem peraturbegreppet en tidsmässig,<br />
rumslig, kvantitativ (mängd) eller kvalitativ (sätt) avgränsning. De kan ha preciserat<br />
att det är hela tiden (5a) eller oftast minusgrader, att det är minusgrader ute (5b), att<br />
det brukar vara (5c) minusgrader eller att temperaturen går neråt (5d):<br />
Ex. 5 a) På vinter är temperaturen nästan hela tiden på minus. (6PV27)<br />
b) Alltså ute blir minusgrader. (6FV215)<br />
c) Det brukar oftast vara minus grader men (6FV211)<br />
d) Temperaturen går neråt och neråt (6FED14)<br />
De som diskuterar kvantiteten skriver att det är flera minusgrader (6a) eller<br />
alternativt nämner de grader med hjälp av ett värde (6b) eller en skala (6c):<br />
Ex. 6 a) Flera minus grader. (6PÅ24)<br />
b) På vinter kan det vara över -20c° kallt. (6FED11)<br />
c) När det komm er vinter till Fi nland blir det kalt (-5°C - -15°C).<br />
(6PV16)<br />
Vid sidan av tem peratur är det vanligt att eleverna diskuterar kyla (några även<br />
värme) i sina texte r. Vanligast är att de t är e ller blir kallt (7a,b) e ller att d et blir<br />
kallare (7c):<br />
NORDTERM 2009, København 9.-12. juni 2009 197
Ex. 7 a) Vädret är kallt (6PV212)<br />
b) När Finland kommer vinter så vädret blir kalt (6PED3)<br />
c) När det blir vinter här i Finland blir vädret kallare. (6FÅ18)<br />
I en del texter har fenom enet kyla fått en totalitetsbetydelse (allt är ka llt) medan<br />
samma fenomen i andra te xter får avgränsningen ganska kallt och jättekallt. Det är<br />
intressant att notera att eleverna tycks jämföra även om de inte nämner explicit vad de<br />
jämför med (se ex. 7c ovan). De som ger fenomenet kallare en precisering jäm för<br />
platser (Tyskland, Lappland, 8a,b), olika årstider (8c) eller månader (8d).<br />
Ex. 8 a) I Finland är det oftast en kallare vinter, än t.ex. i Tyskland. (6FEC3)<br />
b) I Lappland är det mycket kallare. (6FÅ1)<br />
c) Vädret k ommer att bli kallar e än i sommar elle r höst.<br />
(6FV216)<br />
d) Kallaste är i december, januar och februar. (6FÅ17)<br />
Kännetecknet kallt finns m ed även i de uppsatser som beskriver förhållandena på<br />
vintern som inte varma. Begreppet värme behandlas i några upps atser. Eleverna har<br />
tagit fasta på både sätt ( ganska varmt) och orsakerna bakom att det är varm t<br />
(Golfströmmen).<br />
ANDRA FÖRETEELSER<br />
Den tidsmässiga dimensionen finns också m ed när barnen skriver om solen på<br />
vintern. De m enar att det är soligt bara på dagen och att solen är ” nere än på<br />
sommaren” (d.v.s. lägre ner, 9a). Båda observati onerna implicerar en jämförelse med<br />
de andra årstiderna. Frekvensen för ett soligt väder varierar från att det är mycket<br />
soligt till att solen inte syns så bra eller att solen inte skiner på vintern (9b). Solens<br />
funktion på vinter är att ge ljus, men till egenskaperna hör att den inte värmer (9c).<br />
Ex. 9 a) På vintern syns solen inte så bra när solen är nere än på sommaren.<br />
(6FEA4)<br />
b) Solen skinen inte hela vintren. (6FEA3)<br />
c) Vädret kan ändö vara solig, eller molnig, men fast det skulle vara<br />
soligt betyder det inte att det skulle vara så mycket varmare. (6FED15)<br />
Moln (9c) och vind nämns bara i några en staka uppsatser. Det är enligt en elev<br />
ibland mulet på vintern, det kan vara vindigt (10a) eller vinden kan vara stark/hård.<br />
En av eleverna skriver att det inte åskar på vintern (10b).<br />
Ex. 10 a) Vädret blir kallt och vindigt. (6FEA18)<br />
b) På vinter åskar det inte. (6FEA7)<br />
NORDTERM 2009, København 9.-12. juni 2009 198
DISKUSSION<br />
I vår artikel har vi visat hur man kan använda terminologiska metoder i analysen av<br />
begreppsstrukturer i skol elevers skriftliga produkti on på L2 (andraspråket).<br />
Satellitsystem är ett flexib elt verktyg, som kan användas fö r att illustrera en helhet<br />
som byggs upp av en heterogen sam ling av egenskaper. Vi använder satellitsystem<br />
som begreppskartor vilka visar hur eleverna strukturerar ett angivet tema med tanke på<br />
olika nivåer. Kartorna ger en helhetsbild av hurdana begreppshierarkier det finns i<br />
texterna. En språkbadslärare t.ex. kan tänkas ha nytta av att kunna få en helhetsbild av<br />
hur eleverna tänker när de st rukturerar ämnesspecifikt innehåll i en viss ålder. Då kan<br />
läraren anpassa både innehållet och f ormen i sin undervisning till elevernas kunskaper<br />
och utvecklingsnivå. Lärarna kan också tänkas ha nytta av att kunna relatera elevernas<br />
produktion som helhet till det som de har gått igenom i undervisningen.<br />
Vårt mål har varit att testa hur terminologiska metoder kan tillämpas i analysen av<br />
elevtexter. Pilotstudien visar att det på uttrycksnivå inte är ä ndamålsenligt att i f örsta<br />
hand prioritera termer eftersom det är fråga om språkinlärning. Bristande användning<br />
av termer (t.ex. regna snö istället för snöa) är dock inget hinder för våra analyser.<br />
Läraren kan på uttrycksnivån se vilka luc kor det finns i ordfö rrådet inom det givna<br />
temat. Uppsatserna är resultatet av en urvalsprocess och visar därmed naturligtvis inte<br />
allt vad eleverna kan om ifrågavarande tema.<br />
Begreppet ’väder’ och dess kännetecken i texterna kan analyseras m ed hjälp av<br />
terminologisk begreppsanalys. Med stöd av våra begreppskartor har vi kunnat<br />
identifiera olika känneteckenkategorier på olika nivåer. Det finns flera möjligheter att<br />
redovisa resultaten. För det första kan m an ge en helhetsbild där m an har m ed alla<br />
kännetecken som eleverna n ämner. För det andra kan m an begränsa<br />
resultatredovisningen till att gälla bara de kännetecken som är de mest frekventa (t.ex.<br />
nämns i 50 % av texterna). I fortsätt ningen kommer vi att se på själva<br />
begreppsorienteringen med kartorna so m utgångspunkt, dvs. undersöka vilka slags<br />
begreppsrelationer som finns mellan kännetecknen inne i ett begrepp (begreppsinterna<br />
begreppsrelationer) och m ellan olika stimulusbegrepp (begreppsexterna<br />
begreppsrelationer). De begreppsinterna relationerna indelas i v år studie dels i<br />
horisontala relationer, dels i vertikala relationer.<br />
Eleverna ser ut att definiera begrepp i sina texter vilket styrs av uppgiften. Eleverna<br />
har i sina uppsatser bl.a. ofta gett begreppen ’snö’ och ’jul’ en längre beskrivning som<br />
förklarar fenomenet för en som inte känner ti ll det. Definitionsstrategier är därm ed<br />
också ett möjligt tema för fortsatt forskning.<br />
REFERENCER<br />
Aristotle (1989). Categories. In: Aristotle’s Categories and De Interpretaione, 3–42. Clarendon Aristotle<br />
Series. Oxford: Clarendon Press.<br />
BeVis (2009). Begreppsvärldar i sv enskt språkbad. Tillgänglig: http://www.uwasa.fi/pohjoismaiset/<br />
forskning/koi/<br />
Laurén, Christer (1999). Språkbad. Forskning och praktik. Vaasan yliopiston julkaisuja. Tutkimuksia<br />
NORDTERM 2009, København 9.-12. juni 2009 199
226. Vaasa: Vaasan yliopisto.<br />
Laurén, Christer & Martina Buss (2009). Samhället som språklärare i språkbad: För att förstå behöver<br />
man inte kunna varje ord. Tillgänglig: http://www.uwasa.fi/midcom-admin/ais/midcomserveattachment-6753/sprakbad.<br />
Vaasa.<br />
Nationalencyklopedins ordbok (1996). Tredje bandet. Språkdata, Göteborg, och Bokförlaget Bra Böcker<br />
AB, Höganäs.<br />
Nuopponen, Anita (2000). Satelliter och system – att integrera begreppssystem i terminologiarbetet. I:<br />
Nuopponen, Toft & Myking (red.) I terminologins tjänst. Festskrift för Heribert Picht på 60årsdagen,<br />
128–145. Vaasan yliopiston julkaisuja. Selvityksiä ja raportteja. Vaasa.<br />
Saarinen, Irja (1999). Kvantitatiivinen silmänkääntötemppu ja miten se tehdään. Määrien retoriikkaa<br />
Suomen Kuvalehdessä. I: Käytännön sanelema juttu? Aikakauslehtigenreä etsimässä, 140–176.<br />
Kielen opissa nro 3. Helsinki, Helsingin yliopiston Suomen kielen laitos.<br />
NORDTERM 2009, København 9.-12. juni 2009 200
Compiling a Glossary for a Special Language<br />
Learning Tool<br />
Päivi Pasanen<br />
Kymenlaakso University of Applied Sciences<br />
P.O. Box 9, FI-48401 Kotka, Finland<br />
Abstract. This paper is based on the experience received from two Leonardo da Vinci projects,<br />
MarEng and MarEng Plus 1 . During the MarEng project a web-based maritime English learning<br />
tool was compiled. The learning tool was published on a CD-ROM and on the internet in the<br />
Spring of 2007. Maritime students and workers all over the world have taken the learning tool<br />
into wide use. However, based on the feedback, elementary level material and material on some<br />
relevant themes are in demand, as well as a teacher’s manual. The aim of the ongoing MarEng<br />
Plus project is to respond to this feedback. One of the aims of the MarEng Plus project is to<br />
update the glossary which was compiled during the MarEng project. This paper considers the<br />
glossary from a terminological point of view and suggests some guidelines which could be<br />
applied in the glossary work. Terminologists might meet similar challenges or tasks in event that<br />
existing company glossaries are used as a source for a termbank or terminology work on a<br />
special field.<br />
background<br />
For a long time, English has been the common language at the seas. This is more<br />
apparent in today’s market with multinational and multicultural crews. Sufficient<br />
command of English, and more precisely, maritime English, is crucial, not only for<br />
everyday work, but especially for safety reasons. To ensure the safety, security and<br />
efficiency of seafaring and port operations messages must be understood correctly in<br />
spite of the different cultural and national backgrounds of the speakers. All<br />
communications must be conducted in a manner which will avoid confusion and<br />
misunderstanding, especially in emergency situations. These demands are a challenge<br />
to seafarers, who cannot attend traditional language training because of the long<br />
sailing periods (very often from six months up to one year). Besides seafarers, the tool<br />
is intended for landlubbers working ashore in maritime business and for maritime<br />
English teachers and students all around the world. The lack of maritime English<br />
teaching material which is available at low cost or free stimulated the project coordinators<br />
to start planning the MarEng project.<br />
The aim of the first MarEng project was to promote the maritime English language<br />
competences of those working in various maritime professions in Europe. During the<br />
project a web-based maritime English learning tool was compiled. The MarEng<br />
Learning Tool is an organised database of various maritime English teaching and<br />
learning materials which are grouped in thematic modules, each containing a number<br />
of units. The materials represent two language levels, intermediate and advanced. The<br />
NORDTERM 2009, København 9.-12. juni 2009 201
themes are, such topics as, port operations and cargo operations, shipping and<br />
maritime management, vessel types and parts (the engine room, cargo space) and the<br />
crew, weather, radio communication, standard marine communication phrases,<br />
emergency situations, vessel traffic services and ice navigation.<br />
The aim of the ongoing MarEng Plus project (MarEng Plus Learning Tool and<br />
New Applications) is to respond to the feedback received from the learning tool. The<br />
usability of the learning tool will be improved and the user group will be widened by<br />
adding elementary level materials to the tool. Also, two new themes will be included.<br />
These are Maritime Security and the Marine Environment. The teacher’s manual will<br />
give instructions to English teachers on how to use the tool.<br />
mareng glossary<br />
One of the aims of the MarEng Plus project is to update the glossary which was<br />
compiled during the MarEng project. The English-English glossary is based on the<br />
materials produced for the learning tool. Every partner made a selection of headwords<br />
from his or her material and suggested them to the partners responsible for the<br />
glossary compilation. All learning material is English-English and is based on<br />
language used in actual situations on board ships and in ports. The texts are carefully<br />
thought out dialogue and information written with a professional maritime flavour. In<br />
addition no rules, regulations, international conventions or other legal texts are<br />
included. They are not needed in the tool, because teachers have access to the original<br />
legal texts.<br />
According to the project plan of the MarEng Plus project, the material in the<br />
existing glossary will be preserved and completed with new themes and new<br />
headwords selected from the new elementary level material. For financial reasons, in<br />
the new tool the glossary will be in pdf format. Furthermore, the glossary will be<br />
transferred into a form which can be utilised in a mobile phone even when the phone<br />
is out of satellite connection.<br />
The aim of the glossary is to facilitate the use of the learning tool. Terminologists<br />
might meet similar challenges or tasks in the case existing company glossaries are<br />
used as a source for a termbank or terminology work on a special field. The existing<br />
glossaries may not be user-friendly, because even if they are electronically readable, it<br />
may be that they have different formats and structures. Very often they are just unclear<br />
paper copies with hand-written side notes. Glossaries which have been compiled from<br />
different sources contain overlapping information or concepts which are out of date.<br />
At the same time, some important (new) concepts are missing. In this case a<br />
terminologist has to address the questions, how to utilize existing resources, how to<br />
instruct material producers and how to find possible inconsistencies. The quickest way<br />
to solve the problem is to just add new headwords and definitions to the existing<br />
glossary. The hardest way is to compile a completely new terminological glossary. Or,<br />
as a compromise light renovation could be a suitable solution. In the following, I will<br />
discuss some aspects of a glossary work to be considered if the choice is to lightly<br />
renovate an existing glossary.<br />
NORDTERM 2009, København 9.-12. juni 2009 202
The headwords of the glossary<br />
Glossaries are structered into two easily distinguished parts, which can be called the<br />
left hand side and the right hand side. On the left are the headwords and on the right is<br />
the information about the headwords, such as definitions, examples, grammatical<br />
information etc. (see e.g. Kudashev 2007: 33–42). The size of a glossary is normally<br />
indicated with the number of headwords. Having 1400 headwords (and 33 pages), the<br />
existing MarEng Glossary could be called handysize. With new themes and the new<br />
level the number will grow, maybe double. The student will have difficulty in finding<br />
the word or words in question. Obviously, the number of headwords should be<br />
reduced. Handbooks on terminology work (e.g. Sanastotyön käsikirja 1988: 153)<br />
instruct to start reduction from general language words. So, I checked the left hand<br />
side of the glossary with the aim to detect unnecessary general language headwords.<br />
As a result, I detected 24 headwords which could be considered as general language<br />
words. General language words should not be found as headwords in a special<br />
language glossary, unless they have a special meaning in the field (cf. Kudashev 2007:<br />
97). The following headwords can be mentioned as examples of general language<br />
words included in the glossary:<br />
(1) automotive<br />
(2) average<br />
(3) can<br />
The idea of the compilers was to give the general language meaning for a word<br />
which is a part of a compound term, for example, the noun can is a part of can buoy (a<br />
cylindrical unlighted buoy used as a channel marker). Still, I would exclude can from<br />
the glossary and show the necessary information in the definition of the term. The<br />
same would apply for ore and side. Furthermore, the adjectives automotive, average,<br />
total and firm, for example, have the same meaning in the maritime context as they<br />
have in the general language.<br />
The question about inclusion of multiword language units (MWLU), such as<br />
compound terms, collocations and idioms, is more complicated, since English for<br />
special purposes is rich in multiword units. A collocation is a relationship involving<br />
the co-occurrence of words (Perea Barberá 1999: 290), whereas a compound is a<br />
combination of two or more words with a new meaning (Sager 1990: 76). As Pritchard<br />
(2003: 7) says, in English it is often difficult to decide whether a certain multiword<br />
unit is a compound or a collocation. I will not discuss the difference between<br />
compound terms and collocations, but instead, will consider them as a whole having<br />
the concept multiword language unit as the superordinate concept for both. As a rule,<br />
the number of multiword language units is higher in specilized dictionaries than in<br />
general language dictionaries (Pritchard 2003: 2). It has been agreed that about 80<br />
(60–95) per cent of special language dictionary headwords are multiword units<br />
(Kudashev 2007: 186). In the MarEng Glossary one will find the portion of multiword<br />
heads is a lower percentage. There are at least four possible explanations for this.<br />
NORDTERM 2009, København 9.-12. juni 2009 203
Either there are too many one word heads or some multiword heads are missing. The<br />
third explanation is that the maritime language is the necessary exception from the rule<br />
or the material does not include multiword terms. None of these explanations in my<br />
view seems valid. Instead, I believe the explanation can be found in the part of speech<br />
devision of the headwords. The avarage proportion of multiword units as headwords<br />
has been counted from dictionaries with nouns or noun phrases as headwords. The<br />
MarEng Glossary includes a number of verbs and adjectives as head words, although,<br />
normally adjectives would be in a glossary as a constituent of a noun phrase. The<br />
compilers of the glossary have wanted to give the meaning of constituents of<br />
multiword terms, being it an adjective or a noun. In most cases this practise is quite<br />
justified, since nouns normally are terms alone, as the noun deck in the term deck<br />
cargo:<br />
(4) deck cargo cargo and goods carried on deck<br />
Besides nouns and noun phrases, the MarEng Glossary includes a number of<br />
adjectives and verbs as headwords:<br />
(5) inbound inward bound e.g. inbound ships, ships sailing into the port,<br />
channel or fairway<br />
(6) flammable easily set on fire<br />
According to Grinёv (1993: 28–29), almost all terms are nouns, since verb terms<br />
can always be transformed to nouns. The compilers have often included both the verb<br />
and the noun having the same baseform. The number of headwords could be reduced<br />
by leaving just one of them in the glossary, since they designate the same concept.<br />
This is evident from the definitions which have the same characteristics, as is the case<br />
in the following examples:<br />
(7) cool to bring to cold temperature<br />
(8) cooling lowering the temperature of cargo<br />
The choice between a noun and a verb depends on the use of the terms in the<br />
material. From this point of view, it could be justified to place a verb as a headword.<br />
On the other hand, from a terminological point of view, it could be justified to place a<br />
noun as a headword, since nouns are easier to define than verbs.<br />
Synonyms are normally accepted in a special field glossary. Since they name the<br />
same concept, they are recorded in the same entry in the MarEng Glossary. The<br />
problem is that the reader cannot find the synonym if it is embedded in the same entry<br />
with another term. Every synonym should have an entry of its own, but the definition<br />
should come with either but not both. In the example 9 below, the synonym lighter<br />
should appear as a separate headword with the notion: see barge.<br />
NORDTERM 2009, København 9.-12. juni 2009 204
(9) barge a lighter, a flat-bottomed vessel, usually intended to be towed or<br />
pushed, for transporting cargo or passangers<br />
Some headwords have variant spellings and forms:<br />
(10) astern full speed! /full speed astern!/ full speed backwards!<br />
(11) liquefied natural gas carrier, LNG carrier a ship specially constructed for<br />
the carriage of natural gas in a liquid form<br />
What is said about the synonyms above, applies to variants as well. Every variant<br />
should have an entry of its own and the definition should appear together with the<br />
variant most frequently used. Other spellings should be cross-referred to the main<br />
entry. However, if the variants appear next to each other in alphabetics, it might be<br />
reasonable to place them in one entry. This is an exception, though. There are just a<br />
few examples about variants having almost identical spellings, like the variants<br />
fo’c’sle and foc’sle, for example.<br />
Extensive use of abbreviations is typical of maritime English. It is important to<br />
explain them in the glossary, because the exclusive use of abbreviations creates a false<br />
feeling of familiarity (Pasanen 2006: 237). Concerning abbreviations, the MarEng<br />
Glossary is inconsistant. An abbreviation is normally given together with the long<br />
form on the same line with or without a definition. But, as a rule, the abbreviation and<br />
a long form do not appear as two separate headwords, as they should. In terminology<br />
work, there is a rule to avoid duplicate definitions. Therefore, the definition should be<br />
given only in one place, either in connection with the abbreviation or with the long<br />
form, which is the normal practice in dictionaries. The solution suggested here is that<br />
the abbreviation and the long form appear as separate headwords and the definition<br />
goes with the long form (see other dictionaries e.g. Webster’s New World Dictionary).<br />
As an example, the following abbreviations can be found in the glossary:<br />
(12) bill of lading / B/L / a document stating that goods have been shipped on<br />
board and are to be delivered to a consignee at a port of destination<br />
(13) C.P.A. = Closest Point of Approach<br />
(14) CPA = Closest Point of Approach the shortest passing distance<br />
In the example 12 the abbreviation is embedded in the headword together with the<br />
long form of the term. There is no headword starting with the abbreviation B/L in the<br />
glossary. Therefore, a reader may not find an explanation for the abbreviation. In the<br />
examples 13 and 14 the abbreviations are synonymous variants, which are placed in<br />
different places in alphabetics. Traditionally, abbreviations consisting of capital letters<br />
separated with full stops, start a section in a glossary, while abbreviations without full<br />
stops appear later in the section. There is no need to change this order, as far as the<br />
NORDTERM 2009, København 9.-12. juni 2009 205
abbreviations are followed with a cross reference to the main entry and the definition<br />
follows the main headword.<br />
In the MarEng Glossary, proper names are included only in the form of<br />
abbreviations. In this respect the glossary meets the requirements of a terminological<br />
glossary. The glossary does not take the task to give an explanation of the roles of<br />
different organisations and bodies in the maritime field:<br />
(15) INMARSAT = International Maritime Satellite Organization<br />
THE DEFINITIONS IN THE GLOSSARY<br />
After making a decision about headwords necessary for the target group, the<br />
compiler has to decide which kind of information is needed at the right hand side of<br />
the glossary. Besides definitions or explanations, the list of information types which<br />
might be useful for the reader, may include phonetics, subject labels, grammatical<br />
information, style, age, information about locality or encyclopaedic information, for<br />
example (Kudashev 2007: 197). At the moment, there are definitions, but no other<br />
information about the headwords in the MarEng Glossary. Sometimes there is more<br />
than one definition, since some headwords have more than one meaning. For example,<br />
berth has at least three meanings which are valid in the maritime context:<br />
(16) berth 1. any place for securing a vessel (for conducting commercial<br />
operations); 2. a bed in a passenger cabin; 3. distance (give this object a wide<br />
berth) keep well clear of<br />
For the sake of the mobile version of the glossary, the different meanings should be<br />
placed in separate entries. This means that the number of headwords will grow<br />
remarkably. Therefore, the number of different meanings has to be kept in minimum.<br />
Browsing through the glossary gives the impression that this might be difficult with<br />
some verbs and nouns, which have more than one meaning. The solution suggested<br />
here, is that the meaning of some verbs could be narrowed with prepositions. For<br />
example, the meaning of the verb heave can be narrowed with prepositions away, in,<br />
on, to or up. Some verbs might be merged together with nouns as headwords.<br />
Phonetic transcriptions may be helpful in the English word list (Perea Barberá<br />
1999: 290). It could be claimed, however, that students are not familiar with the<br />
phonetic symbols. The most helpful means would be to include audios. Technically<br />
this should be possible but the phonetic transcription is not included in the existing<br />
MarEng Glossary.<br />
Subject labels would be helpful in some cases. For example, there are plenty of<br />
headwords having the upper level concept device. Why not label them with eng.<br />
meaning engine room, or bridge meaning that the device is mounted on the bridge.<br />
Also, the student might be interested to know, if the headword denotes to an act or a<br />
device. The structure of the MarEng Glossary does not necessarely follow concept<br />
systems and the definitions do not always show concept relations. Therefore, strictly<br />
speaking, the glossary is not terminological. It would be useful to know the upper<br />
NORDTERM 2009, København 9.-12. juni 2009 206
level concept, to which concept group does the concept belong, is it a device or a<br />
place, is it human or not. The example 17 shows a definition in which the upper level<br />
concept is missing:<br />
(17) booster pump used to increase pressure in a liquid line, or pulls liquid<br />
from a tank and pressurizes a system<br />
Although it is quite obvious that a booster pump is a kind of a pump, the definition<br />
shoud explicitely indicate the superordinate concept. Furthermore, even if the concept<br />
relations are not indicated, the definition should contain at least one delimiting<br />
characteristic. In the example 18 a characteristic is missing. A reader might be<br />
interested to know; what is the cause of corrosion and what are the consequencies of<br />
the process?<br />
(18) corrosion rusting<br />
The glossary is full of verbs, probably, because they are typical for the field and<br />
have to be included in the glossary. Verbs have not been in the focus of terminology<br />
research and the technique to define verbs is not well developed. In the book<br />
Sanastotyön käsikirja, which is the Finnish version of the handbook of terminology<br />
work, this topic occupies five lines and one example. The book says that verbs can be<br />
defined with functional characteristics describing method, result, agent or device used<br />
for the act. In the existing MarEng Glossary most verbs are accompanied with near<br />
synonyms from general language, often more than one of them. The general language<br />
verbs lack the essential special field information which the head verb has. The<br />
compilers have tried to compensate this lack by adding more general language verbs to<br />
the list. By adding more general language verbs, the compilers actually do students a<br />
disservice, because there is a risk that the student chooses the wrong near synonym.<br />
This problem has been discussed in Perea Barberá (1999: 292) stating that most<br />
dictionaries frequently provide lists of equivalents with no discriminating label or<br />
encyclopaedic note. Proper definitions or encyclopaedic information would be useful,<br />
since the students might be familiar with the field, but still have some gaps in the<br />
encyclopaedic knowledge.<br />
concluding remarks<br />
When starting a glossary project, the first thing to do is to decide the amount of<br />
information to be included: number and form of headwords (terms, compound terms,<br />
collocations, phrases, commands), grammatical information, examples, phonetics,<br />
subject labels, encyclopaedic information. The decision will depend on the language<br />
skills and needs of the intended users of the glossary. The size of the glossary should<br />
be kept within reasonable limits. Normally, the users will appreciate handysize<br />
glossaries including all essential information and excluding unnecessary headwords or<br />
repetition. How do we meet these demands in MarEng Plus glossary project? First,<br />
start downsizing. Find synonyms and join them where possible, cut off extensive<br />
definitions and use cross-referencies, instead. Secondly, add the superordinate<br />
NORDTERM 2009, København 9.-12. juni 2009 207
concepts where they are missing, if not the closest, then a concept on the upper level.<br />
Thirdly, group concepts belonging to the same semantic group and subdivide them to<br />
find conceptual relations. For example, devices belonging to the engine room<br />
comprise one group, devices belonging to the bridge comprise the second group, and<br />
cargo handling devices comprise the third group. Change the superordinate concept, if<br />
there is one which is closer to the concept, check the definitions and correct<br />
inconsistencies. Finally, find characteristics for the verbs, at least some of them. In this<br />
way, the work will be heading to the direction predicted by Boris Pritchard (2000: 97)<br />
in his article on pragmatic information in maritime dictionaries:<br />
“We may therefore predict three likely trends in maritime lexicography of the<br />
future, involving:<br />
- development of multilingual terminological dictionaries with English as the key<br />
language,<br />
- conceptual (thematic) approach to dictionary macrostructure, or a mixed approach<br />
including alphabetical macrostructure and conceptual arrangement for selected entries<br />
within the alphabetical word list,<br />
- methodology of compiling, sampling and making dictionaries mainly based on<br />
corpus linguistics and availability of electronic data banks.” (Pritchard 2000: 97).<br />
References<br />
Grinёv 1993 = Гринев, С. В. (1993). Введение в терминоведение. Москва: Московский Лицей.<br />
Kudashev 2007 = Кудашев, И. С. (2007). Проектирование переводческих словарей специальной<br />
лексики. Helsinki University Translation Studies Monographs 3. Helsinki: Helsinki University Print.<br />
Pasanen, Päivi (2006). Standard Marine Communication Phrases as a Maritime Language Norm. In E.<br />
Lehtinen & N. Niemelä (Eds.), LSP and Theory of Translation. 26 th VAKKI Symposium. Vaasa, 11.–<br />
12.2.2006. Vaasa: University of Vaasa, pp. 230--239.<br />
Perea Barberá, M. D. (1999). An Approach to the Typology of Contemporary Spanish-English /<br />
English-Spanish Maritime Dictionaries: the Terminology of Shipbuilding. In D. L. Newman & M.<br />
Van Campenhoudt (Eds.) Maritime Terminology: Issues in Communication and Translation.<br />
Proceedings of the First International Conference on Maritime Terminology. Brussels, 15–16 May<br />
1998. Bruxelles: Éditions du Hazard, pp. 285--293.<br />
Pritchard, B. (2000). Pragmatic Information in Maritime Dictionaries. In J. Vainio (Ed.) Maritime<br />
Terminology: Dictionaries and Education. Proceedings of the Second International Conference on<br />
Maritime Terminology. Turku, 11–12 May 2000. Publications from the Centre for Maritime Studies A<br />
36. Turku: University of Turku Centre for Maritime Studies, pp. 83--99.<br />
Prichard, B. (2003). Multiword lexical units in maritime dictionaries. In 3 rd International Conference on<br />
Maritime Terminology. Lisboa, 23–24 June 2003. CD-ROM.<br />
Sager, J. (1990). A Practical Course in Terminology Processing. Amsterdam/Philadelphia: John<br />
Benjamins.<br />
Sanastotyön käsikirja (1988). Soveltavan terminologian periaatteet ja työmenetelmät. SFS-käsikirja 50.<br />
NORDTERM 2009, København 9.-12. juni 2009 208
Terminor og Termportalen – nye initiativer for<br />
norsk terminologisk infrastruktur<br />
b<br />
Gisle Andersen a, b og Marita Kristiansen a<br />
a<br />
Institutt for fagspråk og interkulturell kommunikasjon<br />
Norges Handelshøyskole (NHH)<br />
Helleveien 30<br />
NO-5045 Bergen<br />
Unifobs avdeling for kultur, språk og informasjonsteknologi (Unifob AKSIS)<br />
Allégaten 27<br />
NO-5007 Bergen<br />
Abstract. I denne artikkelen presenterer vi to prosjekter som har som mål å fremme og gjøre<br />
tilgjengelig norsk terminologi for ulike fagområder. Det ene prosjektet er nylig gjennomført og det<br />
andre er planlagt.<br />
Det første prosjektet, Termportalen, er et prosjekt som har vært gjennomført ved Unifobs Avdeling<br />
for kultur, språk, og informasjonsteknologi (Unifob AKSIS). Prosjektet har vært et første steg mot<br />
en nasjonal infrastruktur for terminologi og fagspråk og fungerer som et slags pilotprosjekt i<br />
forhold til det langt mer omfattende Terminor-prosjektet. Et system for søking på tvers av<br />
heterogene termbaser er utviklet, og en nettportal for norsk terminologi er etablert.<br />
I det andre prosjektet, Terminor, ønsker vi å fylle termportalen med innhold ved å utvikle<br />
oppdatert terminologi for en rekke fagfelt. I tillegg ønsker vi å videreutvikle den teknologiske<br />
infrastrukturen og utarbeide en felles nasjonal standard for terminologiarbeidet i prosjektet.<br />
Initiativet til prosjektet er tatt av Norges Handelshøyskole (NHH), i nært samarbeid med Unifob<br />
AKSIS og Universitetet i Bergen (UiB).<br />
INTRODUKSJON<br />
De siste årene har det blitt et stadig sterkere fokus på språkplanlegging i Norge og<br />
situasjonen for norsk som fagspråk i forhold til særlig engelsk har vært kraftig debattert. En<br />
årsak til dette er en økende trussel om domenetap innen sentrale fagområder etter hvert<br />
som engelsk tar over som hovedspråket på disse fagområdene. Denne diskusjonen er<br />
oppsummert i St.meld.nr. 35 (2007-2008) Mål og meining. Ein heilskapleg norsk språkpolitikk<br />
(Språkmeldingen). Behovet for å intensivere arbeidet med norsk fagspråk er dessuten slått<br />
fast i en rekke publikasjoner og utredninger, slik som Norsk i hundre! og har vært tema ved<br />
flere seminarer, bl.a. Språkrådets strategikonferanse om fagterminologi i oktober 2004 og en<br />
konferanse om terminologi og økonomisk lønnsomhet i Bergen i november 2005. Flere av<br />
innleggene på forrige Nordterm-konferanse slo fast at arbeidet med norsk fagspråk befinner<br />
NORDTERM 2009, København 9.-12. juni 2009 209
seg i en uavklart situasjon (Andersen 2008; Kristoffersen 2008; Leonteva 2008). Det finnes<br />
mange tidligere terminologiressurser som ligger brakk og som ikke ivaretas på en forsvarlig<br />
måte, slik som dataene fra Norsk termbank (NOT-basen) og Rådet for teknisk terminologi<br />
(RTT). Samtidig er flere miljøer i ferd med å utvikle nye termressurser, slik som arbeidet med<br />
Den grønne ordboka (Kerner 2008), brannfaglig terminologi (Liebe 2008),<br />
samfunnsøkonomisk terminologi (Hjelmbrekke 2008; Kristiansen 2009), osv.<br />
Både brukere av terminologi og terminologiutviklere har interesse av at det som finns av<br />
eksisterende terminologiressurser blir tatt vare på og gjort tilgjengelig. Søking i mange ulike<br />
databaser, med mange ulike grensesnitt og brukertilganger, er både tungvint og tidkrevende.<br />
Slik vi vurderer det, er det et tydelig behov for at arbeidet med terminologi koordineres på<br />
nasjonalt plan. I denne artikkelen vil vi presentere to prosjekter, Termportalen og Terminor,<br />
som begge har som mål å fremme og gjøre tilgjengelig norsk terminologi for ulike<br />
fagområder gjennom etablering av en nasjonal terminologiressurs. Slik vil prosjektene også<br />
bidra til de føringene som legges i Språkmeldingen gjennom at norsk fagspråk ivaretas og<br />
videreutvikles parallelt med engelsk.<br />
TERMPORTALEN<br />
Termportalen er et prosjekt som har vært gjennomført ved Unifob AKSIS. Bakgrunnen for<br />
prosjektet er erkjennelsen av behovet for å fremskaffe en samlet og oppdatert oversikt over<br />
eksisterende terminologiressurser. Unifob AKSIS har gjennom årene utviklet en lang rekke<br />
termbaser og det var ønskelig å undersøke muligheter og forutsetninger for å gjøre dem<br />
tilgjengelig gjennom et felles grensesnitt, i tillegg til at det trengtes en kartlegging av norske<br />
termressurser mer generelt. Prototypen Termportalen er et forslag til en slik nasjonal<br />
ressurs. Den er utformet som en nettportal som er ment for alle som på ulike måter er i<br />
befatning med norsk fagspråk og terminologi. I tillegg til oppdaterte oversikter med lenker til<br />
utvalgte nettbaserte terminologiressurser, er det et langsiktig mål at portalen skal kunne<br />
tilby brukerne informasjon om alt fra konferanser, kurs og faglitteratur til hjelp med å finne<br />
terminologisk eller teknisk bistand.<br />
Termportalen foregikk ved Unifob AKSIS i perioden 1. desember 2007-22. april 2009.<br />
Prosjektet var hovedsakelig internt finansiert, men i prosjektets siste del (fra august 2008)<br />
hadde det en delfinansiering fra Språkrådet. Arbeidet har vært et første steg mot en nasjonal<br />
infrastruktur for terminologi og fagspråk og fungerer som et slags pilotprosjekt i forhold til<br />
det langt mer omfattende Terminor-prosjektet som vi vil beskrive nærmere under.<br />
Prosjektet forløp i tre faser. I første fase var målet å kartlegge i bredest mulig grad hva<br />
som er tilgjengelig av norske terminologiressurser på Internett. Det ble samlet inn et stort<br />
antall lenker til aktuelt materiale, hver enkel lenke ble undersøkt og vurdert, og til sist sto vi<br />
igjen med et 40-talls referanser til ulike nettsteder som inneholder norsk terminologi.<br />
Ressursene ble så gruppert etter fagområde. En oversikt over ressursene som portalen<br />
henviser til finnes på Termportalens ressursside, som vist i Figur 1 under.<br />
NORDTERM 2009, København 9.-12. juni 2009 210
I prosjektets annen fase ble denne oversikten videreutviklet. I tillegg ble det skannet en<br />
del materiale ved Unifob AKSIS som ikke var elektronisk tilgjengelig, nemlig tre termlister<br />
tilknyttet maritime fag. Disse er foreløpig inkorporert i portalen i form av søkbare pdfdokumenter,<br />
men har bare vært gjenstand for sporadisk korrekturlesning. I tillegg gjorde<br />
prosjektgruppen forsøk på å få tilgang til de verdifulle termressursene som i sin tid ble<br />
utviklet av RTT. Dette arbeidet lyktes, og en avtale ble inngått med den nåværende eieren av<br />
dette rikholdige materialet. I denne fasen utarbeidet vi dessuten en søknad til Språkrådet om<br />
støtte til prosjektet Termportalen – fra lenkesamling til nasjonal infrastruktur, og denne ble<br />
innvilget i september 2008.<br />
NORDTERM 2009, København 9.-12. juni 2009 211
FIGUR 1. Termportalens lenkesamling<br />
Prosjektets tredje fase var altså delfinansiert av Språkrådet, og målet med denne fasen<br />
var å ta steget fra en lenkesamling til en mer fullverdig digital infrastruktur for terminologi.<br />
Arbeidet i denne fasen dreide seg først og fremst om å utvikle en ny databaseløsning som<br />
gjør det mulig å søke på tvers av databaser som inneholder terminologi for ulike fagområder.<br />
Gruppen gjorde også en kartlegging av innholdet i RTT-materialet og vurderte tekniske<br />
forutsetninger for å innlemme det i den nasjonale portalen.<br />
Den nye tekniske løsningen er en prototyp for databaseløsning og grensesnitt som i sin<br />
helhet er basert på åpen kildekode. Den benytter seg av programmeringsspråket Common<br />
Lisp, såkalte Weblocks og databasespråket PostgreSQL. Fordelene ved dette er åpenbare. Det<br />
innebærer at kildekoden er tilgjengelig for programmerere, noe som forenkler fremtidig<br />
videreutvikling og feilkorrigering. Det er heller ingen restriksjoner på distribuering eller salg<br />
av systemet. Grensesnittet er programmert i Common Lisp med verktøyet Weblocks for<br />
laging av vebbapplikasjoner med tett integrasjon av databaser, automatisk<br />
sesjonshåndtering, med støtte for vebbutviklingsteknologi basert på AJAX (asynkron Java og<br />
XML).<br />
Så langt har fire termbaser blitt importert i den nye termportalen: EØS-sekretariatets<br />
terminologidatabase og norske oversettelser av rettsakter innlemmet i EØS-avtalen (EØS-EUbasen),<br />
KB-N-basen utviklet under prosjektet Kunnskapsbank for norsk økonomiskadministrativt<br />
domene, NOT-basen utviklet av Norsk termbank, og RTT-materialet utviklet av<br />
Rådet for teknisk terminologi. Samlet utgjør dette et stort materiale, nærmere 128 000<br />
termposter. Fordelingen på de ulike deldatabasene er som vist i Tabell 1.<br />
TABELL i). Oversikt over terminologiske ressurser i Termportalen<br />
Termbaser Fagområder Antall termposter*<br />
KB-N økonomi og administrasjon 8 467<br />
EØS-basen 70 fagområder, EØS-rettsakter 40 348<br />
NOT-basen 38 fagområder, Norsk<br />
termbank<br />
30 521<br />
RTT-materialet 48 314<br />
NORDTERM 2009, København 9.-12. juni 2009 212
Til sammen 127 650<br />
* per 19. oktober 2009<br />
I menyvalget Termsøk er det mulig å søke både i enkeltressurser og parallelt i flere ressurser<br />
samtidig. Dette er vist i Figur 2.<br />
NORDTERM 2009, København 9.-12. juni 2009 213
FIGUR 2. Termportalen, søk i spesifikk termbase<br />
Per i dag ligger NOT-basen, KB-N, RTT-materialet og EØS-EU-basen inne som eksempler,<br />
men infrastrukturen kan raskt utvides. Det vil være mulig for andre termressurser å bli<br />
tilknyttet den nasjonale portalen. Teknisk sett er en slik integrering forholdsvis ukomplisert,<br />
så lenge det ikke er juridiske forhold som hindrer dette. Termportalen skal i utgangspunktet<br />
være gratis og fritt tilgjengelig for alle, men de deler som er beskyttet på grunn av<br />
opphavsrett vil være passordbeskyttet.<br />
I den gjeldende løsningen kan man bruke ulike søkbegrensende kategorier, i tillegg til å<br />
begrense søket til individuelle termbaser. Figur 3 viser hvilke språk som er representert i<br />
Termportalen.<br />
NORDTERM 2009, København 9.-12. juni 2009 214
FIGUR 3. Termportalen – søk i språkspesifikke felt<br />
Dessuten kan man søke i spesifikke felt i en termpost, slik som Hovedterm og Synonym.<br />
Videre kan man søke med utgangspunkt i Definisjon og Kontekst, og man kan søke blant<br />
frarådde termer, som vist i Figur 4.<br />
NORDTERM 2009, København 9.-12. juni 2009 215
FIGUR 4. Termportalen – søk i bestemte felt i termposter<br />
TERMINOR – TERMINOLOGISK INFRASTRUKTUR FOR<br />
NORSK<br />
I det planlagte prosjektet Terminor ønsker vi å videreføre arbeidet med<br />
Termportalen ved å bygge ut en bred terminologisk infrastruktur for norsk. Målet er å<br />
etablere en nasjonal kunnskapsbase bestående av kvalitetssikrede terminologiske<br />
ressurser som er fritt tilgjengelig via én felles internettbasert portal.<br />
NORDTERM 2009, København 9.-12. juni 2009 216
En viktig motivasjon for prosjektet er å få etablert en infrastruktur for<br />
begrepsmessig harmonisering og enhetlig terminologibruk i Norge. Ved at denne<br />
infrastrukturen gjøres tilgjengelig for forskere, studenter og samfunnet for øvrig, vil<br />
portalen kunne bli en viktig ressurs for norske forskningsmiljøer som i stadig større<br />
grad jobber på tvers av institusjoner, fagmiljø og nasjonale grenser i både<br />
interdisiplinære og transdisiplinære prosjekter. Således tar Terminor mål av seg å møte<br />
ufordringen med et stadig mer globalisert og dynamisk forskningssamfunn og vil<br />
danne grunnlag for forsknings- og utviklingsarbeid på tvers av akademiske og<br />
næringsrelaterte virksomheter.<br />
Samtidig vil prosjektet fremme internasjonaliseringen av norsk forskning gjennom<br />
at prosjektet kobles opp mot den infrastrukturen som bygges opp i ESFRI-prosjektet<br />
CLARIN (Common Language Technology Infrastructure, http://www.clarin.eu).<br />
CLARIN er et europeisk initiativ for å skape, koordinere og gjøre språk- og<br />
språkteknologiressurser tilgjengelige på tvers av språk og landegrenser. Det vil også<br />
være nærliggende å ta lærdom av erfaringer fra Terminors ”søsterprosjekt”<br />
Rikstermbanken, som allerede er etablert av Terminologicentrum TNC i Sverige<br />
(http://www.rikstermbanken.se/).<br />
En fullstendig utbygd nasjonal forskningsinfrastruktur for norsk fagspråk vil måtte<br />
omfatte alle fagområder og -miljø som er aktive innen FoU-arbeid i Norge. For å<br />
komme i gang med dette arbeidet vil vi i Terminor-prosjektet fortsette å fylle<br />
Termportalen med innhold ved å utvikle oppdatert terminologi for en rekke fagfelt. I<br />
tillegg ønsker vi å videreutvikle den teknologiske infrastrukturen og utarbeide en felles<br />
nasjonal standard for terminologiarbeidet i prosjektet. Dette innebærer at den planlagte<br />
infrastrukturen i hovedsak vil bestå av fire komponenter som vi i det følgende vil<br />
beskrive som innhold, system, metode, og verktøy. Vi vil også presentere hvordan<br />
Terminor-prosjektet er tenkt organisert.<br />
Infrastrukturens innhold<br />
Infrastrukturen skal inkludere eksisterende nasjonale termbaser med flerspråklige<br />
oppslag for begreper og begrepsbeskrivelser, slik som hovedtermer, synonymer,<br />
definisjoner og begrepsrelasjoner, basert på konsensus mellom fagspesialister på de<br />
ulike fagområdene. I tillegg vil det være et mål i prosjektet å utvide infrastrukturen til<br />
også å inkludere nye fagområder.<br />
Fem konkrete fagområder har blitt valgt ut som fokusdomener i prosjektet –<br />
økonomi og administrasjon, energi, miljø, helse og informasjonsteknologi. Disse<br />
fagområdene har blitt valgt ut fordi det her er et stort behov for begrepsmessig<br />
harmonisering og avklaring på tvers av både nasjonale forskningsmiljøer og<br />
internasjonale prosjektsamarbeid. Fagområdenes betydning er også understreket i det<br />
norske forskningsrådet (NFR) sitt strategiske dokument Verktøy for forskning.<br />
Alle de fem fokusområdene opplever et stadig økende press fra engelsk som<br />
rådende fagspråk. Det er derfor innen disse fagområdene et umiddelbart behov for å<br />
forhindre domenetap på norsk, og å sikre at norsk fagspråk vedlikeholdes og utvikles<br />
sammen med fagenes lingua franca som jo er engelsk. Det vil derfor være et viktig<br />
mål for den planlagte infrastrukturen å bidra til å sikre fagspråkskommunikasjonen,<br />
NORDTERM 2009, København 9.-12. juni 2009 217
ikke bare mellom fagspesialistene, men også mellom spesialistene, høyere<br />
utdanningsinstitusjoner, næringslivet og samfunnet for øvrig.<br />
I tillegg til de fem fokusområdene vil infrastrukturen, som nevnt over inkorporere<br />
relevante terminologiske ressurser som allerede eksisterer. Denne delen av prosjektet<br />
vil ta utgangspunkt i tidligere norske terminologiske initiativer som har resultert i de<br />
ressursene som per i dag er tilgjengelige i Termportalen, altså EØS/EU-termbasen,<br />
KB-N-basen, NOT-basen og RTT-materialet.<br />
Den tekniske infrastrukturen vil imidlertid være fleksibel slik at det kan åpnes for at<br />
andre fagområder enn de som er valgt ut som fokusområder kan inkluderes i portalen.<br />
Infrastrukturen vil dermed fungere som en nasjonal sentral for terminologiske<br />
ressurser som er utviklet av aktører som ikke er direkte involvert i selve Terminorprosjektet.<br />
Infrastrukturen som system<br />
Gjennom Terminor-prosjektet vil det bli utviklet en teknisk arkitektur som<br />
integrerer flerspråklige kunnskapsbaser (termbaser) gjennom en felles internettbasert<br />
søkeportal. Målet vil være at denne portalen skal være fritt tilgjengelig, men at ulike<br />
former for tilgang (inkludert redigeringstilgang) kan gis for ulike brukergrupper.<br />
Gjennom den tekniske infrastrukturen vil fragmenterte terminologiske ressurser bli<br />
omdannet til en felles nasjonal infrastruktur. Infrastrukturen vil bygge direkte videre<br />
på teknologi og ressurser som er tilgjengelige gjennom CLARIN-nettverket, samt<br />
termbaseteknologi utviklet over flere tiår i en rekke prosjekter som har sin opprinnelse<br />
i Norsk Termbank og det NFR-finansierte prosjektet KB-N. Som i CLARIN er det et<br />
mål at eksisterende enkeltstående ressurser skal fortsette å eksistere som sådanne. Det<br />
Terminor vil bidra med, er å samle alle disse ressursene i en nasjonal paraplystruktur<br />
slik at brukerne vil kunne nå alle eller deler av ressursene gjennom et felles<br />
søkegrensesnitt. Gjennom at disse blir innlemmet i den nasjonale infrastrukturen i<br />
Terminor vil brukerne få en unik tilgang til kvalitetssikrede terminologiske ressurser.<br />
Eksisterende ressurser vil ha ulike tekniske løsninger og det vil derfor være et fokus<br />
i Terminor å utvikle et system som vil kunne søke i ressurser som er lagret i en rekke<br />
relasjonsdatabaser slik som for eksempel Oracle og MySQL, og presentere data på en<br />
enhetlig måte gjennom å generere en veldefinert XML-representasjon av data som kan<br />
presenteres på en fleksibel måte gjennom bruk av XSLT-stilark.<br />
Infrastrukturens metode<br />
For et så stort nasjonalt terminologisk prosjekt vil det være nødvendig å utvikle effektive<br />
systemer for kunnskapshåndtering og standardiserte måter å representere innholdet på. En<br />
viktig del av prosjektet vil derfor være å komme fram til et felles teoretisk og metodologisk<br />
rammeverk for hvordan informasjonen i nye ressurser som bygges opp behandles og<br />
presenteres. Dette innebærer blant annet et felles rammeverk for hvordan strukturere<br />
begreper, lage definisjoner og anvende metadata. En utfordring vil her være å få på plass en<br />
metodologi for hvordan avgrense domener og subdomener (Kristiansen 2006) siden en slik<br />
NORDTERM 2009, København 9.-12. juni 2009 218
avklaring vil være avgjørende for hvor anvendbare dataene vil være for diskusjoner innad og<br />
på tvers av ulike forskningsmiljø.<br />
Her vil prosjektet basere seg på internasjonalt utviklede metoder for å utvikle et<br />
rammeverk som i størst mulig grad samsvarer med tilsvarende ressurser i andre land. Et<br />
naturlig utgangspunkt for etableringen av dette rammeverket vil være ISO 704 ”Terminology<br />
Work – Principles and Methods” og ISO1087 ”Terminology Work – Vocabulary” som begge<br />
beskriver god praksis for terminologisk arbeid. Dessuten vil det være viktig å ta utgangspunkt<br />
i rammeverket som etableres i CLARIN-nettverket. Dette nettverket, som initiativtakerne til<br />
prosjektet deltar i, utvikler internasjonale standarder og taksonomier for språkressurser.<br />
Infrastrukturen som verktøy for forskning<br />
Når det gjelder infrastrukturen som et verktøy for forskning, vil det bli utviklet løsninger<br />
for visning av begrepsrelasjoner, tekstbasert termekstraksjon, håndtering av<br />
domenespesifikke korpora og kobling mellom oppslag i termbasene og tekstbaser. Det<br />
innebærer at det vil bli utviklet nye terminologiske ressurser kombinert med at eksisterende<br />
ressurser utnyttes.<br />
En pilotstudie gjennomført i Termportal-prosjektet har vist at eksisterende norske<br />
terminologiske ressurser er forholdsvis heterogene når det gjelder formater, innhold,<br />
dekningsgrad, struktur og metadata. Håndteringen av slike ressurser krever derfor effektive<br />
og fleksible konverteringsverktøy. I tillegg vil Terminor dra nytte av en rekke mer generelle<br />
dataverktøy som kan gjøre det terminografiske arbeidet mer effektivt for nye domener.<br />
Dette inkluderer verktøy for håndtering av termbaseoppslag, for hierarkisk organisering og<br />
grafisk visning av ontologiske relasjoner, for korpusbasert termekstraksjon og for å knytte<br />
termbaseoppslag til relevante domenespesifikke korpora. Gjennom tidligere prosjekter har<br />
prosjektgruppen tilgang på en rekke språkteknologiske verktøy. Spesielt kan nevnes et<br />
verktøy for korpusbasert termekstraksjon for norsk som har blitt utviklet i KB-N prosjektet.<br />
Videre har en i det NFR-finansierte infrastrukturprosjektet Norsk Aviskorpus<br />
(http://avis.uib.no) utviklet systemer for semi-automatisk domeneklassifikasjon av tekster og<br />
identifikasjon av kollokasjoner og flerordsuttrykk. Dette vil gi et godt utgangspunkt for å<br />
fange opp mulige termer og ekstrahere termer fra et bredere sett av korpustekster enn<br />
snevert definerte domenespesifikke tekster.<br />
Organisering av Terminor-prosjektet<br />
Selv om fagspråksmiljøet i Bergen, med NHH i spissen, har vært initiativtakere til<br />
prosjektet, er målet å få etablert et nasjonalt prosjekt med størst mulig bredde. Vi ønsker å<br />
NORDTERM 2009, København 9.-12. juni 2009 219
dra nytte av et bredest mulig nettverk av forsknings- og utdanningsinstitusjoner for å sikre<br />
begrepsmessig harmonisering og avklaring innad og på tvers av vitenskapelige fagområder.<br />
Deltagelse av organisasjoner som Universitets- og høyskolerådet (UHR) i Norge er derfor<br />
viktig for å kunne etablere en ressurs som kan vinne fram og få gjennomslag i sentrale<br />
vitenskaplige miljø for å motvirke domenetap på norsk.<br />
I figur 5 under viser hvordan Terminor er tenkt organisert og et utsnitt av bredden av<br />
aktuelle samarbeidspartnere som vi ønsker å få på plass i oppbyggingen av den<br />
terminologiske infrastrukturen. Samarbeidspartnere vil omfatte både høyere<br />
utdanningsinstitusjoner og andre virksomheter som arbeider med fagspråk og terminologi,<br />
både fra offentlig og privat sektor.<br />
FIGUR 5. Terminor – organisering og mulige samarbeidspartnere<br />
Som nevnt over er det valgt ut fem fokusdomener, nemlig økonomiskadministrative<br />
fag, energi, miljø, inkludert marin sektor, klima og klimaendringer,<br />
meteorologi og oseanografi, helse, og informasjons- og kommunikasjonsteknologi.<br />
Hvert av disse fokusdomenene organiseres som en terminologisk arbeidsgruppe (WP<br />
4-8), og skal ledes av en sentral forsker på det aktuelle fagområdet sammen med to<br />
terminologer. Arbeidsgruppene skal organisere en prosjektgruppe og et nasjonalt<br />
nettverk med ansvar for konsensus og kvalitetssikring på de respektive fagområdene.<br />
NORDTERM 2009, København 9.-12. juni 2009 220
Typiske oppgaver for arbeidsgruppene vil være å kartlegge og vurdere eksisterende<br />
terminologiske ressurser og annet relevant materiale slik som for eksempel sentrale<br />
lærebøker og fagordbøker. Videre skal arbeidsgruppene sikre korrekt overføring av<br />
eksisterende ressurser til kvalitetssikrete termoppslag i den digitale infrastrukturen,<br />
oppdatere eksisterende terminologisk ressurser og bygge ut termbasen som en del av<br />
den nasjonale terminologiske infrastrukturen.<br />
En viktig fase i prosjektet vil være formidling av resultatene og samfunnskontakt (WP9).<br />
Videre vil det være essensielt å få etablert en plan for langsiktig drift av infrastrukturen og<br />
ressursene for at disse skal forbli oppdaterte og relevante etter hvert som fagområdene og<br />
kunnskapen utvikler seg videre.<br />
Som en overbygning til arbeidsgruppene WP 4-8 vil det bli etablert to grupper (WP<br />
2 og 3) som skal ha fokus på infrastrukturens metode og infrastrukturen som verktøy<br />
(jf. avsnitt 3.3 og 3.4 over).<br />
OPPSUMMERING<br />
I denne artikkelen har vi argumentert for at terminologi bør betraktes som en form<br />
for forskningsinfrastruktur og at en bred og omfattende videreutvikling av norsk<br />
terminologi er en nødvendig forutsetning for å sikre god fagkommunikasjon og unngå<br />
domenetap. Vi har beskrevet to prosjekter som har dette som et felles mål. Prosjektet<br />
Termportalen har vært gjennomført og kan vise til interessante resultater, og en<br />
begrenset videreutvikling er planlagt. Prosjektet Terminor befinner seg derimot på<br />
visjonsstadiet mer enn på gjennomføringsstadiet. Vi mener at en slik nasjonal dugnad<br />
som prosjektet legger opp til vil være av stor betydning for å nå målene som er uttrykt<br />
i strategidokumenter som Norsk i hundre! og Mål og meining. Det gjenstår imidlertid<br />
å få en avklaring av om dette vil bli prioritert av bevilgende myndigheter.<br />
REFERENCER<br />
Andersen, G. 2008. Terminologi som språkressurs og forskningsinfrastruktur.<br />
NORDTERM 15, 53-58.<br />
Hjelmbrekke, S. 2008. Av studentar, for studentar. Produksjon av småordlister, døme frå<br />
samfunnsøkonomi. NORDTERM 15, 94-97.<br />
ISO 1087 (1990). Terminology — Vocabulary. International Organization for<br />
Standardization.<br />
ISO DIS 704 (1987). Principles and Methods of Terminology. International Organization<br />
for Standardization.<br />
Kerner, K. 2008. Gresset er alltid grønnere på den andre siden. Erfaringer fra oppbgging av<br />
en flesrspråklig termbase. NORDTERM 15, 113-116.<br />
Kristiansen, M. (2006). A terminological approach to multi-disciplinary domains and<br />
disciplinary autonomy. I Toft, Birthe/Nina Pilke (eds) Terminology science and<br />
NORDTERM 2009, København 9.-12. juni 2009 221
esearch - Journal of the International Institute of Terminology Research (2006)<br />
vol. 17.<br />
Kristiansen, M. 2009. Language Planning in Higher Education. The Case of<br />
Microeconomics. I Proceedings from the XVII European Symposium on LSP, 17.-<br />
.21. august 2009, Århus (under publisering).<br />
Kristoffersen, G. 2008. Terminologi i den nye norske språkpolitikken. NORDTERM 15,<br />
26-32.<br />
Leontieva, A. N. 2008. Terminologi for tolker innen offentlig tjenesteyting. Erfaringer fra<br />
tolkeutdanningen ved Universitetet i Bergen, med fokus på juridisk terminologi.<br />
NORDTERM 15, 148-151.<br />
Liebe, G. 2008. Norsk brannfaglig terminologi under utvikling. NORDTERM 15, 157-161.<br />
Norsk Aviskorpus < http://avis.uib.no><br />
Norsk i Hundre! <br />
Rapport Termportalen – Prototype per 22.04.09. Rapport levert til språkrådet. Unifob<br />
AKSIS 2009.<br />
St.meld.nr. 35 (2007-2008) Mål og meining. Ein heilskapleg norsk språkpolitikk<br />
<br />
Verktøy for forskning <br />
NORDTERM 2009, København 9.-12. juni 2009 222
En termbank växer fram: Från kostnadsnyttoanalys via<br />
terminologisk analys till praktisk tillämpning<br />
Eija Puttonen<br />
INLEDNING<br />
En god översättning ska återspegla textens innehåll och stil och innehålla korrekt och konsekvent<br />
terminologi. De terminologiska källorna är i dagens läge många och det tar tid att leta sig fram<br />
mellan vanliga ordböcker, elektroniska ordböcker, termbanker och översättningsminnen – ibland<br />
dessutom utan resultat. När det gäller specialterminologi, framför allt nya termer, står den bästa<br />
expertisen ofta att finna inom den egna organisationen hos någon expert eller kollegan i rummet<br />
intill. I takt med omvärldsförändringar vinner nya begrepp och termer terräng. Se bara på den<br />
växande floran av nya företeelser och benämningar till följd av EU och Eurosystemet! Det är därför<br />
nödvändigt att resultatet av en termsökning dokumenteras så detaljerat som möjligt för framtida<br />
behov. I en organisation med flera översättare är det dessutom viktigt att dela med sig av resultatet<br />
för att skapa en enhetlig och konsekvent terminologi och undvika dubbelt arbete. För det behövs<br />
fungerande rutiner och ändamålsenliga verktyg.<br />
KVALITET OCH EFFEKTIVITET<br />
När översättarna själva insett fördelarna med en egen termbank gäller det att övertyga ledningen<br />
om behovet. Det råder ingen brist på hållbara argument, men ett termbanksprogram är dyrt och<br />
kräver dessutom tid och resurser för terminologiarbete. Att insatserna sedan ger utdelning i form av<br />
en högklassig samling facktermer inte bara för översättarna utan också för andra medarbetare, som i<br />
sin tur garanterar en enhetlig användning av terminologin, tillvaratar medarbetarnas "tysta kunskap"<br />
och stöder introduktionen av nya medarbetare, är inte tillräckligt. Konkreta inbesparingar i arbetstid<br />
och - i slutändan - reda pengar förutsätts också. För att påvisa att termbanken minskar tiden för<br />
termsökningar och därigenom leder till större kostnadseffektivitet i arbetet genomfördes därför en<br />
kostnadsnyttoanalys.<br />
Det har blivit allt vanligare med kostnadsnyttoanalys av termbanker och termarbete, och<br />
undersökningar pågår för att ta fram konkreta modeller och metoder. Att prissätta termarbete är<br />
givetvis ingen lätt uppgift. Det är viktigt att kunna påvisa inbesparingar, men inte på bekostnad av<br />
kvaliteten.<br />
I den kostnadsnyttoanalys som genomfördes på Finlands Bank bedömdes lönsamheten enligt<br />
både kvalitativa och kvantitativa kriterier. Analysen visade att den största kvantitativa nyttan av en<br />
termbank var – kanske inte helt oväntat – inbesparingar i arbetstid för bankens experter inklusive<br />
översättarna. Den potentiella inbesparingen i experternas totala arbetstid uppskattades till cirka 80<br />
NORDTERM 2009, København 9.-12. juni 2009 223
persondagar per år under åren efter att termbanken tagits i drift. Motsvarande inbesparing för<br />
översättarna beräknades vara 75 persondagar på årsnivå.<br />
Bland de kvalitativa fördelarna nämndes konsekvent användning av riktiga och aktuella termer,<br />
vilket bidrar till både den interna informationsförmedlingen och kommunikationen utåt och stärker<br />
därigenom företagets image. En gemensam termbank för hela organisationen ger alla möjlighet att<br />
bidra med sin sakkunskap och skapar därigenom förutsättningar för en fruktbar dialog mellan<br />
översättare och andra experter, vilket garanterar att termbanken hålls uppdaterad och föråldrade<br />
termer eller direkta fel utmönstras. Det minskar risken för missförstånd och feltolkningar och höjer<br />
kvaliteten i kommunikationen.<br />
Termbanken är också tänkt att bli ett hjälpmedel för introduktionen av nya medarbetare. Syftet är<br />
likaså att tillvarata termkompetensen hos översättare som snart går i pension. Målet är att överföra<br />
åtminstone en del av de erfarna översättarnas "tysta kunskap" både till bankens andra översättare<br />
och till de frilansöversättare som banken anlitar, som också enligt planerna ska få tillgång till<br />
termbanken.<br />
KOSTNADSNYTTOANALYS<br />
Kostnadsnyttoanalysen på Finlands Bank genomfördes i samarbete mellan språkservicebyrån<br />
och ekonomibyrån. På det sättet kunde både språklig och ekonomisk expertis utnyttjas. För analys<br />
av kostnader och fördelar användes tre olika metoder: pay back-metoden, nuvärdesmetoden och<br />
annuitetsmetoden. Investeringens lönsamhet bedömdes således enligt återbetalningstiden,<br />
intäkterna, årsbesparingarna och årsutgifterna. Resultatet av analysen var positivt, oavsett vilken<br />
metod som användes. Beräkningarna visade att enbart effektivitetsvinsterna av den inbesparade<br />
arbetstiden betydde att investeringen var lönsam. De uppenbara kvalitativa fördelarna i form av en<br />
enhetlig användning av terminologin och färre missförstånd bidrog ytterligare till lönsamheten och<br />
stödde bankens strategi. Tillsammans med de andra motiveringarna ledde kostnadsnyttoanalysen till<br />
ett positivt beslut.<br />
En termbank för översättare av översättare<br />
Överlag medför en egen termbank större effektivitet och bättre kvalitet i översättnings- och<br />
språkgranskningsarbetet, framför allt som den kan integreras med översättningsminnet och<br />
därigenom bidra till hela översättningsprocessen. Detta är helt i linje med bankens strategi där ett av<br />
de uppställda målen är välfungerande interna processer. Vidare ger programmet synergifördelar,<br />
eftersom samma program används av översättarna på Europeiska centralbanken (ECB) och vissa<br />
andra nationella centralbanker. Utöver direkt utbyte av termposter, vilket kan tänkas bli aktuellt i<br />
framtiden, har vi haft fördelen att kunna dra nytta av deras sakkunskap och erfarenheter i<br />
planeringsfasen. Denna typ av "benchmarking" har varit viktig för att kunna ta ställning till frågor<br />
som "hur många språk ska termbanken innehålla, vilka termposter behövs, ska materialet delas in<br />
efter fackområde eller något annat kriterium, behövs obligatoriska termposter, hur och när sker<br />
inmatning och validering och vad är viktigare: kontext eller definition?"<br />
NORDTERM 2009, København 9.-12. juni 2009 224
Även om programmet är sofistikerat och ger oanade möjligheter, bör termbankens struktur vara<br />
enkel och tydlig. Informationen ska vara överskådlig och tjäna som vägledning för översättare och<br />
andra experter. Onödiga datafält ska utmönstras. Onödiga musklickar höjer tröskeln för att lägga till<br />
termer. Vidare bör termbanken läggas upp så att den passar den målgrupp den är avsedd för. Det<br />
lönar sig därför att tänka igenom vem som kommer att använda termbanken och för vilket ändamål.<br />
Meningen är att termbanken ska komplettera existerande hjälpmedel för översättningsarbetet,<br />
framför allt översättningsminnet och dess konkordansfunktion, som hittills varit den huvudsakliga<br />
källan för termsökningar. Detta syfte gav anledning att undersöka å ena sidan termbankens och å<br />
andra sidan översättningsminnets egenskaper och funktion närmare. Skillnaderna kan<br />
sammanställas i följande tabell:<br />
Översättningsminne vs. termbank<br />
Översättningsminne Termbank<br />
- deskriptiv - preskriptiv<br />
- flera förekomster av samma term: - en termpost/begrepp<br />
- termen i dess rätta kontext - plats för beskrivning av kontext<br />
- begränsade källhänvisningar - utförliga källhänvisningar, t.ex. med<br />
länkar till webbsidor<br />
- inga definitioner - plats för definitioner<br />
Den största fördelen med översättningsminnet som terminologisk källa är att det ger termen i<br />
dess rätta sammanhang. Hänvisningar till de ursprungliga källorna saknas däremot ofta. Det<br />
mervärde som en termbank således kan tillföra översättningsprocessen är utförliga källhänvisningar<br />
med länkar till webbsidor där informationen hämtats.<br />
Skillnaderna i funktion mellan översättningsminnen och termbanker märks likaså. En<br />
konkordanssökning på en termsträng får gärna ge flera träffar och styra valet av term och<br />
uttryckssätt efter sammanhanget, medan alla upptänkliga synonymer och kontexter inte får plats i en<br />
termbank. Definitioner kan och ska däremot dokumenteras om de finns att tillgå, men det är inte<br />
motiverat eller ens klokt att själv börja skriva definitioner. I en termbank med flera språk är<br />
definitionens viktigaste uppgift att tjäna som vägledning för valet av motsvarigheter. Noteras bör<br />
emellertid att många existerande definitioner är legala definitioner, ett slags kontext, och inte några<br />
egentliga definitioner i terminologisk bemärkelse. Men det är kanske inte så relevant för ett företags<br />
interna termbank.<br />
NORDTERM 2009, København 9.-12. juni 2009 225
Documentation of Sources in Terminology<br />
Management Systems, with Particular Emphasis<br />
on Collaborative Platforms<br />
Igor Kudashev<br />
University of Helsinki<br />
Abstract. Documentation of sources is an important means of quality assurance in<br />
terminological work, especially in collaborative projects. However, support of source<br />
documentation in terminology management systems is currently insufficient. In this article we<br />
discuss the general principles of source documentation in terminology work, types of data<br />
related to documentation of sources, different levels of detail of bibliographic data, minimal<br />
requirements for source documentation in terminology management systems as well as means of<br />
advanced support and customization of source management.<br />
INTRODUCTION<br />
Indication of sources in terminological products is valuable information for both<br />
users and compilers. For users, indication of sources allows to estimate the quality of<br />
terminological information. In case of doubts they can check the source of information<br />
and also consult it directly for details. For compilers, indication of sources is useful for<br />
several reasons:<br />
− By indicating the sources compilers show respect to the intellectual rights of other<br />
authors and at the same time shift a large share of responsibility to them.<br />
− Indication of sources is a strong argument in disputes with domain experts, editors,<br />
other members of the community and critics.<br />
− Indication of sources helps find inconsistencies between different sources and resolve<br />
them.<br />
− Keeping record of sources saves a lot of time and effort in the future.<br />
The importance of source indication in terminological resources is confirmed by the<br />
existence of a dedicated ISO standard (ISO 12615:2004, Bibliographic references and<br />
source identifiers for terminology work). Different formats have also been developed<br />
for the exchange of bibliographic data between terminological collections (e.g. TeDIF<br />
– see Betz & Schmitz 1999; bibliographic data section in TBX – see ISO 30042:2008<br />
and ISO 12620:1999: 45–48).<br />
However, standards mentioned above are not the answer to every problem. First,<br />
some important parts of source references are not covered in them (for example,<br />
indication of the exact location of the cited passage in the original document and<br />
additional modifiers like cf. and as cited in). Second, there are many competing<br />
standards and formats, and the choice between them is not always easy. Third,<br />
NORDTERM 2009, København 9.-12. juni 2009 226
equirements of different applications vary a lot, and it is difficult to satisfy them<br />
equally well.<br />
In this article, we discuss the general principles of documenting sources in<br />
terminological management systems, with a particular focus on collaborative<br />
platforms. For a long time terminology management systems have been addressed to<br />
relatively small groups of language professionals and domain experts. The inspiring<br />
example of Wikipedia and other collaborative projects has given an impulse to the<br />
development of platforms for collaborative terminology work. One of these platforms<br />
called TermFactory is being developed at the University of Helsinki.<br />
Documentation of sources is particularly important in collaborative platforms as it<br />
is one of the main means of quality assurance. At the same time, collaborative work<br />
requires more flexibility and compromises than traditional terminology work, and<br />
documentation of sources is no exception.<br />
TYPES OF DATA RELATED TO DOCUMENTATION OF<br />
SOURCES<br />
Data related to the documentation of sources in terminological databases consists of<br />
source references and bibliographic records to which these references are made.<br />
Source references contain at least one source identifier which may be supplemented<br />
with several optional fields. Source reference may also be complex and contain two or<br />
more source identifiers with optional fields related to them.<br />
In theory, source identifiers may be equal to bibliographic records. In practice,<br />
however, bibliographic records are usually stored separately. There are several reasons<br />
for doing so.<br />
The first reason is space saving and user-friendliness. Bibliographic descriptions<br />
are usually quite long, so shorter aliases for them have to be used in the entries to save<br />
space and improve the readability of the entries.<br />
The second reason is reusability. The same source is usually referred to more than<br />
once in a database, so it is reasonable to record the full description once and make<br />
shorter references to it. In this way there is also no need to make multiple corrections<br />
if the record has to be modified for one reason or another.<br />
The third reason is modularity. If bibliographic records are stored separately, it is<br />
possible to provide them with additional data, split them into smaller pieces of data<br />
and make advanced queries about them. For example, it is possible to filter outdated<br />
sources and entries which contain references to them.<br />
Separate storage of source references and bibliographic records has two important<br />
implications. First, source identifiers have to be unique. Second, source identifiers<br />
have to be unambiguously linked to the corresponding bibliographic records. These<br />
two conditions have to be met at any time in any given term bank, which has to be<br />
taken into account in data exchange and restoration of archived data.<br />
From the point of view of user friendliness, source identifiers used in the entries<br />
should be relatively short and transparent, i.e. they should give some clue about the<br />
source and not be totally cryptic. A short and meaningful identifier is, however, a bad<br />
choice form the technical point of view as it is hard to guarantee its uniqueness. There<br />
NORDTERM 2009, København 9.-12. juni 2009 227
may also be situations when a source identifier has to be changed because it doesn’t<br />
sound good in other languages.<br />
These problems can be solved if a difference is made between a source identifier<br />
visible to the user and a permanent source ID code which is used by the system to<br />
unambiguously identify the source and link it to the corresponding bibliographic<br />
record. The source ID code may be based on URL, ISBN or any other system of<br />
global identifiers.<br />
Bibliographic records and references usually have to be supplemented with some<br />
administrative data, such as technical parameters required for the correct automatic<br />
processing and display of the data, information about different transactions,<br />
responsible persons, etc.<br />
LEVEL OF DETAIL OF THE DATA RELATED TO<br />
DOCUMENTATION OF SOURCES<br />
Due to the variety of applications different methods and levels of detail are used to<br />
record bibliographic information on t erminology sources (ISO 12615:2004: 4). The<br />
more data is provided about the sources and the better this data is classified, the richer<br />
the functionality of the system. Detailed description and fine granulation enable<br />
advanced queries about different characteristics of the sources and automatic<br />
generation of bibliography in different styles. Dedicated applications, such as source<br />
management systems, provide a good example of such facilities.<br />
However, it is unlikely that a terminology management system, especially a<br />
collaborative platform, would reach the level of the best source management systems<br />
and library services. On one hand, designers of a terminology management system are<br />
hardly able to provide and keep up-to-date facilities for professional-level source<br />
management. On the other hand, it is hard to expect that community members would<br />
have enough energy, time and expertise to document sources with professional-level<br />
depth and precision.<br />
To achieve the best results, designers of a collaborative platform have to make sure<br />
that the minimum set of data is provided about every source and at the same time they<br />
should give free hands to those users who want to follow the best practices and share<br />
them. It is also important to provide facilities for advanced customization of different<br />
parameters.<br />
MINIMAL REQUIREMENTS FOR DUCUMENTATION OF<br />
SOURCES<br />
The two most important things that users of a terminological management system<br />
want to know about the sources is how reliable they are and how they can be accessed.<br />
Besides, users want bibliographic records to be accurate, uniform and compliant with<br />
one of the common formats. Source identifiers and bibliographic records have to be<br />
unique and properly linked to each other. These are the starting points for formulating<br />
minimal requirements for the documenting and management of terminological<br />
sources.<br />
NORDTERM 2009, København 9.-12. juni 2009 228
The main data category which has to be filled in a bibliographic record is<br />
bibliographic citation. This category corresponds to the element bibliographicCitation<br />
in Dublin core (http://purl.org/dc/terms/bibliographicCitation). In this field,<br />
information about the source should be provided in the way the user wants it to appear<br />
in the bibliography. If the user wants to provide additional important information<br />
about the source which does not belong in the bibliographicCitation category, he<br />
should use the supplementaryInformation field.<br />
There are no restrictions concerning the style for presenting bibliographic data but<br />
it is recommended to follow generally accepted standards and best practices and be<br />
consistent. Information provided about the source has to be sufficient for its<br />
unambiguous identification.<br />
The following general categories are typically used for the identification of sources:<br />
name of the source (e.g. title of a publication), responsibility (authors, editors, etc.),<br />
place and date (e.g. place and date of publication). Besides, reference to the host<br />
document and location within it has to be specified for contributions. Information<br />
about version or edition has to be specified for repetitive works. Concrete<br />
representation of these categories depends on the type of the source.<br />
Two other mandatory parameters which are not necessarily required for the<br />
identification of the source but which are important pragmatically include format of<br />
the source and accessibility. Format of the source may be picked from a predefined<br />
list. The following values borrowed from the International Standard Bibliographic<br />
Description (2007: 11) will supposedly cover the vast majority of cases: printed text,<br />
electronic resource, multimedia resource, moving images, sound recording, still<br />
images, cartographic resources, notated music resource. It should also be possible to<br />
choose the option “other source”, name it and provide a short annotation for it.<br />
Data category accessibility should inform the users whether the source is public or<br />
private, published or unpublished, how it can be accessed and when it was retrieved.<br />
Distinction between public/private and published/unpublished sources may seem<br />
questionable at the first glance but this distinction is made for a reason. Unpublished<br />
works are not necessarily private. For example, graduation papers, dissertations, etc.<br />
are unpublished but public. At the same time, access to published sources may be<br />
restricted.<br />
Each bibliographic record should be provided with its shorter alias (source<br />
identifier) which will be used in the entries. Source identifier has to be unique within<br />
the term bank. Different methods may be used for forming source identifiers. It is<br />
desirable that source identifiers should provide some information about the source. For<br />
example, source identifier may be a combination of the author and the year of<br />
publication. Documents created by several authors or with no author specified may be<br />
abbreviated by initial letters of the title brought to uppercase, as described in the ISO<br />
standard (ISO 12615: 2004: 8).<br />
Source references have to be automatically updated by the system if a s ource<br />
identifier is modified, and automatically deleted if the corresponding bibliographic<br />
record is deleted. Notification about the changes in source identifiers has to be sent to<br />
the persons responsible for the entries in which these identifiers occur. It is strongly<br />
recommended to keep the history of transactions and provide the means for data<br />
restoration. Otherwise a sophisticated system of privileges is required.<br />
NORDTERM 2009, København 9.-12. juni 2009 229
As was mentioned earlier, source ID code must be assigned to every<br />
bibliographical record for its unambiguous identification. The source ID code must be<br />
generated automatically by the system.<br />
Since inline formatting (e.g. italics) is very common in bibliographic descriptions,<br />
terminology management system has to provide the means for adding inline<br />
formatting to bibliographic records. The addition of inline formatting may not have a<br />
negative impact on the functionality or speed of search.<br />
In some cases it may be necessary to contact the person responsible for the<br />
bibliographic record, for example to request more information on t he source or to<br />
report mistakes. It is also useful to know who and when has created and updated the<br />
record. This implies that bibliographic records should be provided with some<br />
administrative data.<br />
Proposed administrative data categories include creator, updater(s), creation date,<br />
update date(s) and responsible person(s). By default responsible person is the creator<br />
of the record unless specified otherwise. Categories other than responsible person<br />
should be automatically managed by the system and be read-only. The<br />
responsiblePerson category should contain a link to the person’s profile rather than a<br />
plain name. In any case contact information of the responsible person has to be<br />
provided.<br />
In order for the bibliographical data to be presented correctly to the final users,<br />
some technical data has to be provided including encoding, style and other layout<br />
features. Some of these parameters are application-specific and are not subject to<br />
change, others may be customizable.<br />
It should be technically possible to add source references to almost every data field<br />
related to the description of headwords. Sometimes it ma y also be necessary to add<br />
source references to parts of the fields, for instance, for multiple examples in the<br />
example field. It should also be technically possible to add two or more source<br />
references to the same field.<br />
ADVANCED SUPPORT OFR SOURCE MANAGEMENT<br />
The sky is the limit in the development of different instruments for source<br />
management. Below are described a few features which in our opinion should be<br />
implemented in the first place if designers of a collaborative terminology management<br />
system want to provide a better support for the documentation of sources.<br />
It is convenient for users that bibliography is automatically generated for every<br />
terminological collection or user-defined subset. Sources in different scripts usually<br />
have to be placed in different sections of bibliography (e.g. first Latin, then Cyrillic,<br />
then Chinese), and different methods of sorting may be used in different languages.<br />
The correct sorting of sources requires that a minimal set of information is provided<br />
about the language, script and preferred collation of every bibliographical citation.<br />
Codes of languages, scripts and collations have to be provided in a standardized<br />
form. Language and script codes and the rules for their construction are described in<br />
ISO standards 631-1:2002, 631-2:1999, 15924:2004 as well as in BCP 47 (Phillips &<br />
Davis 2006). Collation has to be specified only if it differs from the default Unicode<br />
collation. Many systems already provide mechanisms for creating user-defined<br />
NORDTERM 2009, København 9.-12. juni 2009 230
collation schemes (e.g. MultiTerm, TshwaneTerm) but these mechanisms can be<br />
extended further.<br />
Since users may have different preferences concerning the style of the presentation<br />
of sources in the bibliography, they should be able to add alternative versions of the<br />
bibliographicCitation field. A meaningful name, short description and optional<br />
language indication should be provided for each alternative version.<br />
Users may then specify in which style they want bibliographic record to be<br />
presented in the bibliography. It should be possible to choose different styles for the<br />
sources documented in different languages and scripts. If specified style is not<br />
available for all sources included in the bibliography, the default version may be used<br />
and highlighted. Alternative versions should be shareable, i.e. available to other users<br />
as well. This is one possible implementation of the collaborative approach in source<br />
management.<br />
Information contained in the bibliographic citation may be split and presented in<br />
separate data categories. Minimum set of data may be supplemented with other data<br />
which the users find important. There are many different formats from where<br />
additional categories may be borrowed (some of them are listed in Bibliography). Fine<br />
granulation of data allows advanced queries and arrangement of data based on<br />
different characteristics of the sources.<br />
When documenting private sources such as domain experts it is important to take<br />
into account the recommendations provided in the ISO standard (ISO 12612:2004:<br />
13). First, it is desirable to make a distinction between information needed for the<br />
bibliographic reference and what may be needed to maintain or establish contact with<br />
an individual. Second, in some countries there may be a legal requirement to declare<br />
that a file containing personal data is being maintained.<br />
Different templates may be provided for different types of sources and the library<br />
of templates may be enriched collaboratively. Other collaborative elements may<br />
include feedback to the person who is responsible for the bibliographic record, forumstyle<br />
comments by the users available to everyone else as well as voting and ranking<br />
mechanisms.<br />
Ideally, proper names such as geographical objects and publishing houses as well as<br />
dates should be presented in bibliographical records in a standardized form. There are<br />
different standards and ontologies from which such values may be borrowed.<br />
Standardized forms considerably improve the quality of the search. Integration of a<br />
spellchecker into the system helps prevent typing mistakes.<br />
Depending on their needs and preferences users should be able to choose different<br />
views of source references. They may want to see more detailed information about the<br />
source than coded in a source identifier, all the way to the full bibliographic citation.<br />
Bibliographical references should be customizable in other respects as well. Concrete<br />
parameters which can be customized are described below, after a closer look at some<br />
optional elements of source references.<br />
ADDITIONAL ELEMENTS OF SOURCE REFERENCES<br />
In addition to one or several source identifiers, source reference may contain<br />
optional fields. The most common and obvious of them include source label, one or<br />
NORDTERM 2009, København 9.-12. juni 2009 231
more indications of location of the cited abstract in the original document and<br />
additional modifiers, for example, indications of source usage like “cf.”, “as cited in”<br />
and “see also”.<br />
Source labels<br />
Source labels visually separate source identifiers from the preceding field and may<br />
provide additional information about the source, particularly about its type. For<br />
example, printed sources may be preceded by an “open book” symbol () and<br />
Internet sources by a PC icon (). Dictionary of Lexicography (1998) provides an<br />
example of such usage.<br />
Source labels may be graphical images or “letters” of symbolic fonts like Symbol,<br />
Wingdings or Webdings which can be found on pr actically every PC using the<br />
Windows operating system. Usage of symbolic fonts has many advantages but it<br />
may be problematic across platforms.<br />
Indication of citation’s location<br />
In many cases it is necessary to provide information about the location of the cited<br />
passage in the original document. Page numbers are the most common type of<br />
references. They may also be supplemented with the number of column, paragraph,<br />
row, etc. In highly structured documents like laws and in documents with no<br />
pagination references are usually made to logical divisions of the text (chapters,<br />
sections, paragraphs, etc.). In some types of electronic documents references can be<br />
made to special bookmarks or anchors within the document.<br />
Indication of source usage<br />
In terminological databases, like in other types of texts, it is sometimes necessary to<br />
indicate more complex relations between the text and the source than direct<br />
borrowing. These cases may be marked with special expressions or symbols. Symbols<br />
have the benefit of being language-independent (although not necessarily cultureindependent).<br />
For example, indirect borrowing may be indicated by the “approximately” symbol<br />
(≈) placed before or after the source label. This is the way it was done in the Finnish-<br />
Russian Forestry Dictionary (Suomalais-venäläinen metsäsanakirja 2008) to mark<br />
cases where definitions or notes based on certain sources had been modified:<br />
aapasuo YS<br />
suoyhdistymä, jonka keskiosa on reunoja alempana ≈ SESMS<br />
See references (as in “see Laine & Vasander 1990”) can be expressed with the help<br />
of an arrow pointing right: Laine & Vasander 1990. Cf. references (as in “cf.<br />
Laine & Vasander 1990”) can be indicated with an arrow pointing in both directions:<br />
Laine & Vasander 1990. As cited in references (e.g. “Laine & Vasander 1990:<br />
NORDTERM 2009, København 9.-12. juni 2009 232
22, as cited in Laine 1995: 52” ) can be marked with an arrow pointing left: Laine<br />
& Vasander 1990: 22 Laine 1995: 52.<br />
When making references to private consultations it may be necessary to distinguish<br />
the cases when new information was provided by the consulting person from the cases<br />
when the consulter confirms information which is “common knowledge” in the<br />
domain in question. For example, in the Finnish-Russian Forestry Dictionary the<br />
“confirmation” symbol followed by the name of the consultant was used to indicate<br />
the latter type of referencing.<br />
CUSTOMIZATION OF SOURCE REFRENCES<br />
It is desirable that users of a terminology management system should be able to<br />
customize the structure and layout of source references. Source references can form<br />
quite complex objects, and their customization is not a trivial task. There are many<br />
levels of customization, and designers should choose the one which suits their goals<br />
and ambitions best.<br />
The first level is customization of individual fields which form a source reference.<br />
This includes customization of contents of the fields, their layout and visibility.<br />
Customization of contents means that users can specify objects (characters, images,<br />
etc.) which will be presented in the field. For example, users may want to specify what<br />
kind of source labels should be used for different types of sources. If the field can<br />
accept two or more values (e.g. two or more location indicators), users should be able<br />
to specify what delimiter should be used between them (e.g. comma, semicolon, etc.).<br />
Customization of layout includes specification of inline formatting parameters, such<br />
as font settings. For example, users may want to specify that source identifiers should<br />
be italicized.<br />
Customization of visibility means that users can make fields visible, invisible and<br />
partially visible. For example, users may want to hide all indications of citations’<br />
location in the original documents. Or they may want to set the maximum length of<br />
the field after which it will be automatically truncated by the system and transformed<br />
into a clickable link.<br />
The next level is customization of the structure and layout of a source reference as a<br />
whole. This includes several layers: order of the fields, delimiters between them,<br />
combinations of the fields, etc.<br />
The order of the fields in source references is usually fixed except for additional<br />
modifiers. The default delimiter between the fields is space character but it ma y be<br />
necessary to customize this, for example to merge source label and additional<br />
modifiers. Location indicators are usually separated from the source identifier with a<br />
comma or a colon. Users should be able to choose between these separators or to add<br />
their own ones.<br />
Combination of fields is relevant mostly for source label and additional modifiers.<br />
Some additional modifiers may substitute source label, as in the case of the<br />
confirmation symbol in the example above.<br />
On the next level of customization it should be possible to specify different<br />
parameters for complex source references consisting of two or more instances. For<br />
example, if two or more sources are of the same type, source labels may not be needed<br />
NORDTERM 2009, København 9.-12. juni 2009 233
efore the second and subsequent sources. However, this is a matter of taste and<br />
should be customizable.<br />
Finally, source references may be customized in all their complexity as a whole,<br />
including their global layout parameters and position vis-à-vis other elements.<br />
SOME CONSIDERATIONS FOR USER INTERDACE<br />
One way to add source references in the editing form of a terminology management<br />
system is to use pick-up lists. However, the number of sources in a large terminology<br />
database can reach hundreds and thousands of records which makes the use of pick-up<br />
lists practically impossible. Pick-up lists also have to be updated in real time which is<br />
difficult to implement in a dynamic multi-user environment.<br />
A better solution is to let users choose the correct source identifier in a separate<br />
window with search possibilities. When the correct source is located, user can press<br />
the link to insert the corresponding source identifier into the editing form. A similar<br />
approach may be used in respect of additional fields.<br />
Access to full bibliographic records from the entries should be quick and easy. This<br />
can be implemented in the form of pop-ups or by showing records in a separate<br />
window. We favor the latter option as it has lower risk of bugs and hang-ups and<br />
allows copying data into the clipboard.<br />
CONCLUSION<br />
Source management is almost a must in modern terminology management systems,<br />
especially collaborative ones. However, at present the support for the documenting of<br />
sources in most terminology management systems is insufficient, so a lot has to be<br />
done in this respect.<br />
Universal solutions for source management are hardly possible due to the variety of<br />
applications and user requirements. To achieve the best results, designers of<br />
terminology management systems have to make sure that the minimum set of data is<br />
provided about every source and at the same time they should give free hands to those<br />
users who want to follow the best practices and share them.<br />
Collaborative approach is one of the strengths which may lead to better quality of<br />
source documentation. Instead of imposing unnecessary constraints on t he structure,<br />
content and representation of the data, designers of terminology management systems<br />
should encourage contributions from the community and provide support to them.<br />
REFERENCES<br />
Betz A. & Schmitz K.-D. (1999). The Terminology Documentation Interchange Format TeDIF. In<br />
Sandrini, P. (Ed.), Terminology and Knowledge Engineering TKE ‘99, Innsbruck, August 1999. Wien:<br />
TermNet, pp. 782--792.<br />
Dictionary of Lexicography (1998) / R.R.K. Hartmann and Gregory James. London: Routledge.<br />
Dublin Core Metadata Initiative. Retrieved 20.08.2009 from http://dublincore.org.<br />
Functional Requirements for Bibliographic Records (2009) / International Federation of Library<br />
NORDTERM 2009, København 9.-12. juni 2009 234
Associations and Institutions (IFLA), February 2009. Retrieved 20.08.2009 from<br />
http://www.ifla.org/files/cataloguing/frbr/frbr_2008.pdf.<br />
Identification of Existing Terminology Resources. EUROTERMBANK project. Deliverable 2.1, version<br />
I.I, 31/12/2005 / Raguz, M., Raupauch, I. & Schmitz, K.-D. Retrieved 20.08.2009 from<br />
http://project.eurotermbank.com/uploads/D2.1%20Identification%20of%20existing%20terminology<br />
%20resources.pdf.<br />
International Standard Bibliographic Description (ISBD) (2007) / International Federation of Library<br />
Associations and Institutions (IFLA). Retrieved 20.08.2009 from<br />
http://www.ifla.org/files/cataloguing/isbd/isbd-cons_2007-en.pdf.<br />
ISO 12615:2004(E) Bibliographic References and Source Identifiers for Terminology Work. Geneva:<br />
ISO.<br />
ISO 12620:1999(E) Computer Applications in Terminology – Data Categories. Geneva: ISO.<br />
ISO 15924:2004. Information and Documentation – Codes for the Representation of Names of Scripts.<br />
Geneva: ISO.<br />
ISO 30042:2008 Systems to Manage Terminology, Knowledge and Content – TermBase eXchange<br />
(TBX). Geneva: ISO.<br />
ISO 690:1987 Documentation – Bibliographic References – Content, Form and Structure. Geneva: ISO.<br />
ISO 690-2:1997 Information and Documentation – Bibliographic References – Part 2: Electronic<br />
Documents and Parts thereof. Geneva: ISO.<br />
Suomalais-venäläinen metsäsanakirja (2008) / Kudasheva, I. ja Kudashev, I. (tekijät); Vehmas-Lehto, I.<br />
ja Gerd, A. (toim.). Helsinki: Metsäkustannus.<br />
Phillips, A. & Davis, M. (Eds.) (2006) Tags for Identifying Languages. Best Current Practice 47.<br />
Request for Comments 4646. September 2006. Retrieved 20.08.2009 from http://www.rfceditor.org/rfc/rfc4646.txt.<br />
vCard standard (2009). Version 3.0. Retrieved 20.08.2009 from http://www.imc.org/pdi.<br />
NORDTERM 2009, København 9.-12. juni 2009 235
CLS Terminology Adapting to the Needs of the<br />
Market<br />
Jeannette Ørsted<br />
Group Manager Terminology, CLS Communication AG, Elisabethenanlage 11, 4051 Basel<br />
Abstract. CLS-Communication is a globally active language service provider specializing in the financial and life<br />
science sectors. The company covers the entire linguistic value chain from editing to publishing. Terminology and<br />
electronic dictionaries are marketed as separate services, but also as an integral part of the quality assurance for<br />
translations.<br />
CLS offers databases designed to specific company needs as well as online access to industry or sector-specific<br />
databases. Today the industry termbase contains more than 150.000 terms from the banking, insurance, legal,<br />
telecommunications and life science sectors and five full-time terminologists are working in the department.<br />
The selling price of these services takes into account that terminology is a highly sophisticated product produced<br />
by highly educated terminologists and experts and we are faced with the fact that many potential customers are<br />
substituting a customer-specific database with a free dictionary on the internet. In response to this development<br />
the CLS Terminology Team has initiated a strategic development of small sector-specific databases based on the<br />
contents of the existing industry termbase. To accompany this initiative the team has analysed all elements of the<br />
terminology products to provide an extensive list of benefits stressing the added-value to the client, meeting<br />
requirements at all levels from simple glossary-work to sophisticated knowledge-sharing.<br />
The presentation will describe the elements and challenges involved in creating new „baskets“ of languages and<br />
subjects on the basis of existing TDBs. In addition to this, customer benefits will be highlighted taking the value<br />
beyond quality and consistency showing how terminology gives added value to the organization.<br />
As a consequence of the changing marketplace and product development, working procedures have to be<br />
adapted so that a high output is reached without compromising quality. I will briefly discuss some of the possible<br />
key performance indicators (KPIs) that could serve as a basis for measurement.<br />
Presentation notes<br />
CLS Communication was originally the internal translation department of a big Swiss Bank. When the<br />
department was outsourced, support services such as the terminology unit was also outsourced. In the<br />
following ten years the department's size was more or less retained at the same level (10 people) and<br />
the original database with entries in five languages was continuously updated and extended so as to<br />
serve as support for translators. Concurrently new databases were formed within telecommunications,<br />
life science and energy. However, the original database with banking, insurance and legal terms<br />
remained the backbone of the work in the terminology unit.<br />
NORDTERM 2009, København 9.-12. juni 2009 236
In 2005 it was decided to offer this database in an online form and a special webinterface was<br />
developed for CLS. Customers could now subscribe to the database and get online access to up to<br />
60.000 terms. With a constantly growing database the amount of information which the customer will<br />
find is growing and in a market with increasing time pressure the need for a pre-defined filtering of the<br />
information required, has become stronger. At the beginning of the information era it was thought<br />
that access to a lot of information in itself was a convincing argument, but we now hear that targeted<br />
information is considered more valuable.<br />
In order to meet this requirement we have tried to develop new filters in the webinterface to be able<br />
to offer limited subject areas to the customers. In that process we ran into quite a number of<br />
difficulties because touching the datastructure in the old TDB also disturbs the cross references. This<br />
leads to a high number of errors and the result will not meet customer expectations.<br />
We are currently trying to develop a new profile in the webinterface that will take out the crossreferences<br />
automatically, or at least make it possible for us to edit these manually. Fundamentally we<br />
want to keep the root database and use it as a tool for editing, maintaining and updating separate<br />
subjects and then be able to offer selected parts targeted on customer needs. If we succed in finding a<br />
solution we only have to update in a central database and can make sub-areas available. On the other<br />
hand splitting up the database will entail a loss of information and knowledge. Finally the the cost of<br />
maintaining separate TDBs cannot be covered by customer fees.<br />
The challenge is thus double – both finding a technical solution and enhancing the efficiency of the<br />
terminologists. Both are work-in-progress being done under the constant price pressure of the market.<br />
NORDTERM 2009, København 9.-12. juni 2009 237
Cost-benefit begrebsafklaring<br />
Annelise Grinsted a og Hanne Erdman Thomsen b<br />
a Institut for Fagsprog, Kommunikation og Informationsvidenskab, Syddansk Universitet, Engstien 1,<br />
6000 Kolding, annelise@sitkom.sdu.dk.<br />
b Institut for Internationale Sprogstudier og Vidensteknologi, Copenhagen Business School,<br />
Dalgas have 15, 2000 Frederiksberg, het.isv@cbs.dk<br />
Abstract. I Grinsted & T homsen (2008:318) præsenterede vi en model for en cost-benefit<br />
analyse i forbindelse med introduktionen af termbaser og sy stematisk terminologiarbejde. I<br />
denne artikel følger vi mere konkret op på termerne for begrebet “costs”, og hvad afklaringen af<br />
begreberne har betydet for vores model.<br />
INTRODUKTION<br />
Man kan selvfølgelig spørge sig selv, hvorfo r det er interessant at lave en costbenefit<br />
analyse af terminologiarbejde. Vi har forsøgt at afdække, hvad der tidligere er<br />
blevet skrevet om denne type cost-benefit analyser og finder he le tiden den sam me<br />
forklaring, hvorfor vi citerer den m eget relevante canadiske Guy Cha mpagne rapport<br />
(2004:5):<br />
“(….) few attempts have been made in the past to assess the economic value<br />
of terminology. Industry professionals do not necessarily see their work and<br />
their profession from this angle. They see terminology’s qualitative impact on<br />
the language process, but definitely not its economic impact”.<br />
I samme rapport fremføres en række argum enter for indførelse af term inologiske<br />
værktøjer og gennem førelse af system atisk terminologiarbejde, hvoraf vi nævner<br />
nogle af de vigtigste:<br />
Terminologiarbejde er nødvendigt i 4-6 % af alle ord i en tekst<br />
Mellem 15-30 % af resurser anvendt i over sættelser relaterer sig til<br />
terminologi<br />
Investeringsafkastet (ROI 1 ) er 10 %<br />
Terminologiske værktøjer øger produktiviteten med 20 %<br />
For personer, der har arbejdet konkret m ed terminologiarbejde, er der næppe nogle<br />
af disse argum enter som ikke er genkende lige, skønt der m åske ikke har været sat<br />
konkrete tal på.<br />
Men der kan også fremføres argum enter af helt andre typer. For eksem pel<br />
introducerer Wright (1996:7) begrebet ”criticality” og relaterer det til spørgsmålet om,<br />
hvor detaljeret terminologiarbejdet kan / skal være, og hvilke konsekvenser m angler i<br />
3. ROI står for Return on Investment. I dette tilfælde betyder det at en investering på DKK 100 giver DKK 110<br />
tilbage til virksomheden<br />
NORDTERM 2009, København 9.-12. juni 2009 238
terminologiarbejdet eventuelt måtte have. Hun indfører 3 grader af ” criticality”, som<br />
kan bruges til at vurdere hvor detaljeret terminologiarbejdet bør være:<br />
kritisk mangel: en virksom hed kan udsætte s for et betragteligt tab<br />
(menneskeliv, sundhedsfare, skade på ejendom, etc.)<br />
alvorlig mangel: har strategisk betydning fo r virksomhedens målsætninger<br />
og konkurrencesituation<br />
mindre mangel: medfører irriterende kommunikationsfejl internt og<br />
eksternt i virksomheden<br />
Så argumenter for introduktion af term baser og derm ed også system atisk<br />
terminologiarbejde er mangfoldige, og en brugb ar metode er en cos t-benefit analyse,<br />
der retter sig direkte mod hvad en ledelse er interesseret i – de økonom iske fordele og<br />
ulemper.<br />
COST-BENEFIT MODELLEN<br />
Vi tog i G rinsted & Thom sen (2008:318) udgangspunkt i m odellen i figur 1,<br />
oprindeligt introduceret i Holm -Rasmussen et al. (2005:487), idet vi også selv skulle<br />
til at sætte os ind i arbejdet med cost-benefit analyser.<br />
FIGUR 1. Model for cost-benefit analyse baseret på Holm-Rasmussen et al. (2005:487)<br />
NORDTERM 2009, København 9.-12. juni 2009 239
accessional cost<br />
accounting cost<br />
achieved cost<br />
acquisition cost<br />
actual cost<br />
administrative<br />
cost<br />
all-in cost<br />
allocable cost<br />
alteration cost<br />
alternative cost<br />
amortized cost<br />
applied cost<br />
appraisal cost<br />
average cost<br />
average fixed<br />
cost<br />
average variable<br />
cost<br />
avoidable cost<br />
avoided cost<br />
batch cost<br />
benefit cost<br />
analysis<br />
breakage cost<br />
burden cost<br />
capital cost<br />
carriage cost<br />
carrying cost<br />
choice cost<br />
closing costs<br />
collateral cost<br />
common cost<br />
conceptual cost<br />
construction cost<br />
controllable costs<br />
conversion cost<br />
cost factor<br />
cost of lost sales<br />
cost of poor<br />
quality<br />
cost of quality<br />
cost of sales<br />
cost of work<br />
cost per response<br />
cost profile<br />
cost recovery<br />
cost tradeoff<br />
TABEL 1. Omkostningstermer fra en kombineret søgning i<br />
http://www.businessdictionary.com og http://investorwords.com/<br />
cost-benefit ratio<br />
costs<br />
distributable cost<br />
distributable labor cost<br />
distributed cost<br />
distributed labor cost<br />
economic cost<br />
embedded cost<br />
executory cost<br />
explicit cost<br />
extraordinary cost<br />
factor cost<br />
fixed cost<br />
fixed overhead cost<br />
follow through costs<br />
current cost<br />
customer costs<br />
depreciable cost<br />
development cost<br />
differential cost<br />
direct cost<br />
direct labor cost<br />
direct material cost<br />
direct overhead cost<br />
directly associated cost<br />
discretionary cost<br />
frictional cost<br />
full cost<br />
funding cost<br />
hard cost<br />
hidden cost<br />
historical cost<br />
holding cost<br />
implicit cost<br />
implied cost<br />
imputed cost<br />
increasing opportunity<br />
cost<br />
operating cost<br />
opportunity cost<br />
order generation costs<br />
ordering cost<br />
organizational costs<br />
other costs<br />
ownership cost<br />
period cost<br />
prime cost<br />
private cost<br />
product cost<br />
projected total life cost<br />
quality costs<br />
reasonable cost<br />
recurring cost<br />
rehabilitation cost<br />
relevant cost<br />
removal cost<br />
reorder cost<br />
replacement cost<br />
replacement cost policy<br />
roll up costs<br />
running cost<br />
selling costs<br />
severance costs<br />
step variable costs<br />
switching costs<br />
trading costs<br />
transaction costs<br />
incremental cost<br />
incurred cost<br />
indirect cost<br />
indirect maintenance cost<br />
indirect overhead cost<br />
intermediary cost<br />
inventory carrying cost<br />
inventory cost<br />
joint cost<br />
labor cost<br />
landed cost<br />
legacy costs<br />
managed cost<br />
manufacturing cost<br />
marginal cost<br />
marginal external cost<br />
marginal private cost<br />
marginal social cost<br />
mixed cost<br />
moving average inventory<br />
cost<br />
non value adding cost<br />
non-production costs<br />
non-recurring cost<br />
non-traceable common<br />
cost<br />
normal cost<br />
notional cost<br />
occupancy cost<br />
operating and support<br />
cost<br />
semi variable cost<br />
separable cost<br />
settlement cost<br />
setup cost<br />
shared costs<br />
shortages costs<br />
soft cost<br />
standard cost<br />
startup costs<br />
step cost<br />
stockout costs<br />
stranded cost<br />
sue and labor costs<br />
sunk cost<br />
support costs<br />
switching cost<br />
syndication cost<br />
target cost<br />
technology cost<br />
tooling costs<br />
total acquisition cost<br />
(TAC)<br />
traceable cost<br />
transaction cost<br />
transfer cost<br />
true interest cost (TIC)<br />
turnover cost<br />
unallowable cost<br />
unit cost<br />
usage cost<br />
user cost<br />
value added cost<br />
variable cost<br />
will cost<br />
zero cost option<br />
below cost<br />
cost/benefit analysis<br />
depreciated cost<br />
flotation costs<br />
gross capitalized cost<br />
operating costs<br />
original cost<br />
quality cost<br />
settlement costs<br />
NORDTERM 2009, København 9.-12. juni 2009 240
Vi forsøgte at klassificere de om kostninger, der blev om talt i de ovenf or nævnte<br />
artikler og rapporter om cost-benefit anal yser, efter om kostningstyperne i denne<br />
model. Men efterhånden som arbejdet skred fremad, gik det op for os, a t det også var<br />
nødvendigt at gennemføre et solidt terminologiarbejde på begrebet cost (”omkostning”<br />
på dansk).<br />
Ved en helt enkel søgning på nettet fandt vi frem til en ov ervældende mængde af<br />
omkostningstermer, som er vist i tabel 1, så det var oplagt, at en afklaring og<br />
afgrænsning var nødvendig.<br />
UDGANGSPUNKT<br />
I den følgende begrebsafklaring ta ger vi udgangspunkt i vores im plicitte<br />
begrebssystem over ”omkostninger” (Grinsted & Thomsen 2008).<br />
FIGUR 2. Begrebssystemet bag Grinsted & Thomsen (2008)<br />
De grå kasser i figur 2 repræsenterer begreber, hvorunder er anført adskillende<br />
træk, og de hvide kasser repræsenterer indd elingskriterier. I begrebssystem et er<br />
intangible cost (vanskeligt m ålbar omkostning) synonym m ed ”strategic cost<br />
(strategisk omkostning), og de nne sidste term kan derfor ikke ses i diagramm et.<br />
Desuden var det vores opfattelse at direct og indirect costs (direkte og indirekte<br />
omkostninger) altid kan måles i kroner og øre (eller en anden valuta).<br />
Siden har vi forsøgt at inddrage flere begr eber for at skabe et bedre overblik, bl.a.<br />
gennem input fra eksperter og definitioner fra forskellige medier.<br />
EKSPERTER<br />
For at s ikre at r esultatet ikke bare kom til at af spejle vores egen opfattelse af<br />
domænet, har vi rådført os med eksperter på området fra både Syddansk Universitet og<br />
Copenhagen Business School. Eksperterne fik en ganske kort orientering om<br />
NORDTERM 2009, København 9.-12. juni 2009 241
terminologiske begrebssystemer og blev herefter bedt om at systematisere sedler med<br />
udvalgte termer i et begrebssystem. Resultatet af dette blev lidt forskelligt fra den ene<br />
ekspert til den anden med den forklaring, at det naturligvis komm er an på hvilken<br />
synsvinkel man har på en cost-benefit anal yse: marketing, produktion etc. Interessant<br />
er det, at der ikke fremkom nye t ermer, mens nogle af dem vi havde udvalgt blev<br />
klassificeret som synonymer eller nærsynonymer.<br />
OVERVEJELSER I FORBINDELSE MED BEGREBSAFKLARING<br />
Når man ser på om kostninger, er det relevant at ske lne mellem initial cost og<br />
operating cost (etableringsomkostning og driftsomkostning), to begreber som ikke er<br />
med i begrebssys temet i f igur 2. If ølge den litteratu r vi så på, er<br />
etableringsomkostninger altid direkte, da de er direk te forbundet m ed formålet med<br />
investeringen, mens driftsomkostninger både kan være direkte og indirekte, som vist i<br />
figur 3. Her har vi også taget et par andre begreber med, som så ud til at høre hjemme i<br />
denne sammenhæng: non-recurring og recurring cost (engangsomkostning og<br />
gentagen omkostning).<br />
FIGUR 3. Begrebssystem udvidet med initial, operating, non-recurring og recurring cost.<br />
Efter at have kigget på vores eksem pler på konkrete om kostninger, nåede vi fre m<br />
til, at initial costs altid er non-recurring og operating costs altid recurring. Da vi ikke<br />
kunne finde andre ting, der adskilte non-recurring cost fra initial cost eller recurring<br />
cost fra operating cost, så det ud til, at der var tale om synonymer. Det blev bekræftet<br />
af de eksperter, vi har konsulteret.<br />
I en term base ville vi vælge at vise dette m ed noter, som hjælper til at vælg e<br />
betegnelse alt efter hvor ens fokus er, nem lig om hovedvægten ligger på en skelnen<br />
NORDTERM 2009, København 9.-12. juni 2009 242
mellem engangsudgifter og udgifter som går igen, eller på en skelnen m ellem<br />
opstarten og den daglige drift.<br />
Man kan også sige at sondringen m ellem recurring og non-recurring costs<br />
(gentagne og ikke gentagne om kostninger) ikke er interessant, når vi klassificerer<br />
omkostninger forbundet m ed terminologiarbejde – hvis vi allerede skelner m ellem<br />
initial og operating costs (etablerings- og driftsomkostninger).<br />
NEDARVNINGSPROBLEMER<br />
Begrebssystemet i f igur 3 er im idlertid problematisk. Hvis operating cost er underbegreb<br />
til både direct og indirect cost, arver det to f orskellige værdier til trækket<br />
RELATION som illustreret i figur 4, og det bliver umuligt at forklare begrebet.<br />
FIGUR 4. Begrebssystemet fra figur 3 nu med karakteristiske træk.<br />
Det er jo ikke sådan, at en given dr iftsomkostning kan være BÅDE direkte OG<br />
indirekte – nej, driftsomkostninger kan være ENTEN direkte ELLER indirekte. Det vil<br />
resultere i to nye underbegreber: direct operating cost og indirect operating cost. Og<br />
det er så disse to underbegreber, der skal arve fra direkte og i ndirekte omkostninger,<br />
som vist i figur 5.<br />
NORDTERM 2009, København 9.-12. juni 2009 243
FIGUR 5. 2 nye begreber arver trækkene [RELATION: direct] og [RELATION: indirect].<br />
Initial og operating cost (etablerings- og driftsomkostninger) må altså flyttes et sted<br />
hen, hvor operating cost ikke kan arve disse modstrid ende træk, f.eks. helt op under<br />
det øverste begreb, som vist i figur 6, hvor de nye begreber er indsat i et polyhierarki.<br />
FIGUR 6. Polyhierarki.<br />
Nu kan man se, at operating costs (driftsomkostninger) kan være enten direkte eller<br />
indirekte, mens initital costs (etableringsomkostninger) altid er direkte.<br />
På dette punkt i analysen m åtte vi overveje, om det også var sådan, at intangible<br />
cost (de vanskeligt m ålbare omkostninger) kunne kombineres med nogle af de andre.<br />
Findes der f.eks. intangible initial costs (vanskeligt målbare<br />
etableringsomkostninger)? Det kunne f.eks. være den ’m odstand mod forandringer’<br />
NORDTERM 2009, København 9.-12. juni 2009 244
som opstår, når nye rutiner og ny teknolog i indføres. Det taler for, at alle<br />
inddelingskriterierne skal helt op på øverste niveau, hvilket vil resultere i et m eget<br />
fladt begrebssystem med mulighed for at la ve mange polyhierarkiske kombinationer<br />
under det første niveau. I sådan et system kan intangible initial cost (vanskeligt målbar<br />
etableringsomkostning) indsættes, som vist i figur 7.<br />
FIGUR 7. Fladt system med polyhierarki.<br />
I figur 7 har vi kun taget de kom binationer med, som vi mener er relevante at tage i<br />
betragtning i forbindels e med en cost-benef it analyse af term inologiarbejde. F.eks.<br />
underinddeler vi ikke de vanskeligt målbare omkostninger i direkte og indirekte, da vi<br />
ikke mener, at det vil give bedre overblik over omkostningerne i praksis. Et eksempel<br />
på direct tangible initial cost (direkte m ålbar etableringsomskostning) kunne vær e<br />
installation af software til en te rmbase, mens en intangible initial cost (vanskeligt<br />
målbar etableringsomkostning) - som nævnt - kunne være ’modstand mod<br />
forandringer’.<br />
Systemet bliver lidt svært at over skue med de krydsende linier, m en det er udtryk<br />
for, at der i økonomisk samm enhæng bruges forskellige kriterier i forskellige<br />
sammenhænge. I nogle samm enhænge er det f. eks. mere relevant at se på, om en<br />
udgift gentages, end om det er etablering eller drift, nogle gange er det interessant at se<br />
på direkte omkostninger over for indirekte, m ens det andre gange i kke er relevant at<br />
skelne på denne måde.<br />
Som nævnt i starten var der en overvæl dende mængde af begreber bare for<br />
omkostninger (se tabel 1). Hvis de alle sammen kan sættes parvis op med forskellige<br />
inddelingskriterier som i figur 7, så tyder det på, at det er rigtigt at sige, at der er<br />
mange forskellige synsvinkler, og at m an i en given analyse vælger de inddelinger<br />
som er relevante. Som nævnt fandt vi ud af, at parret initial / operating også kunne<br />
benævnes recurring / non-recurring, og det er højst sandsynligt, at der er mange sæt af<br />
synonyme eller næsten-synonyme par. Man kan spekulere over, hvorfor der er denne<br />
overflod af termer – og dermed også begreber. En delvis forklaring blev fremført af en<br />
NORDTERM 2009, København 9.-12. juni 2009 245
af vores eksperter som udtalte: ”Alle forske re vil sige noget nyt. De laver lidt om og<br />
kalder det noget andet”.<br />
REVIDERET COST-BENEFIT MODEL<br />
Efter denne begrebsafklaring må vi modificere den oprindelige cost-benefit-model.<br />
De 6 kategorier fra figur 7 kan nu organise res som vist i tabel 2 i stedet for den<br />
oprindelige liste i modellen i figur 1. De omkostninger, der viser sig ved undersøgelser<br />
af terminologiarbejde i virksom heder og or ganisationer, kan vi så klassificere i<br />
tabellen.<br />
Costs<br />
TABEL 2. Klassifikation af omkostninger efter begrebsafklaring<br />
Tangible costs Intangible costs<br />
Direct costs Indirect costs<br />
Initial costs Direct tangible initial<br />
costs<br />
Tools<br />
Customizing<br />
Licenses<br />
Training courses<br />
Conversion of existing<br />
data<br />
Testing<br />
Operating<br />
costs<br />
Direct tangible operating<br />
costs<br />
Upgrades<br />
Maintenance<br />
Licenses<br />
Training courses<br />
Terminology work<br />
Indirect tangible initial<br />
costs<br />
Project management<br />
Indirect tangible<br />
operating costs<br />
Project management<br />
Derivative products<br />
(e.g. reports)<br />
Technical expertise<br />
Intangible initial costs<br />
Resistance to change<br />
Uncertainty<br />
Intangible operating<br />
costs<br />
Involvement of<br />
subject experts<br />
Den samlede cost-benefit model kommer så til at se ud som vist nedenfor i figur 8.<br />
Vi skal herefter også se, om der skal laves en lignende revision på benefitsiden.<br />
KONKLUSION<br />
I forbindelse m ed vores arbejde med cost -benefitanalyse af terminologiarbejde,<br />
blev det nødvendigt at lave en regulær te rminologisk begrebsafklaring, fordi nogle af<br />
termerne blev brugt i flæng, og for di der også dukkede en del term er op som lignede<br />
synonymer eller nærsynonym er. Og selv om det har kræ vet et større<br />
udredningsarbejde at blive sikre på begrebernes indhold, så viser det, at terminologisk<br />
ekspertise er et godt grundlag for at sætte sig ind i et ukendt emneområde.<br />
NORDTERM 2009, København 9.-12. juni 2009 246
FIGUR 8. Model for cost-benefitanalyse af terminologiarbejde.<br />
Den terminologiske metode til afklaring af begreber har m edført en detaljeret<br />
diskussion af begrebernes indhold til gavn for en videreudvikling af cost-ben efit<br />
analysen, men også i forhold til eksperternes bevidsthed om begrebernes indhold.<br />
Ved at bruge de ’strenge’ term inologiske nedarvningsprincipper har vi fået m ere<br />
klarhed over begreberne, og det har gjort de t muligt at lave en klassifikation på<br />
grundlag af et polyhierarkisk begrebssystem.<br />
I forbindelse med begrebsafklaringen blev nedarvning af karakteristiske træk brugt<br />
til at strukturere begreberne, og det gav en flad struktur m ed mulighed for m ange<br />
polyhierarkiske kombinationsbegreber svarende til de forskell ige synsvinkler, som<br />
eksperterne gav udtryk for. Det kunne derfor være interessant at undersøge, om der er<br />
en tilsvarende begrebsdannelse inden for a ndre dele af økonomisk terminologi – altså<br />
om det er et udtalt træk ved økonomisk sprog, at m an laver mange små variationer i<br />
betydning, som kun har lille betydning for økonomiske analyser.<br />
Cost<br />
Initial<br />
Operating<br />
Tangible Intangible<br />
Direct Indirect<br />
NORDTERM 2009, København 9.-12. juni 2009 247
Det er ikke alle begreber, der er relevante for en give n analyseopgave, og man skal<br />
ikke gøre det vanskeligere ved at forsøge at få så mange begreber med som muligt. På<br />
trods af de m ange omkostningsbegreber vi fa ndt, må vi konstatere, at det udvalg af<br />
begreber og derm ed inddelingskriterier, som 2 sproglige novicer udi cost-benef it<br />
analyser indledningsvis havde fundet frem til, har vist sig at være stort set<br />
anvendelige, når vi skal klassificere omkostninger i ”praksis”.<br />
Endelig var arbejdet med de konkrete om kostninger også en hjælp til at teste de<br />
polyhierarkiske underbegreber, f.eks. ved at se på om det var m uligt at finde<br />
eksempler på intangible initial costs (vanskeligt målbare etableringsomkostninger).<br />
Vi har endnu ikke set på, om vi kan bruge præcis den samme i nddeling i<br />
forbindelse med benefits (gevinster).<br />
Afslutningsvis vil vi gøre opm ærksom på, at vi stad ig er interesserede i at f å<br />
afprøvet modellen i praksis, og vi vil derf or gerne i kontakt m ed virksomheder, som<br />
vil indgå i et samarbejde om cost-benefit analyse af terminologiarbejde.<br />
ACKNOWLEDGEMENTS<br />
Vi vil gerne takke de forskere som har bi stået os m ed afklaringen af cost-benefitterminologien.<br />
Det drejer sig om Professor Niels Bjørn Ande rsen fra Copenhagen<br />
Business School; ph.d.-studerende Frederik Zachariasen og Profes sor Per Vagn<br />
Freytag, begge fra Syddansk Universitet.<br />
REFERENCER<br />
Guy Champagne Inc. (2004a). Portrait of Terminology in Canada. Report submitted to the Translation<br />
Bureau of Canada, Part I.<br />
Guy Champagne Inc. (2004b). The Economic Value of Terminology. Report submitted to the Translation<br />
Bureau of Canada, Part II and Summary.<br />
Grinsted, Annelise; Hanne Erdman Thomsen (2008). Cost-benefit Analysis of the Introduction and<br />
Implementation of a Terminology Management System. In: Madsen, B.N. and H.E.Thomsen (eds.):<br />
Managing Ontologies and Lexical Re-sources. Litera. ISBN: 87-91242-50-9. Pp. 317-332<br />
Holm-Rasmussen, Søren; Jens Ocksen Jensen; Lone Hansen (2005). Virksomhedsøkonomi til<br />
videregående uddannelser. Systime Academic, ISBN 87-7675-213-5.<br />
Wright, Sue Ellen (1996). Economic Issues of Terminology Management. In TermNet News 54/55, p. 4-<br />
10.<br />
NORDTERM 2009, København 9.-12. juni 2009 248
Automatic Extraction and Manual Validation of<br />
Hierarchical Swedish Patent Terminology<br />
Magnus Merkela, Jody Fooa, Mikael Anderssonb, Lars Edholmb, Mikaela<br />
Gidlundb, Sanna Åsbergb<br />
aDepartment of Computer Science and Information Technology, {magme,jodfo}@ida.liu.se<br />
bFodina Language Technology AB, {mikael.andersson, lars.edholm, mikaela.gidlund,<br />
sanna.asberg}@fodina.se<br />
Abstract. Several methods can be applied to create a set of validated terms from existing<br />
documents. In this paper we describe an a utomatic bilingual term candidate extraction<br />
method, and the validation process used to create a hierarchical patent terminology. The<br />
process described was used to extract terms from patent texts, commissioned by the Swedish<br />
Patent Office with th e purpose of using the terms for machine translation. Information<br />
on the correct linguistic inflection patterns and hierarchical partitioning of terms<br />
based on their use are of utmost importance.<br />
The process contains six phases, 1) Analysis of the source material and system configuration;<br />
2) Term candidate extraction; 3) Term candidate filtering and initial linguistic validation;<br />
4) Manual validation by domain experts; 5) Final linguistic validation; and 6)<br />
Publishing the validated terms. Input to the extraction process consisted of more than<br />
91.000 patent document pairs in English and Swedish, 565 million words in English and<br />
450 million words in Swedish. The English documents were supplied in EBD SGML<br />
format and the Swedish documents were supplied in OCR processed scans of patent documents.<br />
After grammatical and statistical analysis, the documents were word aligned. Using<br />
the word aligned material, candidate terms were extracted based on linguistic patterns.<br />
750,000 term candidates were extracted and stored in a relational database. The term candidates<br />
were processed in 8 months resulting in 181.000 unique validated term pairs<br />
which were then exported into several hierarchically organized OLIF files.<br />
INTRODUCTION<br />
Applying for a patent is a com plex process. Before applying for a patent, it is im -<br />
portant to research whether or not th ere already exists a conflicting patent. In the case<br />
of applying for European patents, this involves searching the patent databases of many<br />
different countries. The m ain obstacle for such a search is that all patents in such a<br />
database might not be available in the langua ge of the patent a pplicant. One way of<br />
solving this is to contact a local patent agency and acquire their service. However, this<br />
often implies additional costs, and almost certainly an increase in handling time.<br />
One solution to the lan guage barrier in the con text of patent search is to provide a<br />
cross-lingual search engine. Using a cross-li ngual search engine a patent stakeholder<br />
can perform a search using his or her own language, e.g. Swedish and find results<br />
from non-Swedish patent repo sitories. Furthermore the fo reign language patent text<br />
can be automatically translated into the language that was us ed for the search, in this<br />
case Swedish. For such a service to be made possible, the system needs to have a d ictionary<br />
containing translations of patent terms. These translations can be used either to<br />
translate the search query, and/or translate the patent texts in the foreign repositories.<br />
NORDTERM 2009, København 9.-12. juni 2009 249
This paper describes a proce ss of extracting and validating terms from a bilingual patent<br />
text corpus for use in Espacenet, a cross-lingual patent search system built by the<br />
European Patent Office. This paper starts of by introducing the area of patent texts,<br />
how they can be searched and who the different people are that search patent texts. We<br />
then describe the process that we developed and used to extract and validate hierarchically<br />
organized English-Swedish patent terms.<br />
BACKGROUND<br />
A validated bilingual patent terminology is a crucial component in cross-lingual patent<br />
search that uses a rule based machine translation system. As we cannot assume that the<br />
intricacies of the cross-lingual patent search domain are known to all readers, this section<br />
will provide some background on the topic.<br />
Patent texts<br />
Patent texts are classified and organized according to the IPC standard (W IPO 2005).<br />
In this standard, patents ar e grouped into sections, classe s and subclasses. A section<br />
contains several classes, which contain se veral subclasses. A c onsequence of this<br />
structure is that extracted term inology must also be hierarchically structured, in order<br />
to make sure that terms are used correctly in its intended section.<br />
The patent application<br />
To be granted a patent for a technical solution the invention must meet certain criteria<br />
(PRV 2009), it must be:<br />
new – the invention must not be known before you submit your patent<br />
application. The invention is considered known even if the inventor<br />
him/herself has published it.<br />
inventive – The invention m ust differ signifi cantly from what is already<br />
known.<br />
industrially applicable – the invention m ust be of a technical nature, have<br />
technical effect and be reproducible. The invention must not be just a theory<br />
but a product or a process; it must solve a problem in a technical way. It also<br />
has to be possible for others to repr oduce the invention and have the sam e<br />
results as from the original invention.<br />
A patent application must contain the following:<br />
A completed application form –the application for m must contain information of<br />
the invention’s title, the inventor and the applicant<br />
A description of your invention – The purpose of the description is to explain your<br />
invention. The description contains two part s; one general and one specific. In the<br />
general part, the applicant should present the field of application if the invention and<br />
the problem to be solved, along with the actual solution. In the specific part the appli-<br />
NORDTERM 2009, København 9.-12. juni 2009 250
cant should describe the invention in greater detail and give concrete examples of how<br />
it can be realized. The desc ription must be comprehens ive enough to enable a technical<br />
professional in the area to use the invention.<br />
One or more patent claims – the wording of the patent claims defines the invention,<br />
and is determining the scope of the patent pr otection. It is therefore very important to<br />
be accurate when writing the claims.<br />
An abstract – the abstract is written to summarize the technical content of the application<br />
and give an overview of the invention for interested parties.<br />
Drawings and appendices that further clarify the proposed invention can also be included.<br />
Patent search<br />
This section is an overview of relevant research and the status of patent search (novelty<br />
searches and patent examinations).<br />
Novelty searches<br />
Usually applicants choose to perform a novelty search of their invention, to see that<br />
the technical solution is not already known. It is common t o consult a specialist for<br />
performing the novelty search. Th e search specialist initially has to read the application<br />
(or the basis of the future applica tion) and understand the technological field.<br />
Then he/she starts to form a search expression used in different tools for searching in<br />
database collections. Because of the large am ount of information in the databases, the<br />
search queries will have to be refined during a number of iterations to find the relevant<br />
collections of documents relevant to the search.<br />
Patent examination<br />
When an application is filed to the patent office, the process of examining the application<br />
starts. A patent exam iner reads the applica tion to get the background of the field<br />
of the application. Then he/she starts perfor ming searches in the databases after other<br />
patents, articles or other non-patent literatu re to see if there are any docum ents that<br />
contradicts any of the three cr iteria for getting a patent granted. The process of patent<br />
examination is mainly the same as for novelty searches. The goal with patent examination<br />
is to make sure that there is nothing that prevents the patent from being granted.<br />
Espacenet<br />
A service has been created at the Eur opean Patent Office (EPO) in 1996 called<br />
Espacenet where anyone can search for patent in formation in several databases. They<br />
also have a m achine translation service for enabling people to search in their nativ e<br />
language, but find documents in other languages. To be able to do this in a good way,<br />
it demands that EPO has access to terms and their corresponding translation to English<br />
(which is the pivot language) and that is where the term extraction becomes important.<br />
An overview of the EPO/Espacenet translation system is given in Täger (2007).<br />
NORDTERM 2009, København 9.-12. juni 2009 251
Stakeholders<br />
In the “official” patent process, there are several stakeholders that are concerned by<br />
using terms in their work. Inventors often consult patent attorneys for writing the patent<br />
application. It is of high importance that the patent attorneys carefully choose<br />
their words, especially in the patent claim s since the scope of th e patent protection is<br />
defined there-in. In general, people who have their profession in the patent area have a<br />
good knowledge about terms, and the experience to know which term s are usable and<br />
which are not in a search query.<br />
The users o f Espacenet probably h ave a m ore shattered k nowledge base, and it<br />
seems more important to have an efficient terminology support tool to help the users<br />
of Espacenet to form good search expressions.<br />
CHALLENGES<br />
The task at hand was to extract and valid ate terminology from existing patent documents<br />
that existed in English and Swedish versions. These bilingual terms should then<br />
be produced in a form at that th e Machine Translation (MT) engin e used within<br />
Espacenet could handle, nam ely the Open Lexicon Interchange format (OLIF) an d<br />
contain entries in both directions, Eng lish-Swedish and Swedish-English. Furthermore,<br />
all term entries must be organized hierarchically according to the IPC system. A<br />
baseline already established was that for German around 120,000 unique term entries<br />
had been produced, which meant that this number was what was aimed for.<br />
THE PROCESS<br />
The process developed at Fodina Language Technology AB for extracting and validating<br />
terminology consists of six steps; source data analysis and system configuration,<br />
term candidate extraction, term candidate filtering and initial linguistic validation,<br />
manual validation by domain experts, final linguistic validation and publication of the<br />
validated terms. The process is visualized in Figure 1 below.<br />
NORDTERM 2009, København 9.-12. juni 2009 252
FIGURE 1. Process for term extraction and validation. Starting with patent documents and ending up<br />
with validated term entries in the OLIF format.<br />
All input data was provided as either SGML texts (for English) or as pure Latin-1<br />
texts for Swedish. The Swedish documents had been scanned OCR:ed by the Swedish<br />
Patent Office.<br />
Source data analysis and system configuration<br />
We analyzed the source data and configured the systems to the source data. In tota l<br />
there were over 91,000 docum ent pairs. The English SG ML texts were no rmalized<br />
into pure text format. The Swedish OCR f iles were processed to handle line breaks,<br />
standard hyphenation and page breaks. Furthe rmore, the Swedish texts were also prepared<br />
by automatic modification of frequent OCR errors.<br />
After the input texts had been norm alized, the whole docum ent set was sentence<br />
aligned, i.e., all texts were synchronized on the sentence level, to produce a parallel<br />
corpus. The corpus was created on the subc lass level which meant that a subcorpus<br />
was created for each su bclass. This was then the starting point for the next steps: 1)<br />
grammatical analysis and 2) statistical analysis and 3) patent dom ain training of word<br />
alignment.<br />
The grammatical analysis used to provide linguistic information, such as partsofspeech,<br />
base form and morpho-syntactic attributes, was done with the aid of Connexor’s<br />
Machinese Syntax system for English and Swedish respectively (Tapanainen<br />
& Järvinen 1997).<br />
The statistical analys is performed was done on the pa rallel material at both the<br />
word form level and at the base form level to provide probabilistic bilingual dictionaries<br />
that was used as input for the word alignment system.<br />
Before the automatic term extraction could take place, three patent subclasses were<br />
processed using the ILINK syste m (from Fodina and Linköping University – Ahren-<br />
NORDTERM 2009, København 9.-12. juni 2009 253
erg et al. 2003). By using ILINK which is an interactive word alignm ent system, a<br />
number of resources were created that furt her contributed to increasing the performance<br />
of the autom atic term extraction. Th ese resources created interactively were<br />
bilingual resources both on the lexical and th e syntactic level which would let the system<br />
be fine-tuned for the specific properties of patent translations between English<br />
and Swedish.<br />
A number of tests on how to configure the automatic word alignm ent system<br />
(ITRIX) were then performed where different combinations of system settings and use<br />
of resources were evaluated. This testing pha se then resulted in a default system configuration,<br />
which was then used for all the automatic extraction.<br />
Each subclass was then word aligned automatically using ITRIX, which resulted in<br />
word alignments of the input patent texts.<br />
Term candidate extraction<br />
After automatic word alignm ent of the bilingual subclasses using ITRIX, term candidates<br />
were extracted and stored in a datab ase. A sentence pair from the corpus is<br />
shown in Figure 2 below. The X’s in the m atrix show alignments between the English<br />
and the Swedish sentence. Two X’s on the sam e row means that a multiword unit has<br />
been aligned (for exam ple, living space-livsrummet and incubation environmentinkubationsmiljön).<br />
NORDTERM 2009, København 9.-12. juni 2009 254
FIGURE 2. Term extraction from word aligned material.<br />
NORDTERM 2009, København 9.-12. juni 2009 255
The boxed word units in Figure 2 are exam ples of what the term extraction component<br />
has decided to be term candidates. As can be seen, function words such as prepositions,<br />
articles and common verbs such as “provide” are no t regarded as term candidates.<br />
The term extraction component utilizes res ources such as general dictionaries and<br />
exception lists to determine what could be regarded as non-terms. This process is quite<br />
chosen to be rather non-strict, as we are still only concerned with term candidates, not<br />
the final term sets. The final decision on wh at should be a term has to be decided in<br />
the next step.<br />
But before validation can start, all term candidate pairs are imported into a<br />
relational database where all grammatical information and examples from the corpus<br />
are kept.<br />
Term candidate filtering and initial linguistic validation<br />
Before domain experts are called in to va lidate the term candidates, term candidates<br />
that do not fulfill certain requirements are filtered out in the database. Gradually, during<br />
the linguistic validation, errors in the automatic word alignment were collected and<br />
tagged which meant that this information could be used as resource for filtering out<br />
faulty term candidate pairs.<br />
As manual validation is a costly pr ocess, the goal of this stage is to re move term<br />
candidates from the work set so that the m anual validation process can be as efficient<br />
as possible. The way we rem oved term candidates from the work set to be passed to<br />
the domain experts was to set up four criteria for all term candidates to be passed on:<br />
• Term candidates must not be general language<br />
• Term candidates must not be erroneously aligned<br />
• Term candidates must have a source or target frequency above 4<br />
• Term candidates must have a Q-value above a subclass-specific threshold<br />
Deciding whether or not a word is general language or domain specific is a difficult<br />
question and cannot be done perfectly by a co mputer. In our case the goal was to remove<br />
as much general language as possible, but not too m uch. To do this we used a<br />
custom dictionary to remove the term candidates that were most likely to be gener al<br />
language. Using information on previous alignm ent errors and the work done during<br />
the linguistic validation, term candidates containing alignment errors could be removed.<br />
Also, term candidates were required to have a corpus frequency (either source<br />
or target word) of five or more within its subclass. The final requirement is for the<br />
alignment confidence, called Q-value, to be above a threshold set by the project managers<br />
for each clas s/subclass. For a m ore detailed description of how t he Q-value is<br />
used, see Merkel & Foo 2007). Here are som e numbers from the filtering process of<br />
subclass C04B. Note that the num ber term candidates that m atch each criterion are<br />
listed independently of whether or not they also match other criteria. • Total number of<br />
term candidate pairs extracted: 143,341<br />
• General language entries removed: 18,764<br />
NORDTERM 2009, København 9.-12. juni 2009 256
• Link errors removed: 653<br />
• Freq >4 src|trg: 9,064<br />
• Q-value filtering: keep 4,076 (q-val>1.9)<br />
• Total after filtering: 3,179<br />
As you can see, the criterion which is the ha rdest to pass is the Q-value threshold. Only<br />
4,076 term candidates pass this test, or in other words, 139,265 term candidates<br />
were rejected because of this criterion. The combination (not the sum) of the different<br />
criteria leaves us with 3,179 term candidates for the domain experts to validate.<br />
Manual validation by domain experts<br />
Rather than using professiona l domain experts, such as university lecturers, patent<br />
engineers from each domain, etc., which would have b een optimal, we chose to use<br />
university students from the various fields to validate the term candidates. What the<br />
expert validation meant in practice was that the domain experts either accept the term<br />
candidate as a term that belongs to the domain, or reject the term candidate as it is not<br />
specific to the domain.<br />
For each term candidate the domain expert also had access to the English and Swedish<br />
text passages from which the term s had been extracted. The basic task was then<br />
provide a simple Yes or No to the question on whether the term pair belonged to the<br />
domain of the particular subclass.<br />
Final linguistic evaluation<br />
After the dom ain experts have reje cted all inap propriate term candidates, additional<br />
linguistic metadata such as inflection patterns were added to the validated terms before<br />
they were published. The final linguistic validation also included m anual scrutiny of<br />
part-of-speech, gender and number.<br />
As this validation is a very tedious and time-consuming process, several steps were<br />
taken to make the final validation as efficient as possible. One such step was to develop<br />
a process that captures the corrections made by the linguistic validators. These decisions<br />
(e.g. for the term pair X and Y, corr ect Y to W) are then reused, i.e. reapp lied<br />
to similar term pairs (i.e. term pair X and Y in another s ubclass). These automated<br />
corrections however, do not automatically get promoted to “validated”, but are instead<br />
marked as “automatically corrected”. Depending on the source of the correction data,<br />
the correction was also marked as “very reli able” or “less reliable”. Correction data<br />
from the same IPC class was deemed to be more reliable than e.g. correction data from<br />
another section. In most cases the automatic correction is valid, and the human in the<br />
loop only has to accept the correction as opposed to actually making the correction.<br />
To assist the final linguist ic validation, Fodina TermVi ewer was specifically designed<br />
for this task. Fodina Term Viewer is an environm ent for revising term candidates<br />
before final publishing of the terms. A screenshot from Fodina TermViewer as it<br />
was used during the final linguistic validation is shown in Figure 3 below.<br />
NORDTERM 2009, København 9.-12. juni 2009 257
FIGURE 3. Fodina TermViewer for Final linguistic validation.<br />
The Fodina TermViewer application gives the linguistic validator inform ation on<br />
the source term, target term, head words, part-of -speech, inflection patterns, morphosyntactic<br />
information as well as on if the term pair information has been recycled in<br />
any way. In the lower panel, contexts for the term pairs in the patent documents are<br />
NORDTERM 2009, København 9.-12. juni 2009 258
also available. By selecting the butto n at the lower right-hand corner labeled “Ready<br />
for Export”, the validator has approved the term pair.<br />
Publishing the validated terms<br />
After the final linguistic validation, the terms can be published as a set of hierarchically<br />
structured OLIF lexicon files. The OL IF lexicon files were produced in two directions;<br />
one set for English to Swedish and one set for Swedish to English.<br />
Each subclass of the IPC standard is f illed with the validated terms, and then terms<br />
from subclasses belonging to a class are propa gated to the class leve l dictionary. This<br />
goes on up to the section level, and then to a default top dictionary level as depicted in<br />
Figure 4 below.<br />
FIGURE 4. Building hierarchical OLIF lexicons with patent terms.<br />
RESULTS<br />
After 8 months work, the complete term extraction and validation was finalized. More<br />
than 91,000 document pairs had then been processed from clean-up to final validation,<br />
providing more 181,260 unique term pairs.<br />
Most of the process was fully autom atic; clean-up, sentence-alignm ent, tagging,<br />
statistical analysis, word alignment and term candidate pair extraction.<br />
The time-consuming and mostly intense phase was of course the validation phase,<br />
but thanks to efficient and user-friendly environments like the Term Viewer, the linguistic<br />
and dom ain expert validation could be done e fficiently. The way that<br />
TermViewer was designed in order to gi ve maximal overview and also by providing<br />
keyboard shortcuts (instead of using graphi cal buttons) also increased the efficiency<br />
during the course of the projec t. At the end of the project w e estimate that an expert<br />
doing domain validation processed between 4, 000 and 6,000 term candidate pairs per<br />
NORDTERM 2009, København 9.-12. juni 2009 259
working day. Expert validation is an easier ta sk than linguistic validation as it is binary,<br />
it only required a Yes or a No. For linguistic validation we estim ate that a linguist<br />
processed between 2,000 and 3,000 term pairs per working day. The way that linguistic<br />
information was reused and tagged considerably made this performance possible.<br />
In Table 1 below, the progress of the project is illus trated. We started off with the<br />
smaller sections D, E and F, in order to build up efficient strategies to handle the logistics.<br />
The co lumns give inform ation of how large each section was in the Eng lish-<br />
Swedish corpus; the D, E and F sections together made up 12 per cent of the total document<br />
set, whereas section C alone was over 28 per cent of the total document set.<br />
TABLE 1. Size of IPC sections and number of accumulated extracted term pairs<br />
As can be seen in Table 1, the grow th of validated unique term pairs actually is m ore<br />
or less proportional to the size of the sections. This is shown clearer in the graph de -<br />
picted in Fig. 5 below.<br />
NORDTERM 2009, København 9.-12. juni 2009 260
FIGURE 5. Growth of validated term pairs in relation to total size of source documents.<br />
The fact that the growth of the number of validated term pairs is more or less linear<br />
is maybe somewhat surprising. Before embarking on this project we had expected that<br />
it would be harder and harder to detect “new” unique term pairs.<br />
DISCUSSION<br />
This paper has presented an efficient and l ogistically feasible approach extracting and<br />
validating terminology for a large area. The goal was to create a validated terminology<br />
base to be used in machine translation and this means that one does not have to deal<br />
with creating terminological concepts. Another difference from more traditional use of<br />
terminology is that the term bank is not normative or standardized. Only the m ost frequent<br />
terms have survived the extraction a nd validation stages described earlier. Although,<br />
a large number of terms have been produced, this is still only the tip of the iceberg<br />
when it comes to terminology used in patent texts. 181,000 unique term pairs is a<br />
large set of terms, but as terms with lower frequency and only the most frequent translation<br />
is kept, it is obvious that there are many more terms that could be extracted from<br />
this material, but it is a very good start. Th ere are of course bits that could be im -<br />
proved in the process but we regard the key<br />
benefits of this approach as the way we r ecycled information from previously validated<br />
term pairs, using students as dom ain experts and the developm ent and use of an<br />
efficient validation tool. An area that obviously could need more research is the automation<br />
of improved term filtering.<br />
ACKNOWLEDGMENTS<br />
NORDTERM 2009, København 9.-12. juni 2009 261
We would like to thank the people at the Swedish Patent Office (PRV), especially Leif<br />
Stolt, for excellent cooperation. We are also grateful to everybody at the European<br />
Patent Office who assisted us with OLIF and formal information. Finally, thanks to all<br />
the experts who helped us during the domain validation.<br />
REFERENCES<br />
Ahrenberg, L., Merkel, M., Petterstedt M. (2003). Interactive Word Alignment for Corpus Linguistics.<br />
In Proceedings from the International Conference of Corpus Linguistics, (pp. 533-542). Lancaster.<br />
Merkel, M., Foo, J. (2007). Terminology extraction and term ranking for standardizing term banks. In:<br />
Proceedings of the 16th Nordic Conference of Computational Linguistics, NODALIDA-07: May<br />
25-<br />
26 2007; Tartu; 2007: 349-354.<br />
PRV (2009). Patent- och registreringsverket (PRV, The Swedish Patent Office). http://www.prv.se/en<br />
(accessed 2009-10-01).<br />
Tapanainen, P., Järvinen, T. (1997). A non-projective dependency parser. In Proceedings of the 5th<br />
Conference on Applied Natural Language Processing, April 1997, Washington, D.C., Association<br />
of<br />
Computational Linguistics, pp. 64-71.<br />
Täger, W. (2007). European Machine Translation Programme. Presentation given at the Machine<br />
Translation Summit XI, Copenhagen September 11-14, 2007.<br />
WIPO 2005. World Intellectual Property Organization, International Patent Classification (IPC),<br />
Eighth Edition WIPO Publication Number 560/8, 2005.<br />
NORDTERM 2009, København 9.-12. juni 2009 262
ONKI-ontologibiblioteket: tjänster för<br />
upprätthållare, indexerare och<br />
informationssökare<br />
Katri Seppälä a , Eero Hyvönen b , Jouni Tuominen b och Kim Viljanen b<br />
a Terminologicentralen TSK och SeCo-gruppen (Semantic Computing Group) ,Tekniska högskolan, laboratoriet för mediateknik, fornamn.efternamn@tsk.fi<br />
b SeCo-gruppen (Semantic Computing Group), Tekniska högskolan, laboratoriet för mediateknik, fornamn.efternamn@tkk.fi<br />
Abstrakt. Ontologier behöver tjänster som underlättar deras användning och ett<br />
ontologibibliotek är för sin del nyttigt bara om det innehåller systematiska ontologier som<br />
uppfyller användarnas krav. För att främja användning av ontologier behövs alltså en modell för<br />
ontologiernas struktur och en metod för publicering av ontologier. I vår artikel kommer vi att<br />
diskutera hur ett ontologibibliotek kan användas av upprätthållare, indexerare och<br />
informationssökare och hur ontologier och ontologibiblioteket indirekt och direkt underlättar<br />
informationssökningen.<br />
FinnONTO 2.0-projektet<br />
Projektet Finska semantiska webbens ontologier (FinnONTO) pågick 2003–2007,<br />
och nu fortsätter arbetet i ett nytt projekt FinnONTO 2.0 (2008–2009). Projektet<br />
koordineras av professor Eero Hyvönen från Tekniska högskolan i Esbo, Finland, och<br />
dess forskningsgrupp består av cirka 20 forskare. Projektets huvudfinansiär är Tekes<br />
(utvecklingscentralen för teknologi och innovationer) och projektet har 38 deltagare,<br />
som är organisationer från olika specialområden: biblioteksväsen, informationsteknik,<br />
kartografi, kommunikation, litteratur, museiverk, social- och hälsovård,<br />
språkteknologi, terminologi, undervisning, metallindustri och maskinindustri.<br />
Projekten har redan producerat flera finska ontologier som är strukturerade efter en<br />
gemensam modell. Ontologierna har publicerats med hjälp av ONKIontologibiblioteket<br />
1 och de används till exempel i två portaler som forskningsgruppen<br />
har byggt upp: hälsoinformationsportalen TerveSuomi 2 och<br />
kulturinformationsportalen Kulttuurisampo 3<br />
. Det nuvarande projektet avslutas i slutet<br />
av år 2009 men en fortsättning på projektet är under planering.<br />
FinnONTO-ontologier<br />
I detta sammanhang hänvisar ordet ontologi till en exakt definiering av ett visst<br />
begreppssystem i en maskinläsbar form. TSK har i FinnONTO-projekten deltagit i<br />
uppbyggandet av den Allmänna finska ontologin, som baserar sig på den Allmänna<br />
1 http://www.yso.fi/<br />
2 http://www.tervesuomi.fi/<br />
3 http://www.kulttuurisampo.fi/<br />
NORDTERM 2009, København 9.-12. juni 2009 263
tesaurusen på finska, och kompletteringen av den allmänna ontologin med<br />
specialontologier. FinnONTOs specialontologier bygger på följande tesaurusar och<br />
ordlistor: Allmän tesaurus på finska, Ordlista för museibranschen, Ordlista för<br />
fotografi, Tesaurus för design och kommunikation, Agriforest-tesaurus, Tesaurus för<br />
hälsofrämjande, Tesaurus för sjöfartsbranschen, CILLA-specialtesaurus för musik och<br />
Bella-specialtesaurus för fiktivt material. Den enhetliga hierarkin, som används i alla<br />
FinnONTO-ontologier, är uppbyggd enligt en modell som skapades för den Allmänna<br />
finska ontologin. I motsats till tesaurusar och ordlistor har homonymer och polysemer<br />
åtskiljts och partitiva relationer tillagts i ontologierna. Dessa ontologier är lämpliga för<br />
samma användningsändamål som tesaurusar: indexering och sökning av olika slags<br />
material (t.ex. textdokument, bilder, föremål, musik). Däremot är ontologierna för<br />
inexakta för dataöverföring även om systematiken är bättre än i tesaurusar.<br />
ONKI-ontologibibliotekET<br />
Professor Eero Hyvönen, Jouni Tuominen och Kim Viljanen från FinnONTOgruppen<br />
har koncentrerat sig på utvecklingen av ONKI-ontologibiblioteket. ONKIontologibiblioteket<br />
är en server, där flera ontologier kan lagras, upprätthållas och<br />
användas och som erbjuder tjänster för flera användargrupper.<br />
BILD 1. ONKI-bläddrare.<br />
NORDTERM 2009, København 9.-12. juni 2009 264
ONKI för upprätthållare<br />
För upprätthållare ger ONKI en möjlighet att upprätthålla kombinerade ontologier,<br />
inte enbart upprätthållarens egen ontologi. Kombinerade ontologier kan bestå av<br />
ontologier med en gemensam struktur, t.ex. KOKO-ontologin, eller ontologier med<br />
olika strukturer, t.ex. den Allmänna finska ontologin och WordNet 4<br />
.<br />
Forskningsgruppens egen kombinerade ontologi KOKO har redan publicerats. Den<br />
innehåller flera av FinnONTOs specialontologier. Det finns planer att komplettera den<br />
Allmänna finska ontologin med ekvivalensrelationer till WordNets begrepp. Eftersom<br />
begreppen i ontologin har definierats med hjälp av relationer till näraliggande begrepp,<br />
är det möjligt att ge exakta ekvivalenter på olika språk. Dessutom är det möjligt att<br />
koordinera upprätthållandet av ontologierna eftersom alla upprätthållare har<br />
gemensamma regler för gemensamma strukturer, alla intresserade får information om<br />
ändringar och information om de äldre versionerna av ontologierna kan behållas på<br />
servern. Speciellt för små organisationer är det av stor hjälp att kunna utnyttja de<br />
centraliserade resurserna för maskinvara (en gemensam server) och användarstödet för<br />
de registrerade användarna. Det går också att integrera ONKI med andra system (för<br />
sökning och indexering) med hjälp av ett web service-gränssnitt.<br />
ONKI för indexerare<br />
ONKI-ontologibiblioteket underlättar en indexerares arbete eftersom det erbjuder<br />
en möjlighet att indexera med hjälp av en kombination av ontologier och därför<br />
behöver man inte längre söka i flera separata tesaurusar. I ONKI är det lätt att välja<br />
vilka ontologier man vill använda och det rätta begreppet kan hittas snabbt i den valda<br />
ontologin med hjälp av auto completion-funktionen. Auto completion-funktionen visar<br />
alla ord med den teckensträngen som har skrivits i sökfältet, om ett sådant begrepp<br />
finns i de valda ontologierna. När man klickar på det önskade indexeringsordet<br />
överförs informationen om begreppet (benämningen och URI) till det andra systemet<br />
som ONKI är integrerat med utan att man behöver kopiera och klistra in texten.<br />
Ontologins hierarki gör det lätt att välja det rätta och exakta begreppet vid indexering<br />
och då blir indexeringen enhetligare även om flera personer tar hand om den.<br />
Indexeringen blir också enklare eftersom det behövs endast ett indexeringsord per en<br />
hierarki, därför att ontologin innehåller information om över- och underordnade<br />
begrepp.<br />
ONKI för informationssökare<br />
Ontologierna och ontologibiblioteket möjliggör begreppsbaserad sökning. När man<br />
använder auto completion-funktionen som är kopplad till ontologin, är det inte möjligt<br />
att välja sökord som inte finns i ontologin. Ontologibiblioteket ger också en möjlighet<br />
att använda nya sökmetoder och formulera sökresultatet. Sökbegreppets hierarkiska<br />
underbegrepp används automatiskt i sökningen, men sökresultatet formuleras så att de<br />
sökträffarna som hittades med det exakta sökbegreppet visas först. Dessutom kan de<br />
4 http://wordnet.princeton.edu/<br />
NORDTERM 2009, København 9.-12. juni 2009 265
avrådda indexeringsorden användas vid sökningen. Vid sidan av sökträffarna kan<br />
ONKI ge rekommendationer om andra potentiellt intressanta objekt genom att<br />
använda de överordnade begreppen till sökbegreppet och begrepp som har associativa<br />
relationer till sökbegreppet (t.ex. om man söker information om arbetsredskap, är man<br />
kanske också intresserad av arbetskläder). Om ontologin är flerspråkig är det möjligt<br />
att byta mellan olika språk vid sökningen.<br />
I ett icke-semantiskt söksystem ska beskrivningen av ett föremål, dokument eller<br />
liknande innehålla exakt de indexeringsord som används vid sökningen – annars hittar<br />
man dem inte. Men om söksystemet utnyttjar ontologier räcker det att beskrivningen<br />
innehåller ett indexeringsord som hänvisar till ett underordnat begrepp till sökordet.<br />
Till exempel om man använder kärl som sökbegrepp, hittar man också föremål som<br />
har beskrivits med indexeringsorden kopp eller fat. Eller om man söker kärl som har<br />
tillverkats i Europa, hittar man kärl, som har tillverkats i Tyskland. På motsvarande<br />
sätt hittar man porslin, när man söker efter keramik.<br />
Eftersom det inte är lätt att snabbt ersätta de existerande IT-systemen är det viktigt<br />
att det är lätt att integrera ONKI med andra system. Då kan ontologierna tas i bruk<br />
även i de existerande systemen. För integrering av ONKI behövs bara cirka två rader<br />
Javascript-kod, vilken tillsammans med övriga instruktioner ligger på SeCo-gruppens<br />
webbplats 5<br />
. Integreringen har demonstrerats med Kantapuu-systemet (Stamträdet),<br />
som är en finskspråkig databas för samlingar som är gemensamma för ett flertal<br />
museer, t.ex. Lusto - Finlands skogsmuseum. Museerna ville inte ändra Kantapuusystemet<br />
men ville använda ontologierna vid sökning för att öka uppfångningen. Efter<br />
integreringen av ONKI-ontologibiblioteket i Kantapuu-systemet, breddas sökningen<br />
med hjälp av de underordnade begreppen till sökbegreppet. Skillnaden i<br />
uppfångningen är betydelsefull. Om man använder sökbegreppet<br />
työvälineet/arbetsredskap och söker med hjälp av ONKI, används också det<br />
underordnade begrepp till sökbegreppet, t.ex. sahat/sågar, och man får 4900<br />
sökträffar. Utan ONKI blir det bara 3509 sökträffar. Eftersom ontologin som används i<br />
systemet är tvåspråkig, kan man vid sökningen använda finska eller svenska sökord,<br />
även om indexeringen endast är gjord på finska. Också den Finska ortontologin med<br />
tidsperspektiv (SAPO) används i samband med Kantapuu och den hjälper att hitta<br />
information relaterad till orter trots kommunalsammanslagningar och förändringar av<br />
gränserna under tiden. Om man till exempel söker publikationer som har använts i<br />
Joensuu, får man som sökresultat publikationer som har Eno som användningsort.<br />
Grunden för resultatet är att ONKI använder också ortsnamnet Eno i sökningen<br />
eftersom Eno nuförtiden hör till Joensuu och information om denna<br />
kommunsammanslagning ingår i ontologin. Om informationssökaren inte är medveten<br />
om kommunsammanslagningen kan resultat först se förvirrande ut. Efter att ha kollat<br />
relationen mellan Joensuu och Eno märker man dock att ibland kan ontologierna eller<br />
söksystemet veta mer än personen som använder systemet.<br />
5 http://www.yso.fi/onkiselector/<br />
NORDTERM 2009, København 9.-12. juni 2009 266
BILD 2. Kantapuu-systemet som använder ONKI-ontologibiblioteket.<br />
AVSLUTNING<br />
Under de senaste åren har intresset för ontologierna varit stort. När antalet<br />
ontologibaserade system ökar, blir det lättare att demonstrera och å andra sidan förstå<br />
nyttan av ontologierna i olika sammanhang. Eftersom arbetet med ontologier är<br />
tidskrävande hoppas vi att vi hittar organisationer som efter forskningsprojekten tar<br />
ansvaret för upprätthållandet av FinnONTOs ontologier och tjänster så att de är fritt<br />
tillgängliga för alla intresserade också i framtiden.<br />
Vi tackar Tekes (utvecklingscentralen för teknologi och innovationer) och de 38<br />
deltagande organisationerna för finansiering av FinnONTO-projekten.<br />
REFERENCER<br />
Eero Hyvönen, Kim Viljanen, Jouni Tuominen and Katri Seppälä: Building a National Semantic Web<br />
Ontology and Ontology Service Infrastructure--The FinnONTO Approach. In Proceedings of the European<br />
Semantic Web Conference (ESWC 2008), Springer-Verlag, 2008.<br />
Jouni Tuominen, Matias Frosterus, Kim Viljanen and Eero Hyvönen: ONKI SKOS Server for<br />
Publishing and Utilizing SKOS Vocabularies and Ontologies as Services. In Proceedings of the 6th<br />
European Semantic Web Conference (ESWC 2009), Springer-Verlag, 2009.<br />
Jouni Tuominen, Tomi Kauppinen, Kim Viljanen and Eero Hyvönen: Ontology-Based Query Expansion<br />
NORDTERM 2009, København 9.-12. juni 2009 267
Widget for Information Retrieval. In Proc. of Scripting and Development for the Semantic Web<br />
Workshop at the ESWC, Heraklion, Greece, May 31, 2009, CEUR Workshop Proceedings, ISSN<br />
1613-0073, online CEUR-WS.org/Vol-449/, 2009.<br />
Kim Viljanen, Jouni Tuominen and Eero Hyvönen: Ontology Libraries for Production Use: The Finnish<br />
Ontology Library Service ONKI. In Proceedings of the 6th European Semantic Web Conference<br />
(ESWC 2009), Springer-Verlag, 2009.<br />
NORDTERM 2009, København 9.-12. juni 2009 268
Etablering af termbase over dragt- og<br />
tekstilbegreber<br />
a<br />
a,b<br />
Susanne Lervad<br />
Termplus Aps, Symbion Science Parc, Fruebjergvej 3<br />
2100 København Ø www.termplus.dk; sl@termplus.dk<br />
.<br />
b<br />
CRTT, Centre de Recherche en Terminologie et Traduction,<br />
Université Lyon86, rue Pasteur, F-69365 Lyon Cedex<br />
Abstract. Digitalisering: “Et klik på internettet – og De har svaret på hvad f.eks. en<br />
dullemøsse er. Det vil de danske museer have sikret om et par år med en digital ordbog over<br />
gamle udtryk og betegnelser for klædedragt og tekstiler. En dullemøsse er for øvrigt en hvid<br />
blondebesat hovedbeklædning for fine kvinder fra 1600- tallet”.<br />
Ny ordbog om gamle klæder<br />
Som medlem af Dragtpuljen under Kulturarvstyrelsen og som terminolog i arbejdsgruppen<br />
for ordbogsdatabasen i denne pulje, vil jeg forsøge at beskrive baggrunden for dette<br />
ordbogsprojekt, som arbejder med at sikre en autoriseret terminologi for dragter og tekstiler<br />
på de danske museer.. Baggrunden for samarbejdet er et ph.d. projekt om tekstilterminologi<br />
SDU og arbejdet med terminologi på forskningscentret CRTT ved universitetet I Lyon, samt<br />
tekstilmuseet og det internationale modeuniversitet i Lyon.<br />
Siden 2003 har jeg desuden arbejdet med udviklingen af termdatabase programmet<br />
Termplus Manager, der også er rettet til gruppens arbejde.<br />
En lang række danske museer har samlinger af historiske dragter og tekstiler, og i<br />
registreringen af disse er der anvendt forskellige ord, der betyder det samme, men som<br />
skifter over tid. Det er ikke hensigtsmæssigt i hverken forskning eller formidling, og derfor er<br />
der et stort arbejde i gang med at etablere en fælles database over dragt- og tekstiludtryk fra<br />
1600-tallet og fremefter.<br />
Projektets overordnede formål er dels at bevare den immaterielle kulturarv, som dragt- og<br />
tekstiludtrykkene er, og dels at gøre udtrykkene og deres betydning tilgængelige for alle<br />
interesserede via en database på internettet.<br />
NORDTERM 2009, København 9.-12. juni 2009 269
Tekstiludtryk er en vigtig kulturarv, som bør bevares. Nye generationer må kunne hente<br />
inspiration ikke kun i museernes tekstilsamlinger, men også i en videnbank med oplysninger<br />
om gamle tekstiludtryk.<br />
Museerne har i de senere år oplevet en stigende interesse for tidligere tiders dragter og<br />
tekstiler og dermed også for de udtryk, som knytter sig hertil. En orddatabase vil være et<br />
meget anvendeligt arbejdsredskab for alle, som beskæftiger sig med dette område, for<br />
eksempel håndarbejdsstuderende, universitetsstuderende, og forskere. Databasen vil også<br />
være til stor hjælp i museernes registreringsarbejde. Den vil sikre en mere ensartet<br />
terminologi, ligesom den vil være et vigtigt supplement til museernes arbejde med<br />
forespørgsler og formidling. Orddatabasen bliver en digital videnbank tilgængelig for alle, og<br />
den vil kunne give svar, hvor ordbøger og leksika i dag er utilstrækkelige.<br />
Arbejdsgruppen om ordbogen blev nedsat i 2004. Siden da har den arbejdet frem mod at<br />
registrere dragtterminologi, men da termer ændrer betydning over tid, betyder det f.eks. at<br />
kun folk over en vis alder vil kende det udgåede ord. Det er også planen at inkorporere andre<br />
projekter vedrørende historiske ord/termer inden for området dragt og tekstil i DK i det<br />
samlede arbejde.<br />
Et af målene med arbejdet er at registrere ud fra en præcis og autoriseret terminologi. F.eks.<br />
gælder det for termen giraftrusser at folk af en anden og yngre alder vil kende betegnelsen<br />
gamacher som et almindeligt udtryk, og nu ser vi alle betegnelsen leggings i stormagasiner<br />
og tøjforretninger.<br />
Fra starten ville arbejdsgruppen også have kildehenvisninger i orddatabasen, fordi det ville<br />
gøre den mere frugtbar som arbejdsredskab for alle. Dette niveau blev senere suppleret med<br />
et litterært niveau med citater, der bedre end mange forklaringer kunne vise den måde,<br />
termerne på et vist tidspunkt var blevet anvendt. Det ville kunne give dem både et tidsaspekt<br />
og et aspekt af termers brug i forskellige sociale niveauer og sammenhænge.<br />
Tidligt i arbejdet var der enighed om hvilke elementer der burde indgå i databasen:<br />
Dragtdele og dragtens enkelte elementer, materialer, teknik, historisk dimension, stil og de<br />
faglige tilgange.<br />
Men før det kunne realiseres var der mange debatter om struktur og eksperimenter med<br />
databasesystemer, der skulle gennemleves. Danmarks Center for Tekstilforskning på<br />
NORDTERM 2009, København 9.-12. juni 2009 270
Københavns Universitet koordinerede arbejdsgruppens ønsker om databasens elementer.<br />
Hvad databasen skal have af muligheder, blev i Termplus Manager omsat til fire<br />
sammenknyttede baser med indbyrdes søgemuligheder. Det blev til følgende klassifikation af<br />
begreberne i dragt og tekstildatabasen:<br />
1) Tekstiler og fremstillingsteknikker<br />
2) Dragter og dragtdele<br />
3) Dekoration og dekorationsteknikker<br />
4) Talemåder<br />
Kilderne til termbasen er kendte museumsfolk og forskeres opbyggede seddelkartoteker af<br />
Margrethe Hald. Ellen Andersen, Erna Lorenzen og Else Østergaard. Arbejdet med ar<br />
gennemgå selve ordene er påbegyndt med udgangspunkt i Erna Lorenzens seddelkartotek,<br />
som er yderst grundigt og systematisk.<br />
Det er gruppens mål at gøre ordene aktive netop ved at lade dem være offentligt<br />
tilgængelige på internettet forsynet med kildebelagte ordforklaringer, variationsmuligheder i<br />
staveformer, systematisering i typer og et litterært niveau med citater, der placerer ordene i<br />
tid og sted. Det er også målet at alle ord skal forsynes med illustrationer – gerne fra de<br />
danske muséers samlinger.<br />
Her følger nogle eksempler på definitioner af tekstiltermer og hvordan grundbegreber inden<br />
for vævning optræder i arbejdet med tekstilterminologi. Der kommer også eksempler på<br />
synonymi og ortografiske varianter.<br />
Grundelementer for en vævning er<br />
Binding: Vinkelret krydsning af lodret gående (kæde/skudtråde) og vandret gående tråde<br />
(skud/islættråde) udført efter tælleprincip for hvilke tråde, der skal hæves og sænkes for den<br />
mest enkle binding kan fremkomme<br />
NORDTERM 2009, København 9.-12. juni 2009 271
Bindingspunkt: Skuddet lægger sig ovenpå kæden eller går under, og der opstår derved en<br />
sammenfletning af to vinkelrette tråde.<br />
Rapport : mindste gentagelse af binding og dermed mindste gentagelsesenhed.<br />
Der findes tre grundbindinger og det er grundbegreberne i vævning og alt efter om man<br />
befinder sig i en håndværksmæssig eller industriel tilgang hedder de længdegående tråde<br />
trend eller kæde og de tværgående tråde islæt eller skud.<br />
Men så klar en skelnen er langtfra altid tilfældet i terminologi for feltet.<br />
De tre grundbindinger i vævning : lærred, kiper og satin kan også nemlig også betegnes:<br />
Lærred/toskaftsbinding<br />
Kiper/köper/kipper<br />
Satin/firskaftsbinding/atlask<br />
Traditionelt har terminologi som disciplin stræbt imod at undgå synonymi, men spørgsmålet<br />
er om det i en offentligt tilgængelig base er hensigtsmæssigt at reducere synonymi. Netop<br />
den brede skare af brugere af sådan en base ville have glæde af at kunne søge med<br />
ortografiske varianter som. f.eks. kiper/kipper eller med synonymi i skud/kæde eksemplet,<br />
der afspejler henholdsvis en industriel og en håndvæksmæssig sammenhæng.<br />
Termplus Manager systemet er derudover tilpasset til at kunne notere hvad der er den<br />
foretrukne term (t) og hvad der er synonym (s), sådan at der i en form for tragtmodel kan<br />
fremkomme en avanceret søgning med resultater med mange synonymer, men samtidig<br />
også en udvælgelse af den mest gængse term hvis en sådan findes.<br />
Derudover er det meningen, at der skal inddrages illustrationer i basen, som netop tydeliggør<br />
begreberne og medfører at lange tekstforklaringer ikke er<br />
NORDTERM 2009, København 9.-12. juni 2009 272
så nødvendige.<br />
Et andet eksempel med synonymi er grundbindingen lærred:<br />
Definition: ”En av de tre grundbindingarna. Rapporten består av två varp- och två<br />
inslagstrådar. Varje inslagstråd går växelvis över en och under en varptråd.”<br />
Kilde: Nordisk Textilteknisk Terminologi, s. 44<br />
Svensk: tuskaftsbindning; lärftsbinding<br />
Norsk: toskaftsbinding, lærredsbinding<br />
Dansk:. toskaftsbinding, lærredsbinding<br />
Engelsk: tabby<br />
Fransk:. taffetas, toile<br />
Tysk: Leinwandbindung<br />
Lærred kan illustreres på flere måder og her kommer blot én af muligehderne<br />
NORDTERM 2009, København 9.-12. juni 2009 273
FIGUR 1.<br />
En anden mulighed er en diagramform til at vise det binære symbol for hvordan en skudtråd<br />
går skiftevis over og under en kædetråd. På den måde bliver definitionen maskinlæsbar og<br />
kan bruges i computerprogrammer f.eks. som opskrift<br />
eller kan rejse over sproggrænser med en kode (værdi 0 eller 1).<br />
Der er en lang række afledninger af lærred, som alle har meget synonymi (panama, hopsack,<br />
reps etc.), men ved hjælp af. kodebrug fra f.eks standardiseringsnormen ISO 9354 bliver<br />
definitionen entydig uden brug af sproglige midler, og synonymi er derfor ikke så<br />
problematisk. 10 01010100 er koden for lærred i ISO normen 9354, og heraf er det første<br />
element bindingstype, det andet element er krydsningen af tråde, (kædetråde op eller ned).<br />
Det tredje.element er kædetrådenes gruppering (enkeltvis eller i gruppe) og endelig er det<br />
fjerde element springtallet for bindingen.<br />
Kipper/kiper/köper er den anden grundbinding, vi behandler.<br />
Definition<br />
NORDTERM 2009, København 9.-12. juni 2009 274
En av de tre grundbindingarna, karakteriserad av att bindepunktarna för varje inslag<br />
förflyttas ett steg åt sidan och bilda diagonllinjer (da. Kipergraden, ty. Grate) i vävnaden.<br />
Rapporten består alltid av samma antal varp- som inslagstrådar, minsta antalet är tre. En<br />
kypert definieras med hjälp av siffror, vilkas summa ger rapportens trådantal. Första sifffran<br />
betcknar det antal inslagstrådar över vilka en varptrådar över vilka en varptråd flotterar.<br />
Andra siffran det antal inslagstrådar samma varptråd passerar under o.s.v. Ex: sv. Kypert 3/1,<br />
no. kypert 3/1, eng. 3/1 twill, ty. K 3/1 = fyrskafdad kypert med varpeffekt på den sida<br />
beskrivningen avser.”<br />
Eksempler:<br />
Svensk: Kypert,<br />
Dansk: Kiper, köper<br />
Norsk: Kypert<br />
Engelsk: Twill,<br />
Fransk: Sergé<br />
Tysk: Köperbindungg<br />
Kilde: s.32-33 i Nordisk Textilteknisk terminologi<br />
NORDTERM 2009, København 9.-12. juni 2009 275
.<br />
FIGUR 2.<br />
Satin, atlask<br />
Den sidste grundbinding er satin og den vises her kun med to diagramformer, der tydeligt<br />
viser, at der her er springende bindingspunkter<br />
De afledte bindinger er ligeledes meget komplicerede at beskrive verbalt, så den non-verbale<br />
beskrivelse er her meget gunstig.<br />
Både kipper og satin er meget produktive til afledninger, hvilket betyder, at det er endnu<br />
mere vigtigt at kunne bruge en entydig kode og visuelle hjælpemidler også internationalt og<br />
over sproggrænser.<br />
Svensk Satin/Atlaskbindning<br />
Dansk Satin, atlask<br />
Norsk Sateng<br />
Engelsk Satin<br />
NORDTERM 2009, København 9.-12. juni 2009 276
Fransk Satin<br />
Tysk Atlasbinding, Atlas<br />
Definition<br />
“En av grundbindingarna karakteriserad av att alla bindepunkter åtskiljas i alla riktningar av<br />
en eller flere varptrådar och ett eller flera inslag. Rapporten består alltid av samma antal<br />
varp- som inslagstrådar. Minsta antalet är 5. Är skridningstalet hela tidan detsamma, bildas<br />
skönjbara diagonaler i vävnaden.<br />
En satinbinding definieras genom att man anger: antalet varptrådar i rapporten = det antal<br />
skaft som fordras för vävningen samt bindningens skridningstal. Ex. sv. 5-skaftad satin med<br />
skridningstal 2, da. 5 skaftat satin med skridiningstal 2, no. 5 skaftet sateng med<br />
skridningstall 2, eng. 5-end satin, interruption 1, fr. satin de 5, interruption 1 eller<br />
décochement 2, ty. 5-binding Atlasbindung mit Fortschreitungszahl 2”.<br />
Kilde: Nordisk textilteknisk terminology, p. 49<br />
NORDTERM 2009, København 9.-12. juni 2009 277
FIGUR 3.<br />
FIGUR 4.<br />
NORDTERM 2009, København 9.-12. juni 2009 278
VÆVEEKSEMPLER I DE HISTORISKE DRAGTER<br />
Et eksempel på lærredsvævning til dragter i perioden 1600- er taboret og floret.<br />
“Taboret er en ulden toskaftsvævning med nuancerede smalle striber i kæderetningen, til<br />
tider med en ekstra lancerende mønskerkæde og ofte brocherede strøbuketter. Taboret er<br />
vidt udbredt til kvindetrøjer, skørter og kjoler.<br />
Der er en lærredsvævet bund og lanceret flerfarvet mønster og kæderetning. Tit findes tillige<br />
brocherede strøblomster. Det var ligesom calemank uldent og glittet og kom til kontinentet<br />
fra England.<br />
Sluteffekten var en glitning med vox og påfølgende presning, der gjorde tjet silkeagtigt blankt<br />
men temmelig stift. Der var mange variationer, som gav romantiske og salgsbare navne”.<br />
Kilde: Erna Lorenzen: Folks tøj: 1675-1850<br />
Floret: Silke (toskaftsvævning og væveteknik overført til silke).<br />
Sluteffekten var en glitning med voks og påfølgende presning, der gjorde tøjet silkeagtigt<br />
blankt men temmelig stift. Der var mange variationer som man gav romantiske og salgsbare<br />
navne: sirts, kattun, lærredscattung og sirtscattung mm.)<br />
Kipper: Drejlstøj som mere jordnært end satinvævning og ofte er det kraftigt bomuldstøj.<br />
(daldrejl og halvdrejl). Drejl har ofte mindre gentagen rapport.<br />
Damask (satin/atlask væve er en ensfarvet vævning i satindamask binding, hvor mønstret på<br />
den ene side står mat mens bunden da nødvendigvis bliver blank. Det er det skiftende spil i<br />
trådretningerne, som fremhæver mønstret. På den modsatte side er det mønstret, der er<br />
blankt, men bunden er mat.<br />
Egentlig stof fra Damaskus. Oprindelig kun af silke, senere også af uld, hør eller bomuld.<br />
Mønstervirkningen fremkommer ved vekselvirkning mellem kæde og skudeffekt.<br />
KONKLUSION<br />
NORDTERM 2009, København 9.-12. juni 2009 279
Formålet med artiklen er at vise hvordan et tekstilterminologisk projekt kan gribes an og<br />
hvordan grundbegreberne i f.eks. vævning kan struktureres og klassificeres med forskellige<br />
former for definitioner , verbale som non-verbale. Med satin eller atlaskbinding – den sidste<br />
af grundbindingerne, som blev gennemgået i artiklen er det tydeligt at en non-verbal<br />
forklaring – et diagram, f.eks. letter forståelsen.<br />
En anden konklusion er at der kan være synonymi såvel som semantisk fleksibilitet for<br />
termer, og at det ikke behøver være noget der skal undgås i et fagleksikon. Det kan ligesåvel<br />
betragtes som en del af begrebsdannelsen som i de viste væveeksempler.<br />
Som afsluttende bemærkning vil jeg lade dragtpuljesekretær, museumsinspektør Tove<br />
Mathiassen fra Den Gamle By I Århus få ”ordet” :<br />
”I anledning af 200 året for H.C.Andersens fødsel arrangerede den Gamle by i Århus hvor TM<br />
arbejder en stor udstilling hvor mange af de hverdagsting som H.C.Andersen nævner i sine<br />
eventyr, var udstillet, f.eks. klodssko.<br />
Begreber fra eventyrene var illustreret med tingene, så publikum kunne gå på opdagelse.<br />
Ordene var ukendte for nutidens mennesker, velkendte for 1800- tallets.<br />
Det er et eksempel på hvordan et museum arbejder aktivt med de aspekter, som<br />
sprogudvalgets rapport ”Sprog til tiden” anfører: Sproget er først og fremmest noget, der<br />
lever i vores bevidsthed som et væsentligt mentalt organiseringsmiddel, som et redskab for<br />
tænkning og refleksion og som bærer af vores egen historie”.<br />
Ord er kulturarv som bør bevares og føres aktiv af mange grunde. Hvis vi skal kunne blive ved<br />
med at læse H.C.Andersen og anden skøn- eller faglitteratur på dansk eller forstå regnskab,<br />
skifter og andre slags skriftlige kilder. Samtidig har tekstilers produktion haft stor økonomisk<br />
betydning op gennem tiden. Derfor findes der vældig mange termer og begreber for dragt og<br />
tekstil. Med dette arbejde mener vi at de danske museers dragt og tekstilpulje kan være<br />
med til at bevare en immateriel kulturarv. En kulturarv som bidrager til at fastholde dansk<br />
som kultursprog”.<br />
NORDTERM 2009, København 9.-12. juni 2009 280
References<br />
Lorenzen, E. (1975). Folks tøj i og omkring Århus ca. 1675-1850, Århus Universitetsforlag<br />
Andersen, E: (1960): Danske bønders klædedragt, Carit Andersens forlag, København<br />
Budin, G & Wright, S.E. (1997) S.E. Handbook of Terminology Management, Volume 1. John Benjamins<br />
Publishing Company, Amsterdam, Philadelphia.<br />
CIETA (1997) Vocabulaire français, allemand, anglais, espagnol, italien, portugais et suédois. Centre<br />
International d’Etude des Textiles Anciens, Lyon.<br />
Dury, P. & Lervad, S. (2008) : La variation synonymique dans la terminologie de l’énergie : approches<br />
synchronique diachronique, deux études de cas. LSP and Professional Communication, Vol. 8, No.2, pp.<br />
66-79<br />
Dury, P & Lervad S. : Synonymic Variation in the Field of Textile Terminology: A study in Diachrony and<br />
Synchrony in proceedings ”Textile terminologies from the explorative seminar at Centre of Textile<br />
Research at the University of Copenhagen. March 2009 (coming soon)<br />
Geier (A), Hald (M), Hoffmann, Strömberg (1979): Nordisk tekstilteknisk terminology : ”Förindustriell<br />
vävnadsproduktion”, Oslo<br />
ISO 9354, (1989) Weaves,Coding systems and examples, case postale, 56, CH-211 Geneva, Switzerland.<br />
,<br />
Lervad, S. (1999) Les éléments graphiques dans la terminologie des textiles. LSP and Professional<br />
Communication, Vol. 22, No.2 (48), pp. 38-47<br />
NORDTERM 2009, København 9.-12. juni 2009 281
Lervad, S. (1998) Analyse comparative de trois ouvrages de lexicographie spécialisée dans le domaine<br />
de textiles concernant les définitions comme rerésentation de connaissances. In La banque des mots,<br />
N.8 spécial, Qualité et terminologie.<br />
Nordisk Textilteknisk terminologi (1967) Vävnader med de engelska, franska och tyska paralleltermer<br />
enligt C.I.E.T.A , Terminologie textile, tissus, danois, norvégien, suédois, anglais, français ; allemand,,<br />
Lyon<br />
NORDTERM 2009, København 9.-12. juni 2009 282
Arbeid med nordiske termer i språkteknologi<br />
Torbjørg Breivik<br />
Språkrådet, Norge<br />
Abstract. Å sørge for at ny teknologi blir lansert på eget språk, er viktig for et lands<br />
språkpolitikk. Hvilket språk som brukes i de nye produktene og tjenestene vi nå får, har<br />
betydning for hvem som kan benytte dem. Det forventes at vi alle skal bli aktive og kompetente<br />
borgere i kunnskapssamfunnet, og det er et språkpolitisk spørsmål om et samfunn vil gjøre den<br />
innsatsen som kreves for at borgerne skal bli det, bl.a. gjennom at de får se og bruke sitt eget<br />
språk i teknologien også. Forslaget om å etablere et nordisk prosjekt for å arbeide med<br />
språkteknologiske termer må sees lys av framveksten av kunnskapssamfunnet. Arbeidet med å<br />
utvikle og standardisere språkteknologisk terminologi for de nordiske språkene er tiltak innenfor<br />
rammene av en aktiv nordisk språkpolitikk.<br />
HISTORIKK<br />
Nordisk ministerråd bevilget i 2000 midler til et femårig nordisk språkteknologisk<br />
forskningsprogram. Programmet kom i gang fra 2001 og Nordisk<br />
Forskeruddanningsakademi (NorFA) administrerte programmet. For å få størst mulig<br />
effekt av programmet oppfordret man til å søke samarbeid på tvers og samarbeid med<br />
prosjekter som alt var i gang. Det ble bevilget penger til å etablere nasjonale<br />
dokumentasjonssentre for å lette tilgangen til informasjon om hvilke<br />
språkteknologiske prosjekter som var i gang hvor, hvem som arbeidet med dem,<br />
hvilken kompetanse fantes hvor osv. Arbeidet med dokumentasjonssentrene ble<br />
koordinert av Center for Sprogteknologi i København og gikk under forkortelsen<br />
NorDokNet.<br />
Det ble opprettet ett nordisk nettsted og flere nasjonale nettsteder. Nettstedene ble<br />
strukturert etter samme mal som gjorde det lett for brukerne å finne samme type<br />
informasjon på alle sidene, selv om utformingen varierte. Flere av deltakerne i<br />
NorDokNet underviste i språkteknologiske emner på sine respektive institusjoner, og<br />
de hadde sett behovet for en nasjonal, ikke-engelsk fagterminologi. Det fantes en del<br />
terminologi tilgjengelig på andre språk, og noen hadde laget oversettelser til eget bruk,<br />
men det fantes ikke standardiserte, kvalitetssikrede termer på noen av de nordiske<br />
språkene. At det ikke finnes gode termer og godt fagspråk på de nordiske språkene, er<br />
ikke spesielt for språkteknologi. Men skal man utvikle faget og rekruttere nye<br />
studenter til fag som er i rivende utvikling, og som har stor innvirkning på<br />
hverdagslivet til folk flest, er det viktig at rekrutteringen ikke hindres av et haltende<br />
fagspråk. Når produktene og tjenestene skal tas i bruk, er det viktig at tekst og tale<br />
som ligger i dem, er forståelig og på det språket brukeren behersker.<br />
NorDokNet startet arbeidet med terminologien mot slutten av perioden for<br />
forskningsprogrammet, og meningen var at de nasjonale dokumentasjonssentrene<br />
skulle arbeide videre i egen regi. Man tok utgangspunkt i en kort, flerspråklig liste<br />
med 41 termer som skulle oversettes til de nordiske språkene. Listen ble oversatt til de<br />
NORDTERM 2009, København 9.-12. juni 2009 283
nordiske språkene og hadde engelsk som nøkkelspråk. Det fantes også tyske og<br />
nederlandske termer i lista. Det skulle så skrives forklaringer til termene og helst også<br />
utarbeides definisjoner for dem.<br />
Deretter skulle listen utvides. Et moment som kom til mot slutten av arbeidet i<br />
NorDokNet, var at en standardisert liste over termer på flere språk, kan brukes i<br />
flerspråklig søking, og dette ble det eksperimentert litt med. Eksperimentet ble<br />
videreført i prosjektet Nordisk nettordbok /Tvärrsøk som ble avsluttet i 2007.<br />
De fleste dokumentasjonssentrene ble lagt på vent da pengene fra<br />
språkteknologiprogrammet tok slutt, men noen har arbeidet videre med termlisten.<br />
Arbeidsgruppa for språkteknologi i Norden (ASTIN) inviterte til diskusjoner om<br />
muligheten for å gå videre med utvikling av en nordisk språkteknologisk terminologi<br />
på en workshop under Nordterm 2009. Diskusjonene viste at det er interesse for, og<br />
ønske om, å etablere et nordisk prosjekt, og ASTIN har tatt mål av seg å få dette til.<br />
EUROPEISKE STANDARDER OG RESSURSER<br />
I forbindelse med terminologiarbeidet i NorDokNet undersøkte vi hva som fantes<br />
av standardisert språkteknologisk terminologi på andre språk. På Internett fant vi noen<br />
lister og samlinger av termer. Kvaliteten viste seg å variere ganske mye. Det ble raskt<br />
klart at det ikke fantes noen ISO-standard som dekker fagområdet selv om noen ISOstandarder<br />
har med termer som også er relevante i språkteknologi. En liste vi<br />
undersøkte nærmere, var LT-worlds (www.lt-world.org). Den ble laget av DFKI i<br />
Tyskland, og viste seg også å være av variabel kvalitet 1<br />
. NorDokNet tok kontakt med<br />
DFKI og andre miljø i EU som arbeider med språkteknologi og de mente det kunne<br />
være en god ide å standardisere termene. Det ble skrevet en søknad til EU om<br />
etablering av et nettverk som kunne arbeide med dette, uten at det førte fram. Det<br />
finnes materiale fra andre EU-prosjekt som i noen grad har beskjeftiget seg med<br />
terminologi for språkteknologiområdet, og et prosjekt man bør se mer på, er<br />
EAGLES/ISLE Meta Data Initiativ.<br />
SPRÅKTEKNOLOGISK SATSING I DET NORDISKE<br />
SAMARBEIDET<br />
I perioden 2003 – 2008 satset Nordens språkråd og Nordisk ministerråd mye på<br />
språkteknologi, og bevilget midler til flere større prosjekt utover satsinga i det<br />
nordiske språkteknologiprogrammet. Det ble bl.a. bevilget penger til en islandskdansk<br />
idiomatisk ordbok som benyttet språkteknologiske metoder, en nordisk<br />
nettordbok ble utredet og et prosjekt satt i gang, en nordisk språkportal ble utredet og<br />
det ble utformet en strategi for hvordan Norden kunne bli en foregangsregion for<br />
språkteknologi (Vismannsrapporten SpråkVis 2007). Nordens språkråd så hvor viktig<br />
det var at språknemndene har en aktiv holdning til de språkpolitiske sidene av<br />
teknologiutviklingen ved å være pådriver for å bruke eget språk i de nye produktene<br />
og tjenestene. Helt sentralt sto bevisstheten om at de nordiske språkene, - ikke<br />
1 Listen er ikke lenger tilgjengelig på nettsiden.<br />
NORDTERM 2009, København 9.-12. juni 2009 284
engelsk, skulle være de primære språkene i språkteknologiske produkter og tjenester<br />
for det nordiske markedet. Denne oppfatningen delte politikerne i Nordisk råd og i<br />
Ministerrådet. Den nordiske språkdeklarasjonen ble vedtatt på Nordisk råds sesjon<br />
høsten 2006, og i diskusjonen understreket flere av innlederne at en aktiv<br />
språkpolitikk, inkludert satsing på språkteknologi, er avgjørende for at de nordiske<br />
språkene også i framtida skal beholde sin posisjon som samfunnsbærende språk.<br />
Språknemndenes prioritering av språkteknologien i perioden 2003 – 2008 viste igjen i<br />
prioriteringer i programmene for formannskapene i Nordisk råd og Nordisk<br />
ministerråd gjennom flere år.<br />
Hvor står den språkteknologiske satsinga i det nordiske samarbeidet i<br />
dag?<br />
I inneværende år (2009) har Island formannskapet i Nordisk råd. I programmet for<br />
formannskapet står det lite om språk og språkteknologi. Språknemndene i Norden<br />
samarbeider gjennom et nettverk, og satsingen på språkteknologi vises bl.a. gjennom<br />
at nettverket har en egen gruppe for samarbeidet på dette området (ASTIN).<br />
Nettverket har sørget for penger til arbeidsgruppens virksomhet, og aktiviteten har<br />
vært stor etter opprettelsen i 2005. Gruppen har organisert arbeidsseminarer om<br />
utvalgte emner i språkteknologi der både innledere og deltakere har vært invitert med<br />
tanke på tettere samarbeid mellom forskere og kommersielle aktører. Gruppen har<br />
også arrangert workshops i tilknytning til relevante konferanser som de nordiske<br />
datalingvistikkdagene (NoDaLiDa) og Nordterm. Nordisk råd og Ministerrådet har<br />
ikke lenger egne prosjekter innenfor språkteknologi. På begynnelsen av 2009 etablerte<br />
Ministerrådet en ekspertgruppe for språk som avløste Nordens språkråd. Mandatet for<br />
ekspertgruppa ble dreid i retning undervisning og nabospråksforståelse, og det er ikke<br />
kjent om noen av medlemmene i ekspertgruppa er opptatt av språk og språkteknologi.<br />
Ministerrådet ønsker å bedre koordineringen mellom områder som grenser inn mot<br />
hverandre, og har opprettet en nordisk språkkoordinatorfunksjon for å ivareta dette.<br />
Nettverket for språknemndene i Norden skal heretter få sine midler gjennom<br />
koordinatoren, og det er vedtatt en arbeidsplan for de to årene prosjektet skal vare.<br />
Enkeltprosjekter i språkteknologi er tatt med på planen, og det gjenstår å se hvor stort<br />
gjennomslag språknemndene får for denne delen av språkpolitikken.<br />
Terminologi og standardisering på nordisk nivå – hvorfor?<br />
I hvert av de nordiske landene har språknemndene i varierende grad oppgaver som<br />
grenser inn mot terminologiarbeid. I Sverige har de et eget organ som arbeider med<br />
terminologi, mens Språkrådet i Norge fra 2009 har fått ansvaret for fagspråk og<br />
terminologi. Språkrøkt og arbeid med terminologi og fagspråk henger tett sammen.<br />
Fagområdet språkteknologi er nytt, men mye av det terminologiske grunnarbeidet som<br />
må gjøres, er det likt uavhengig av fag.<br />
Universiteter i Norden tilbyr undervisning i språkteknologiske emner, og i<br />
næringslivet foregår mye forskning og produktutvikling, men fagspråket som brukes,<br />
NORDTERM 2009, København 9.-12. juni 2009 285
er engelsk. Det vil være en styrke at et termprosjekt i faget språkteknologi er nordisk:<br />
man får flere å diskutere med og man får et enhetlig fagspråk i hele Norden. Det er få<br />
kurs og utdanningstilbud på området og en samordnet terminologi kan gjøre det lettere<br />
for studenter å ta kurs andre steder i Norden. Næringslivet kan få tilgang til fagtermer<br />
for alle de nordiske språkene de ønsker å utvikle tjenester og produkter for i stedet for<br />
å si at de har bare engelsk tilgjengelig. Terminologi som standardiseres er nyttig å ha<br />
for alle fagområder. At termene samtidig gjøres flerspråklige, vil ha betydning for<br />
utvikling av tjenester som flerspråklig søking og maskinstøttede oversettelser.<br />
Globaliseringen krever mer og mer oversettelse mellom språk, muntlig som skriftlig,<br />
og med engelsk som nøkkel i bunnen, vil dette blir nyttige ressurser i mange typer<br />
prosjekter.<br />
ASTIN ser behovet for å få nordiske terminologiprosjekter som en viktig del av sin<br />
virksomhet, og vil utarbeide en prosjektplan i nært samarbeid med relevante miljø i de<br />
nordiske landene. Det er viktig å bygge på materiale som finnes, vurdere og<br />
kvalitetssikre dette og deretter se hvilke delområder i språkteknologien man bør gå<br />
videre med. Forslaget fra ASTIN vil være at man etablerer en prosjektgruppe med en<br />
representant fra hvert land. I prosjektgruppen må det være ekspertise i<br />
terminologiarbeid kombinert med ekspertise i språkteknologi. Det kan være nyttig<br />
med en større referansegruppe for å sikre kvaliteten og en faglig konsensus i miljøene<br />
i Norden. Næringslivet bør være representert i alle fall i referansegruppen.<br />
NORDISK SPRÅKBANK<br />
Språkene i Norden har få brukere sammenlignet med f.eks. engelsk. Markedet i<br />
Norden teller vel rundt 25 millioner mennesker, men disse er delt opp i mange<br />
forskjellige språkgrupper. Kunnskapssamfunnet betyr at nye produkter og tjenester<br />
utvikles raskt og tas i bruk raskt. Muligheten for fortjeneste på salg av produktene går<br />
ned med antall brukere som kan tenkes å ta dem i bruk. Ved at myndighetene stiller<br />
krav om bruk av nasjonalspråket og legger til rette for at forskningsmiljø og<br />
kommersielle interesser får tilgang til språkressurser på nasjonalspråket, blir det mulig<br />
å gjennomføre i praksis den vedtatte språkpolitikken. I den nordiske<br />
språkdeklarasjonen er språkteknologi grunnlaget for to av de fire sakene man vil<br />
arbeide med for å oppnå målene man har satt seg når det gjelder språkforståelse og<br />
språkkunnskap: utarbeide internordiske ordbøker i elektronisk format og utvikle<br />
maskinoversettelsesprogrammer for Nordens samfunnsbærende språk og flerspråklige<br />
søkeprogrammer. I de nasjonale språkpolitikkene står tilsvarende formuleringer,<br />
gjerne sterkere, og dette støtter opp om prosjekter som det å utvikle nordiske<br />
termressurser. SpråkVis-rapporten som ble lagt fram for Nordisk råd i 2007,<br />
framhever de mulighetene Norden har for å bli ledende på språkteknologiområdet.<br />
Samlet har man i Norden bred kompetanse og store muligheter for dette, og som en<br />
del av satsingen, ser man for seg en nordisk språkbank der man samler språkressurser<br />
(som f.eks. termbaser) og verktøy for de nordiske språkene.<br />
INTERNASJONALT SAMARBEID – FlaReNet + CLARIN<br />
NORDTERM 2009, København 9.-12. juni 2009 286
Arbeidsgruppa for språkteknologi i Norden (ASTIN) følger med i det som skjer<br />
internasjonalt på området språkteknologi, inkludert arbeid som foregår på<br />
terminologiområdet. Medlemmene av gruppa deltar aktivt på konferanser med innlegg<br />
og i debatter, deltar i internasjonale nettverk som FlaReNet og CLARIN, arrangerer<br />
egne konferanser og initierer (og arrangerer) workshops på andres konferanser.<br />
REFERANSER<br />
Deklaration om nordisk språkpolitik, Nordisk ministerråd, 2006<br />
Nordisk sprogteknologi, årsmeldinger 2001-2005, NorFA.<br />
SpråkVis, Expert Panel report: The Nordic Countries – A Leading Region in Language Technology,<br />
edited by Koskenniemi, Kimmo, Lindén, Krister and Nordgård, Torbjørn, utarbeidet på oppdrag av<br />
Nordens språkråd og levert Nordisk råd i 2007.<br />
Språkteknologisk infrastruktur i Norden, ASTIN-rapport fra et arbeidsseminar, Gøteborg 2006.<br />
Benchmarkundersøgelse af den sprogteknolgiske udvikling i Europa, EUROMAP-undersøgelsen, Rose<br />
Locwood og Andrew Joscelyne, København 2003.<br />
Samling og tilgjengeliggjøring av norske språkteknologiske språkressurser, Norsk språkråd 2002.<br />
NORDTERM 2009, København 9.-12. juni 2009 287
Forskningsbegreber og Terminologi<br />
Peder Olesen Larsen a b<br />
and Bodil Nistrup Madsen<br />
a Kemisk Forenings Nomenklaturudvalg, pol@webspeed.dk<br />
b DANTERMcentret, Copenhagen Business School, DK-2000 Frederiksberg,<br />
bnm.danterm@cbs.dk<br />
Abstract. I forskningen har kommunikation, publikation og diskussion været central i mange<br />
hundrede år. På mange forskningsområder er der opbygget en omfattende systematik og terminologi.<br />
Men for forskningen selv er terminologien ikke gennemarbejdet og klar. En af grundene er måske, at<br />
forskerne i en vis forstand er anarkister, som vil gøre, hvad der passer dem uden at skulle klassificeres.<br />
Der er en løbende diskussion om forskning og forskningspolitik. Forskningen er også selv<br />
genstand for forskning og for måling. Det har ført til en lang række forskningsbegreber, men ikke til<br />
klare og brugbare definitioner af disse og ikke til, at brugerne er enige om, hvad begreberne står for.<br />
FORSKNING VS. VIDENSKAB<br />
Lad os starte med selve ordet forskning. Det findes på dansk, norsk og svensk.<br />
På finsk har vi tutkimus. Et tilsvarende ord findes på hovedsprogene, om end det<br />
engelske research er blevet så udvandet, at der i dag tales om scientific research.<br />
Vi har også ordet videnskap, som igen findes på dansk, norsk og svensk, og<br />
hvor finsk har et tilsvarende ord, tiede. Vi har Wissenschaft på tysk, men der er ikke et<br />
tilsvarende ord på engelsk og fransk. Der har vi science, som både kan stå for<br />
naturvidenskab og i bredere betydning omfattende en række underbegreber, for<br />
eksempel medical science, natural science, social science og technical science.<br />
Humaniora hører ikke under science på engelsk, hvorimod fransk har begrebet<br />
sciences humaines.<br />
Denne forskel, som vi kan betegne forskellen mellem den<br />
kontinentaleuropæiske tradition og den anglo-amerikanske tradition, giver problemer<br />
blandt andet i forskningsstatistik.<br />
Vil det være korrekt at sige, at videnskab og science angiver områder, mens<br />
forskning angiver en proces? I så fald hvad betyder det så, at det danske<br />
forskningsministerium i 2001 skiftede navn til Ministeriet for Videnskab, Teknologi<br />
og Udvikling. Videnskab angiver et område, mens forskning og udvikling naturligvis<br />
angiver processer. Teknologi kan stå for den videnskab, som undersøger og udvikler<br />
metoder til brug i den private og offentlige sektor. I så fald er teknologi et område på<br />
linie med videnskab eller et delområde under videnskab. Teknologi kan imidlertid<br />
også stå for (avancerede) metoder på alle områder i det moderne samfund. I så fald er<br />
teknologi et middel. Ministeriet arbejder med eller for udvikling af teknologi og for<br />
udbredelse eller anvendelse af ny teknologi. Hvordan det så er, er de tre betegnelser<br />
for ministeriets arbejdsområde ikke sidestillede begreber.<br />
NORDTERM 2009, København 9.-12. juni 2009 288
GRUNDFORSKNING VS, ANVENDT FORSKNING<br />
Lad os derefter se på de mange forskningsbegreber. De hyppigst brugte er<br />
grundforskning og anvendt forskning, (Larsen 2003).<br />
Ordet grundforskning er overraskende nyt i det danske sprog. Det er først i<br />
1946 registreret anvendt.<br />
Inden da talte vi om ren forskning og fri forskning. I dag tales der ikke om ren<br />
forskning, men det betegnede det samme som nutidens grundforskning. Fri forskning<br />
var noget andet end grundforskning. Fri forskning var forskning, som ikke var<br />
underlagt begrænsninger udefra, specielt forskning, som ikke var underlagt<br />
begrænsninger eller indflydelse fra kirken. Fri forskning kunne både være<br />
grundforskning og anvendt forskning.<br />
Begrebet anvendt forskning har været i brug længe, men det har tidligere været<br />
brugt til at beskrive anvendelse af forskning, ikke en særlig slags forskning. Det er helt<br />
i overensstemmelse med Pasteurs opfattelse, udtrykt i det klassiske citat fra 1871:<br />
Nej, tusinde gange nej, der findes ikke en del af forskningen, til hvilken<br />
man kan give navnet anvendt forskning. Der er forskning og anvendelser<br />
af forskningen, sammenknyttede lige som frugten hører til det træ, som<br />
bærer den.<br />
(Non, mille fois non, il n’existe pas une catégorie de science auxquelles<br />
on puisse donner le nom de sciences appliqués. Il y a la science et les<br />
applications de la science, liées entre elles comme le fruit a l’arbre qui<br />
l’a porté).<br />
I dag er den almindelige opfattelse, at grundforskning og anvendt forskning er<br />
to forskellige ting. Skellet anvendes verden over i forskningsstatistik. I den danske<br />
forskningsstatistik angives således:<br />
Grundforskning er originalt eksperimenterende eller teoretisk arbejde<br />
med det primære formål at opnå ny viden og forståelse uden nogen<br />
bestemt anvendelse i sigte.<br />
Anvendt forskning er ligeledes originale undersøgelser med henblik på at<br />
opnå ny viden. Den er primært rettet mod bestemte praktiske mål.<br />
I forskningsstatistikken er forskning enten det ene eller det andet. Der skelnes i<br />
praksis. Samtidig er der en omfattende international litteratur, som sætter<br />
spørgsmålstegn ved den traditionelle skelnen mellem grundforskning og anvendt<br />
forskning. Er det i realiteten forskningsstatistikken, som fordeler mellem to kasser og<br />
derved bestemmer, hvad der er grundforskning og hvad der er anvendt forskning? Sker<br />
det på trods af, at der er gode grunde til at tro, at meget hører hjemme i begge kasser<br />
NORDTERM 2009, København 9.-12. juni 2009 289
og måske også, at det er lidt tilfældigt, hvad der kommer i hvilken kasse? De to<br />
begreber anvendes ikke i databaser og søgemaskiner.<br />
STRATEGISK FORSKNING VS. FRI FORSKNING<br />
I de sidste 25 år er begrebet strategisk forskning kommet på banen. Det kan<br />
defineres på følgende måde:<br />
Strategisk forskning er offentligt tilgængelig forskning inden for fag eller<br />
teknologier, hvor det er vigtigt at have vidensberedskab og<br />
forskningspotentiale, og hvor der er udsigt til gevinst.<br />
Dermed angives, at der udefra gennem styring bliver lagt bånd på, hvad<br />
forskerne kan arbejde med opgaver, forskerne har valgt uden indflydelse udefra.<br />
Dermed angives det, at strategisk forskning er i modsætning til fri forskning. Der er<br />
imidlertid gode eksempler på, at fri forskning kan have stor betydning.<br />
Et godt eksempel er udviklingen af bioinformatik i Danmark. Vi kom i gang,<br />
fordi enkelte forskere så de store udfordringer og muligheder på området. De fik med<br />
stort besvær støtte til deres arbejde. Det viste sig imidlertid få år senere, at det var af<br />
stor betydning i Danmark, at vi var med i udviklingen. Vi ville på brede områder af<br />
biologien stå svagt, hvis ikke vi havde kompetence inden for bioinformatik.<br />
I 2005 blev den danske forskningsrådsstruktur ændret. De traditionelle<br />
fagorienterede forskningsråd blev afløst af Det Frie Forskningsråd og Det Strategiske<br />
Forskningsråd. Det betyder ikke, at vi har fået et forskningsråd for grundforskning og<br />
et forskningsråd for anvendt forskning. Det Frie Forskningsråd kan støtte anvendt<br />
forskning, blot forslaget til opgave kommer fra forskerne selv og ikke udefra. Det<br />
Strategiske Forskningsråd kan støtte grundforskning, hvis rådet finder, at der er et<br />
behov for at støtte dansk forskning på et bestemt område.<br />
DE MANGE SLAGS FORSKNING<br />
Hertil har vi kun talt om toppen af isbjerget. Der er en mængde andre<br />
forskningsbegreber på banen. En lille del af dem er anført i følgende tabel. Tabellen<br />
fortæller også, hvilke begreber der antages at være komplementære eller i modsætning<br />
til hinanden. Matematisk kan det udtrykkes ved, at de to mængder af forskning<br />
henhørende under de to begreber er disjunkte. Men opfører forskerne og dermed<br />
forskningen sig altid matematisk korrekt?<br />
Forskningsbegreb Komplementært begreb<br />
Grundforskning Anvendt forskning<br />
Målforskning<br />
Ren grundforskning Målrettet grundforskning<br />
Grundlæggende forskning<br />
NORDTERM 2009, København 9.-12. juni 2009 290
Grundlagsskabende forskning<br />
Ren forskning<br />
Fri forskning Strategisk forskning<br />
Bunden forskning<br />
Nedefra og op forskning<br />
Oppefra og ned forskning<br />
Bottom up forskning<br />
Top down forskning<br />
Grundlagsskabende forskning<br />
Prækompetitiv forskning Ikke offentligt tilgængelig forskning<br />
Offentligt tilgængelig forskning<br />
Teoretisk forskning Eksperimentel forskning<br />
Skrivebordsforskning<br />
Multidisciplinær forskning Disciplinforskning<br />
Transdisciplinær forskning<br />
Tværfaglig forskning<br />
Tværvidenskabelig forskning<br />
Komplementære sæt må være baseret på inddelingskriterier.<br />
Et inddelingskriterium er, om forskningen er tilgængelig eller ej eller med<br />
andre ord om forskningsresultaterne bliver offentliggjort eller ej.<br />
Et andet inddelingskriterium beror på, hvem der finansierer forskningen. Der<br />
kan for eksempel skelnes mellem forskning betalt af det offentlige og forskning betalt<br />
af private virksomheder.<br />
Et tredje inddelingskriterium vedrører beslutningen om, hvad der skal forskes<br />
i. Bliver beslutningen herom taget af den enkelte forsker eller af en gruppe af<br />
samarbejdende forskere, eller bliver beslutningen taget af andre, for eksempel<br />
bevillingsgivere eller overordnede? Der er imidlertid tale om en kunstig modsætning.<br />
Megen forskning bliver ført ud i livet på grundlag af en samtale mellem nysgerrige<br />
forskere og personer udefra, som har ønsker til forskningen.<br />
Det er ikke altid muligt at fastlægge klare inddelingskriterier. Hvis det ikke<br />
blot skyldes metodisk uformåenhed, betyder det, at nogle af de opdelinger, vi bruger i<br />
daglig tale, ikke er opdelinger i disjunkte mængder, eller med andre ord at forskning<br />
kan både være det ene og det andet.<br />
Et godt eksempel er angivelsen af nysgerrighedsdreven forskning som en<br />
modsætning til målforskning. Forskere er stort set altid nysgerrige, også når de er i<br />
gang med målforskning. Hvis forskere ikke er nysgerrige, skulle de måske have fundet<br />
sig et andet erhverv.<br />
For to begreber i modsætning til hinanden melder også spørgsmålet sig, om de<br />
tilsammen dækker al forskning. Sagt mere præcist: Er fællesmængden af forskning<br />
henhørende under de to begreber identisk med grundmængden af al forskning, eller er<br />
der forskning, som ikke er omfattet af mindst et af de to begreber?<br />
NORDTERM 2009, København 9.-12. juni 2009 291
BEGREBSSYSTEMER SOM GRUNDLAG FOR<br />
BEGREBSAFKLARING<br />
Terminologer anvender begrebssystemer (ontologier) til at fastlægge<br />
definitioner og afklare forskelle mellem begreber inden for et domæne (Madsen &<br />
Thomsen 2006). Begrebssystemer opbygges i et samarbejde med domæneeksperter, og<br />
har ofte til formål at fastlægge (standardisere) begrebers betydning, så de kan<br />
anvendes entydigt fx i forbindelse med statistikker.<br />
I figur 1 findes et lille udsnit af et udkast til et begrebssystem for<br />
forskningsbegreber.<br />
Figur 1: Udsnit af begrebssystem for forskningsbegreber<br />
På baggrund af informationerne ovenfor og begreberne i tabellen kan nogle<br />
inddelingskriterier foreslås uden problemer. For eksempel er det oplagt at foreslå de<br />
tre inddelingskriterier: SIGTE, EMNEVALG og TILGÆNGELIGHED. De to<br />
begreber, som adskiller sig mht. SIGTE, er grundforskning, som ikke sigter mod<br />
nogen bestem anvendelse og anvendt forskning, som sigter med en bestemt<br />
anvendelse. Begreberne fri forskning og strategisk forskning adskiller sig mht. hvem<br />
der foretager emnevalget, og begreberne prækompetitiv forskning (med synonymet:<br />
offentlig tilgængelig forskning) og ikke offentlig tilgængelig forskning adskiller sig<br />
mht. TILGÆNGELIGHED: hhv. offentligt tilgængelig og ikke offentligt tilgængelig.<br />
For andre begreber bliver det straks vanskeligere, at sætte dem ind i<br />
begrebssystemet under et inddelingskriterium.<br />
FLERE BEGREBER?<br />
Vi savner et vigtigt begreb, forskning rettet mod en profession eller med<br />
henblik på at give grundlag for fagfolks arbejde. Professionelle uddannelser er for<br />
eksempel lægeuddannelsen, farmaceutuddannelsen, psykologuddannelsen,<br />
ingeniøruddannelsen, og juristuddannelsen. Hvad har det med forskning at gøre?<br />
NORDTERM 2009, København 9.-12. juni 2009 292
Professionerne er ikke opstået som produkter af videnskab. De har deres egne rødder.<br />
Mange er fra begyndelsen opfattet som håndværk. Vi taler den dag i dag om<br />
lægegerningen og lægekunst. Vi taler også om lægevidenskab eller medicinsk<br />
videnskab. Det er den videnskab eller forskning, som understøtter lægegerningen, det<br />
er ikke lægegerningen selv. Tilsvarende leverer ingeniørvidenskaberne den forskning,<br />
som understøtter ingeniørerne i deres arbejde.<br />
Vi savner også et vigtigt begrebspar, på den ene side forskning, som<br />
traditionelt udføres af enkeltpersoner og som ikke kræver samarbejde, og på den anden<br />
side forskning, som nødvendigvis må udføres i samarbejde. Det er tæt på opdelingen<br />
af forskningen mellem teoretisk forskning eller skrivebordsforskning og eksperimentel<br />
forskning, men der er ikke fuld overensstemmelse. Begrebsparret er vigtigt for at<br />
forstå, at der på det første område kan være en høj grad af individuel forskningsfrihed,<br />
mens der på det andet område kun er begrænset individuel forskningsfrihed, men til<br />
gengæld kan være forskningsfrihed for en gruppe forskere.<br />
BEHOV FOR BEGREBSAFKLARING?<br />
Alle begreberne anvendes i den løbende diskussion om forskningen, og det må<br />
vi selvfølgelig acceptere. Vi må også i stor udstrækning affinde os med, at deres<br />
betydning kun kan udledes af en kontekst. Vi må se i øjnene, at begreberne anvendes<br />
forskelligt at forskellige deltagere i diskussionen. Samtidig er der dog grund til at<br />
erindre om, at mange uenigheder og konflikter her i verden skyldes, at ord bruges<br />
forskelligt af de stridende parter.<br />
Begreberne anvendes også i love, bekendtgørelser og anordninger med<br />
retsvirkning. Danmarks Grundforskningsfond er oprettet ved lov. Selv i vores<br />
skattelovgivning skrives der om grundforskning og anvendt forskning. Er det ikke en<br />
rimelig antagelse, at ord, der bruges i lovgivning, ikke må kunne misforstås? I hvert<br />
fald må begreber anvendt i lovgivning være præcise nok til, at det giver retssystemet<br />
mulighed for at fortolke love entydigt.<br />
Vi kan sikkert blive enige om, at de nuværende definitioner af<br />
forskningsbegreber ikke er præcise og nok heller ikke kan være det i en kompleks<br />
virkelighed. Men er det nødvendigt at gøre noget ved det, kan der gøres noget ved det,<br />
vil der være fordele ved at gøre noget ved det, og er der et ønske om at gøre noget ved<br />
det?<br />
Og endelig:<br />
Er der nogenlunde overensstemmelse i anvendelsen af begreberne mellem<br />
dansk, finsk, islandsk, norsk og svensk? Kan vi gøre noget i fællesskab?<br />
NORDTERM 2009, København 9.-12. juni 2009 293
Referencer<br />
Larsen, Peder Olesen (2003): Forskningens Verden. Prydhave. Nyttehave. Vildnis. Aarhus<br />
Universitetsforlag.<br />
Madsen, Bodil Nistrup & Hanne Erdman Thomsen (2006). “Terminological ontologies in normative<br />
terminology work”. In: TSTT'06: Proceedings of the International Conference on Terminology,<br />
Standardization and Technology Transfer. Beijing: Encyclopedia of China Publishing House, 2006.<br />
p.122-133.<br />
NORDTERM 2009, København 9.-12. juni 2009 294
KNowaboUT – A Work-In-Progress Study On<br />
How To Fruitfully Combine The Theories Of<br />
Terminology And Lexicography<br />
Lise Mourier and Birthe Vesterli<br />
Associate Professors, Department of International Language Studies and Computational Linguistics,<br />
Copenhagen Business School, Dalgas Have 15, DK-2000 Frederiksberg<br />
. Email: lm.isv@cbs.dk and bv.isv@cbs.dk<br />
Abstract. Traditionally, terminology and lexicography have been separate research fields with<br />
different approaches to compilation and presentation of lexical data. However, today LSP<br />
lexicography is utilizing many of the opportunities of modern technology with respect to data<br />
structure and presentation in electronic databases that terminology is traditionally drawing on, and<br />
thus the two fields seem to be converging. The Research Group for Terminology, Lexicography and<br />
Specialized Communications at the Department for International Language Studies and<br />
Computational Linguistic is therefore working at “A contrastive analysis of theories and methods<br />
within LSP lexicography and terminology with a view to developing principles for target-group<br />
oriented knowledge transfer”.<br />
The study intends to develop a new model for the creation of an LSP database targeted to a defined,<br />
heterogeneous user group. The objective is to find whether – and to which extent – a meaningful<br />
combination of the lexicographical and the terminological approaches in one single electronic<br />
database will provide added user value. We aim to build a database that embodies both concept<br />
systems and lexical articles with various data fields offering encyclopaedic as well as lexicalsemantic<br />
knowledge. The empirical subject-matter of the pilot project is selected concepts and terms<br />
within the domain of auditing in Danish, English (including international English and British<br />
English) and German.<br />
As a tool, the terminological management system i-Term will be used for compilation, analysis and<br />
presentation of concepts and terms as well as for experimenting with target-group oriented<br />
approached and determination of best practice. i-Term has been developed by DANTERM, the<br />
terminology centre at <strong>CBS</strong>.<br />
As the title suggests, the paper intends to present our pilot project, share it with conference<br />
participants and discuss our work at the initial stage and our findings so far. We shall present our<br />
challenges in compiling an appropriate text corpus within a delimited subject area (auditing),<br />
selecting relevant concepts, preparing concept systems, selecting user-needed data fields and<br />
clarifying advantages or barriers to the building of a multilingual database as well as our<br />
considerations in respect of phrasing appropriate definitions that will ensure establishing proof or<br />
lack of equivalence. All seen as important building blocks in our strive to design a well-structured<br />
database that includes both terminological and lexicographical data with the objective of creating an<br />
easily accessible and meaningful tool to the defined users.<br />
NORDTERM 2009, København 9.-12. juni 2009 295
The Interface Between TERMINOLOGY and LSP<br />
LEXICOGRAPHY<br />
Traditionally, terminology and lexicography have been separate research fields<br />
with different approaches to compilation and presentation of lexical data. However,<br />
today LSP lexicography is utilizing many of the opportunities of modern technology<br />
with respect to data structure and presentation in electronic databases that terminology<br />
is traditionally drawing on, and thus the two fields seem to be converging. The<br />
Research Group for Terminology, Lexicography and Specialized Communications at<br />
the Department for International Language Studies and Computational Linguistic is<br />
therefore working at “A contrastive analysis of theories and methods within LSP<br />
lexicography and terminology with a view to developing principles for target-group<br />
oriented knowledge transfer”.<br />
The study intends to develop a new model for the creation of an LSP database<br />
targeted to a defined, heterogeneous user group. The objective is to find whether – and<br />
to which extent – a meaningful combination of the two research methods of<br />
terminology and LSP lexicography in one single electronic database will provide<br />
added user value and create further opportunities for target-group knowledge transfer.<br />
Therefore, we aim to build a database that embodies both concept systems and lexical<br />
articles with various data fields offering encyclopaedic as well as lexical-semantic<br />
knowledge.<br />
Our project<br />
The first step is a pilot project whose empirical subject-matter will focus on<br />
selected concepts and terms within the domain of auditing in Danish, English<br />
(including international English and British English) and German. This paper intends<br />
to present our pilot project and discuss our work at the initial stage as well as our<br />
findings so far. The research project will include the following steps:<br />
(1) a contrastive analysis of the selected concepts and terms within the domain of<br />
auditing in Danish, English and German;<br />
(2) experimental work concentrated on combining terminological, lexicographical<br />
and encyclopedic information types and data structures; and<br />
(3) the development of principles and models for target-group oriented knowledge<br />
transfer.<br />
As a tool, the terminological management system i-Term will be used for<br />
compilation, analysis and presentation of concepts and terms as well as for<br />
experimenting with target-group oriented approached and determination of best<br />
practice. i-Term has been developed by DANTERM, the terminology centre at <strong>CBS</strong>.<br />
A spin-off of the research work will be an easily accessible resource containing up-todate<br />
terms and knowledge within the area of auditing. This resource will be an<br />
invaluable tool both internally for <strong>CBS</strong> students and lecturers, and externally for<br />
language and communications professionals, experts and decision-makers in business<br />
enterprises navigating in a global business environment subject to ever-changing rules.<br />
Furthermore, the project will be the basis for new inspiration and ideas for the<br />
development of i-Term and thereby terminological management systems.<br />
NORDTERM 2009, København 9.-12. juni 2009 296
Hypothesis<br />
Our starting point in the project work is the hypothesis that by drawing on the<br />
theories of both terminology and LSP lexicography it is possible to build a state-ofthe-art<br />
LSP database in which all information needed by a diversified user group is<br />
structured and presented in a clear and easily accessible form.<br />
The definition of the target group is important: we want to offer a heterogeneous<br />
user group an electronic, multilingual LSP database catering to the greatest possible<br />
extent for the specific needs of such a group, well aware that such needs may indeed<br />
be diverse. We have chosen to highlight semi-professional users (e.g. translators), but<br />
at the same time cater for experts (e.g. auditors and accountants) and, lastly, laymen.<br />
This means creating a multi-functional database that is both communicative and<br />
knowledge oriented. What can terminology, an electronic database and LSP<br />
lexicography each offer to create added value?<br />
Terminology<br />
Let us first look at terminology: For the purpose of our project, the terminology<br />
method will be the knowledge base approach (Madsen, Thomsen and Vikner (1999)).<br />
This approach uses the term terminological ontology as synonym to the term concept<br />
system, which is normally used in terminology work. Terminological ontologies are<br />
knowledge-enriched, meaning that – compared to other types of ontologies – they will<br />
comprise richer semantic information, i.e. formal specifications of both concept<br />
relations and characteristics that may form the basis for (semi)-automatic positioning<br />
and consistency checking.<br />
Clarification of concepts is a prerequisite to achieving precise definitions and<br />
adequate choice of equivalent in the target language. Concept definitions are written<br />
on the basis of concept relations and characteristic features. Only one term is chosen<br />
as the preferred term. However, synonyms may be registered as terms 2 or 3 etc. to<br />
help users. Building the concept system based on the characteristic features of the<br />
concepts will ensure correct mapping of the concepts and prove their interrelations:<br />
subordinates will inherit characteristics from their superordinate concept etc. This<br />
structure enables precise definitions that are brief and to the point: they take the<br />
superordinate concept as a starting point and add the delimiting feature(s). The<br />
inherited features are implicit and need not be repeated, but will of course require user<br />
knowledge about the superordinate concept, based on orientation in the concept<br />
system. It is obvious that concepts suitable for this approach are primarily nouns,<br />
however, verbs and other word classes may be included in the concept system by way<br />
of associative relations. Polysemy does not offer any challenge when building a<br />
termbase based on a concept system: polysemous terms are only relevant to include if<br />
they belong to the same domain as the other concepts in the ontology; if not, they do<br />
not belong in the termbase in question.<br />
NORDTERM 2009, København 9.-12. juni 2009 297
The Electronic Database<br />
The second value-adding element is the electronic database. In fact, this tool<br />
constitutes the foundation that will make building the multi-functional database<br />
feasible. First of all, the electronic medium is open-ended which means that there is no<br />
limit to the amount of data included. As many data fields as appropriate can be<br />
included. Users may jump from one data field to another, even between several<br />
articles or databases on line. Lastly, and not least important, the data included are<br />
easily and continuously updatable and extendable. In short: an electronic database<br />
provides database builders with space and speed, features that mean a wide step<br />
forward in the compilation, presentation and use of lexical data. This leads us to the<br />
third important research area: LSP lexicography.<br />
LSP Lexicography<br />
Lexicography is the science of dictionaries, and the products of lexicography are<br />
dictionaries. Originally, lexicographic theory was seen as part of linguistics, and<br />
dictionaries as reference material mapping the vocabulary of language. Later research<br />
(covered by lexicographers and researchers such as Wiegand, Bergenholtz, Tarp, and<br />
Nielsen) sees lexicographic theory as a separate science based on the user and the use<br />
of dictionaries. As the object of lexicography is dictionaries, it makes sense to focus<br />
on dictionaries as tools with certain functions, i.e. the use of such dictionaries and their<br />
users. Modern lexicographical method focuses on determining the functions of a given<br />
dictionary based on the mapping of types of (1) users, (2) user situations, and (3) user<br />
needs (Tarp (2003:48)).<br />
The functional lexicography theory defines a dictionary as a lexicography<br />
reference work designed to fulfil one or more functions, to contain lexicographic data<br />
supporting the function(s), and to contain lexicographic structures that combine and<br />
link the data to fulfil the function(s) (Nielsen and Mourier (2007:121)).<br />
The function-based approach distinguishes between two main types of function:<br />
communication-oriented and knowledge-oriented functions. Communication-oriented<br />
functions focus on text reception in users’ native language (L1) or/and in a language<br />
foreign to users (L2), the translation of texts from/to L1 to/from L2, and the<br />
production, revision and editing of texts in either L1 or L2. Knowledge-oriented<br />
functions focus on acquiring information and deriving and verifying knowledge. This<br />
may be general knowledge about the L1 and/or L2, or about specific delimited subject<br />
areas in L1 and/or L2 (Nielsen and Mourier (2007:122)).<br />
A dictionary or termbase aiming at covering both the communication-oriented and<br />
the knowledge-oriented functions must therefore include a large amount of data in<br />
order to give answers to users needing the dictionary or termbase for both purposes.<br />
As pointed out by Nielsen and Mourier (2007:123-25), lexicographers compiling such<br />
a multifunctional dictionary need to find the best possible way of arranging the<br />
linguistic and informative data to facilitate user search.<br />
For the LSP dictionary applies that all word classes can be lemmatised. Lemmata<br />
are arranged in articles providing both linguistic and knowledge data – and certainly,<br />
as already mentioned, the electronic medium addresses the challenges of space and<br />
NORDTERM 2009, København 9.-12. juni 2009 298
quick access to a high amount of data. Definitions are typically long: they are meant to<br />
delimit the L1 term and justify equivalence with the L2 term. Besides, they should<br />
also give users relevant background knowledge by providing encyclopedic data. The<br />
lexicographer may consider using extra data fields to provide useful linguistic<br />
information, e.g. concerning different meanings of the term in the singular and plural<br />
forms. Other fields can be used to inform users about synonyms, antonyms and other<br />
cross-references as well as source references, where appropriate – and these terms and<br />
references may be clickable so that they will instantaneously take users to the relevant<br />
term or external source reference. Polysemous terms are found under the same main<br />
article, where the equivalent to the term in question is provided according to the<br />
definition of that term. For English, users will need information if the English terms<br />
differ according to variety of English: international, US or UK English. Last, but not<br />
least important to the communication-oriented functions is the inclusion of<br />
collocations and text examples, preferably with translations between L1 and L2.<br />
THE ELECTRONIC INTERNET ACCOUNTING DICTIONARIES<br />
Examples of electronic dictionaries already moving in this direction are found in<br />
the interlinked English-English, English-Danish, Danish-Danish and Danish-English<br />
Accounting Dictionaries on the Internet (Nielsen, Mourier and Bergenholtz (2003-<br />
06)). They constitute advanced bilingual LSP electronic dictionaries with focus on<br />
heterogeneous users and their diversified needs. They provide communication- and<br />
knowledge-oriented (encyclopedic) data and offer a wide range of the advantages<br />
inherent in the electronic medium.<br />
Our empirical study<br />
The reason for selecting our empirical data within the domain of auditing is that<br />
just now this subject area is undergoing many changes both in content and<br />
terminology. Our focus will therefore be on the new international auditing and<br />
assurance standards that are being implemented nationally in EU member states,<br />
including Denmark. The national implementation process offers terminology<br />
challenges going from international English to e.g. Danish, and the study will<br />
therefore contribute to the identification of differences between English and Danish,<br />
and at the same time develop a new model for the constellation of knowledge and<br />
consequent transfer of this knowledge to target groups with different requirements.<br />
Our first step is to make a contrastive analysis of Danish and English concepts<br />
with particular focus on the new terminology of auditors’ engagements. The analysis<br />
will lead to the building of an LSP mini-database based on the methods of terminology<br />
and LSP lexicography and contribute to the verification or falsification of our<br />
hypothesis (see above). Later steps will be to include other languages such as German,<br />
French and Russian.<br />
Our LSP database intends to<br />
Our LSP Database<br />
NORDTERM 2009, København 9.-12. juni 2009 299
provide precise definitions (building on concept systems (terminological<br />
method))<br />
select adequate equivalents to concepts (building on these definitions)<br />
include linguistic and encyclopedic data (building on LSP lexicography)<br />
include collocations and text examples with translations (building on LSP<br />
lexicography)<br />
provide easy access to all data (building on both terminology and<br />
lexicograhy)<br />
and in this way seek to create added value to builders and users of termbases.<br />
The initial stage of our work has been the building of an appropriate text corpus<br />
for background knowledge: selecting legal texts, rulebooks, auditing and assurance<br />
standards as well as other valid, relevant auditing text material. The next stage has<br />
been concentrated on selecting relevant concepts (terms) for the database. Now, we are<br />
in the process of building the concept system.<br />
The first challenge we met with was deciding the subdivision criteria. It turned<br />
out that there is not one obvious criterion to apply on the first level, but a number of<br />
relevant options. The established possible subdivisions for auditors’ engagements are:<br />
assurance/conclusion is included or not included<br />
degree of assurance is high or limited<br />
statement by the responsible party is available or not available to the intended<br />
users<br />
issuance is voluntary or statutory<br />
subject matter concerns financial statements or other than financial statements<br />
user is the engaging party or not the engaging party only.<br />
Criteria 2 and 3 may indisputably be attributed as further subdivision criteria to<br />
criterion 1. Criterion 1 and criteria 4 to 6 exist side by side and lead to separate sets of<br />
concepts and terms focussing on different aspects of the superordinate. At the same<br />
time, some concepts exist as subordinates to several superordinates. If all these<br />
possible combinations are to be shown in a concept system unambiguously and<br />
according to the strict rules of terminology, it is necessary to introduce a multitude of<br />
non-lexicalised concepts.<br />
However, including a great number of such non-lexicalised concepts strains the<br />
potential of a conventional concept system to a great extent and makes the concept<br />
system close to chaotic, contrary to our wish for user-friendliness. Therefore, we<br />
decided to limit the number of non-lexicalised concepts to a minimum, thus<br />
simplifying the system. The first draft of such a simplified concept system is shown in<br />
Figure 1 below:<br />
NORDTERM 2009, København 9.-12. juni 2009 300
FIGURE 1. Concept system of auditors’ engagements. Birthe Vesterli and Lise Mourier, <strong>CBS</strong> 2009.<br />
NORDTERM 2009, København 9.-12. juni 2009 301
Another challenge is that in practice the same lexical item or term is sometimes<br />
applied to two different concepts at the risk of creating confusion or misunderstandings.<br />
A case in point is that the Danish term erklæringsopgave has been found to cover<br />
both the English equivalent engagement (with the synonym: auditors’ engagement)<br />
and the English equivalent assurance engagement. The latter English concept is also<br />
expressed with the Danish term erklæringsopgave med sikkerhed. Working with<br />
definitions and concept characteristics helps to clarify such ambiguity and leads to the<br />
building of a concept system showing erklæringsopgave both as a superordinate of<br />
erklæringsopgave med sikkerhed (assurance engagement) and beslægtet opgave<br />
(related service or non-assurance engagement) that are divided by the assurance<br />
criterion, and as a synonym to the subordinate concept of erklæringsopgave med<br />
sikkerhed (assurance engagement).<br />
Definitions should always start with the superordinate, since a subordinate<br />
concept inherits the characteristics of its superordinate (see the above section on<br />
Terminology). In casu erklæringsopgave med sikkerhed can be determined as:<br />
“erklæringsopgave, hvor revisor udtrykker en konklusion, der er udformet for at<br />
højne troværdigheden og øge graden af tillid til emnet for erklæringen over for de<br />
tiltænkte brugere af den pågældende information.”<br />
[engagement where the auditor provides a conclusion to increase the credibility<br />
and reliability of the subject matter of the report to the intended users of the<br />
information in question].<br />
We have compared our findings with the lemma articles in the Danish-English<br />
Accounting Dictionary (Nielsen, Mourier, Bergenholtz: Den Dansk-Engelske<br />
Regnskabsordbog (2003)), which present erklæringsopgave and erklæringsopgave<br />
med sikkerhed, respectively, with the following definitions (excerpts):<br />
1. erklæringsopgave – assurance engagement<br />
Definition:<br />
En erklæringsopgave er en opgave, hvor en revisor afgiver en erklæring om et<br />
specifikt forhold vedrørende en virksomhed og derved optræder som en<br />
tillidsrepræsentant for offentligheden. Eksempler på erklæringsopgaver er<br />
revision af årsrapporter, erklæringer ved fusion, spaltning og kapitalnedsættelse,<br />
og erklæringer på opgørelsen af skattepligtig indkomst.<br />
[Translation: An assurance engagement is an engagement where the auditor<br />
expresses a conclusion on a specific matter concerning an enterprise and thereby<br />
acts as a public representative. Examples of assurance engagements are audits of<br />
annual reports, reports in connection with mergers, demergers or capital<br />
reduction and reports on income tax statements.]<br />
2. erklæringsopgave med sikkerhed – assurance engagement<br />
Definition:<br />
Erklæringsopgaver med sikkerhed er opgaver, hvor revisor afgiver en erklæring<br />
om et eller flere undersøgte forhold og udtrykker en grad af sikkerhed, som er<br />
NORDTERM 2009, København 9.-12. juni 2009 302
passende afhængigt af, om der er tale om en opgave med høj sikkerhed, fx<br />
revision, eller en opgave med begrænset sikkerhed, fx review.<br />
[Translation: Assurance engagements are engagements where the auditor<br />
expresses a conclusion on the outcome of one or several matters investigated and<br />
expresses assurance, depending on whether the engagement is a reasonable<br />
assurance engagement, e.g. audit, or a limited assurance engagement, e.g.<br />
review.]<br />
When comparing the lemma excerpts with our findings, we established that the<br />
definition of erklæringsopgave (1) as the superordinate is correct. However, there are<br />
two problems: (a) There is no information that the term erklæringsopgave is also used<br />
in practice for the subordinate erklæringsopgave med sikkerhed, and more<br />
problematic: (b) the English equivalent (assurance engagement) refers to the<br />
subordinate instead of to the superordinate that is the lemma of this article – the<br />
correct equivalent referring to the superordinate is engagement (with the synonym:<br />
auditor’s engagement).<br />
The definition of erklæringsopgave med sikkerhed (2) is also correct. However, this<br />
lemma article might have helped the user by including a comment field with the same<br />
information as under (a) above.<br />
The above example proves that the terminological approach adds value to LSP<br />
lexicography and will lead to the correct choice of equivalent.<br />
CONCLUSION<br />
Our findings are that adding definitions to an LSP dictionary improves user value,<br />
but only the terminological method will ensure precise mapping of concepts/terms so<br />
that full equivalence between terms in different languages may be achieved. This<br />
proves that terminology is a valuable contribution to LSP lexicography. However, the<br />
inclusion of all possible concept variants in a concept system will complicate the<br />
system and necessitates a multitude of non-lexicalised concepts that users neither<br />
know nor need to know. Therefore, builders of concept systems may have to give<br />
priority to user-friendliness rather than to the strict application of the terminological<br />
method.<br />
LSP lexicography can contribute values to terminology as a terminological<br />
database will profit from including additional communicative and knowledge data to<br />
the database by way of adding data fields with such information.<br />
An electronic LSP database of the quality we want to offer can only be established<br />
by drawing on the terminological method.<br />
PERSPECTIVE<br />
Our next step is to focus on the LSP lexicographical method and how to present<br />
lexicographical data such as collocations and text examples in our database articles.<br />
We shall then proceed to work with the structure of concept articles in a multilingual<br />
NORDTERM 2009, København 9.-12. juni 2009 303
ase and provide extra definitions addressed to a heterogeneous user group (semiexperts<br />
and laypeople). We will also work with the presentation of easily retrievable<br />
(clickable) data fields with a view to finding the optimum structure of a multilingual,<br />
electronic LSP database catering for the specific needs of many users.<br />
REFERENCES<br />
Bekendtgørelse om godkendte revisorers erklæringer (erklæringsbekendtgørelsen). Nr. 668 af 26. juni<br />
2008. I: Lovtidende A.<br />
Dansk Standard (1998). DS 2394.1: Leksikalske datasamlinger. Indholds- og strukturbeskrivelse. Del 1:<br />
Taksonomi til klassifikation af oplysningstyper. 84 pp. København.<br />
Erhvervs- og Selskabsstyrelsen (2009). Vejledning om bekendtgørelsen om godkendte revisorers<br />
erklæringer (erklæringsbekendtgørelsen) af 24. marts 2009.<br />
Foreningen af Statsautoriserede Revisorer (2006). Retningslinjer for revisorers etiske adfærd. (Etiske<br />
regler for revisorer).<br />
International Federation of Accountants (IFAC) (2008). Handbook of International Auditing,<br />
Assurance, and Ethics Pronouncements. Part II. Glossary of Terms. At: http://www.ifac.org.<br />
(downloaded March 2009).<br />
Lov nr. 468 af 17. juni 2008 om godkendte revisorer og revisionsvirksomheder (revisorloven).<br />
Nistrup Madsen, B. (1999). Terminology – Principper og Metoder, Bd. I, 231 pp., København: Gads<br />
Forlag.<br />
Nielsen, S., L. Mourier (2007). Design of a function-based internet accounting dictionary. Dictionary<br />
Visions, Research and Practice. Eds. H. Gottlieb & J.E. Mo gensen, Terminology an Lexicography<br />
Research and Practice. Vol. 10, pp. 119-135. Amsterdam/Philadelphia: John Benjamins Publishing<br />
Company.<br />
Nielsen, S., L. Mourier & H. Bergenholtz (2003). Den Dansk-Engelske Regnskabsordbog:<br />
www.Ordbogen.com. Design and layout: R. Almind, Aarhus: Centre for Lexicography. Also printed<br />
as: Nielsen, Mourier, Bergenholtz (2004). Regnskabsordbogen Dansk-Engelsk, Publ. Forlaget<br />
Thomson A/S, Copenhagen.<br />
Tarp, S. ( 2006). Leksikografien i grænselandet mellem viden og ikke-viden. Bd. 1 (2). 199 pp.<br />
Doktorafhandling. Aarhus: Center for Leksikografi.<br />
NORDTERM 2009, København 9.-12. juni 2009 304
Ontology-based Triangulated Terminology<br />
Management<br />
Fumiko Kano Glückstad<br />
International Language Studies and Computational Linguistics<br />
Copenhagen Business School<br />
Dalgas Have 15, DK-2000 Frederiksberg, Denmark<br />
+45 3815 3335<br />
fkg.isv@cbs.dk<br />
Abstract. First, I demonstrate that there exist two types of transitive translations when name of a<br />
country specific Named Entity (NE) is translated from a source language to a target language in<br />
rare language combinations. The first type is human-based official transitive translation often<br />
having official English expression as inter-lingua. The second type is dictionary-based lexical<br />
transitive translation that is necessary in the process of directly translation from a source<br />
language to a target language in a rare language combination. Second, I argue about<br />
consequences created by the official- and lexical transitive translations in the context of Cross<br />
Lingual Information Retrieval. And finally, I propose a multilingual ontology solution referred<br />
to as a ontology-based terminology management.<br />
Keywords. Transitive translation, multilingual ontology, named entity disambiguation,<br />
terminology, cross lingual information retrieval<br />
INTRODUCTION<br />
My research issue has been raised by a question: Is it possible to identify local firsthand<br />
information produced in non-English speaking countries from Japanese queries<br />
translated from their official English information sources? Specifically, the issue is<br />
rooted in a plurality of inconsistencies found between Japanese translations made<br />
through the direct lexical translation from Danish to Japanese and Japanese<br />
translations made through the transitive translation using official English translations<br />
as source. A typical example of such a translation problem is illustrated where the<br />
formal English name of the Danish authority “Økonomistyrelsen” is “The Danish<br />
Agency for Governmental Management.” The Danish originated name,<br />
“Økonomistyrelsen”, will most likely be translated into a completely different<br />
Japanese expression through lexical English translations, “Economy Agency (keizaityou)”<br />
using available language resources such as Danish-English and English-<br />
Japanese dictionaries. Eventually, it becomes increasingly difficult for Japanese<br />
readers to identify the original Danish NE in the process of Cross Lingual Information<br />
Retrieval (CLIR) due to inconsistent Japanese translations. This type of problem is<br />
NORDTERM 2009, København 9.-12. juni 2009 305
likely identified in rare language combinations consisting of non-English languages,<br />
especially less-similar language combination such as the EU- and the Asian language<br />
combinations. In this study, I will use the Danish-Japanese combination as an<br />
example. In this work, I describe the relevant researches on the transitive translation in<br />
the context of CLIR in chapter 2. In chapter 3, I report the preliminary survey of<br />
measuring frequency and inconsistency of the official- and lexical transitive<br />
translation of names of Danish NEs. Finally, I propose a multilingual ontology<br />
solution referred to as a triangulated terminology management approach in chapter 4<br />
followed by conclusion in chapter 5.<br />
OFFICIAL – AND LEXICAL TRANSITIVE TRANSLATION<br />
In CLIR, there are three types of basic methods in query translations: a) dictionarybased<br />
machine translation, b) corpus-based machine translation, and c) ontology based<br />
machine translation. The problem with a) and b) is that there is no sufficient language<br />
resource available for most language pairs that are part of rare combinations. Hence, it<br />
is required to employ a word-by-word lexical transitive translation technique using a<br />
pivot language. Gollins and Sanderson (2001) pointed out that, this technique<br />
increases the likelihood of translation errors, caused mainly by incorrect identification<br />
of the sense of ambiguous words. Ballesteros (2001) examined the impact of transitive<br />
translations and discovered that using simple word-by-word transitive translations<br />
from Spanish to French via English degraded performance by 91% when compared to<br />
direct bilingual translation from Spanish to French. Gollins and Sanderson (2001)<br />
introduced an approach to reducing errors by combining translations from two<br />
different transitive routes, a process known as lexical triangulation. Their results<br />
showed that the lexical triangulation approach to the transitive translation eliminated<br />
the difference in retrieval between transitive translated queries and equivalent direct<br />
translated queries.<br />
However, considering the aforementioned specific example of the Danish NE<br />
expression, “Økonomistyrelsen”, there are two types of transitive translation and the<br />
solution proposed by Gollins and Sanderson (2001) only addresses issues arisen from<br />
the lexical transitive translation. It means that it is necessary to distinguish the<br />
transitive translation using official English translation as inter-lingua from the lexical<br />
transitive translation.<br />
PRELIMINARY SERVEY<br />
In order to compare differences between official- and lexical transitive translations<br />
of original Danish NEs, I have selected names of Danish governmental organizations<br />
(ministries and institutions under the ministries) from web sites of the Danish<br />
ministries, most of which provide official English names of their organizations. For<br />
performing a lexical translation of the Danish names into English, I used one of the<br />
most popular Danish-English dictionary series in Denmark entitled “Gyldendals Røde<br />
Ordbøger”. Regarding the lexical translation, I defined the following rules: 1) names<br />
NORDTERM 2009, København 9.-12. juni 2009 306
consisting of several words should be translated word-by-word; 2) If the dictionaries<br />
propose an English translation equal to the corresponding official English translation,<br />
the official English expression should be applied. Accordingly, I translated all of 70<br />
Danish names into English and extracted 26 English lexical translations that were not<br />
identical to the official translations. Since these English translations of Danish names<br />
are Multi-Word Expressions, I further decomposed them into each lexical unit (word)<br />
and enlisted the inconsistent word pairs that were scope for further inconsistency<br />
analysis. For comparing the inconsistencies of these word pairs, I used a semantic<br />
similarity measure based on a basic path length calculation provided on the web<br />
interface of the WordNet::Similarity (Pedersen et.al. 2004). The result showed the<br />
semantic distance in most of the inconsistent word pairs produced via official- and<br />
lexical English translations (Figure 1). That is to say, the similarity measures based on<br />
path length indicate the inconsistency level of English translations made through the<br />
official- and the lexical translation.<br />
beginning<br />
innovation<br />
Root*<br />
entity<br />
abstraction<br />
psychological_feature<br />
event<br />
act<br />
action<br />
change<br />
change_of_state<br />
improvement<br />
development<br />
Path length : 5<br />
Semantic Similarity: 1 / 5 = 0.2<br />
Root*<br />
entity<br />
abstraction<br />
psychological_feature<br />
event<br />
act<br />
activity<br />
work<br />
investigation<br />
research<br />
12<br />
1 / 12 = 0.0833<br />
FIGURE i). Example of Semantic Similarity<br />
OUTLOOK<br />
cognition<br />
content<br />
knowledge_domain<br />
discipline<br />
science<br />
The result of preliminary study showed that there are often semantic distances<br />
between English translations made through a so-called official translation and a socalled<br />
lexical translation. The noteworthy question is how a Japanese translation of<br />
these pairs of English translations will turn out. My initial assumption is that these<br />
Japanese translations will create expressions with an even deeper level of<br />
inconsistency (i.e. FIGURE 2). It means that it will be increasingly difficult to identify<br />
the original Danish NEs from various Japanese translations. If there were universal<br />
rules defining “a name should always be translated based on the lexical meaning of its<br />
original language”, these inconsistencies would potentially be tremendously reduced.<br />
However, the decision of names and their translations usually involves a plurality of<br />
NORDTERM 2009, København 9.-12. juni 2009 307
issues, such as political (domestically, internationally), cultural, social and so on. It<br />
means that problems originating from both official- and lexical transitive translations<br />
should be carefully dealt with in terms of a so-called Named Entity Disambiguation.<br />
As a solution, I propose an ontology-based triangulated terminology management<br />
approach. The approach is based on the idea that a country specific NE has a unique<br />
ontological structure, since a named entity is per definition unambiguously defined on<br />
a global scale. For example, the Danish governmental organizations are existing<br />
according to a Danish governmental structure that is uniquely defined in this country.<br />
It means that the ontological structure is unique even though each named entity is<br />
expressed in different languages. Therefore, an ontology-based terminology database<br />
consists of three layers: a) each NE expressed in a source language, b) its official<br />
expression in an inter-lingual language (usually in English), and c) all possible<br />
expressions in a target language (FIGURE 3). These three layers should have a<br />
triangulated relationship as shown in FIGURE 4. The key issue is that the name of an<br />
entity expressed in a source language and an official expression in an inter-lingual<br />
language should have a relationship linking them like “is translation of” each other.<br />
However, an expression in a target language that “is translation of” either a name of an<br />
entity expressed in a source language or an official expression in an inter-lingual<br />
language is uni-directionally linked and hence cannot be traced the other way around.<br />
A frame for expressions in a target language should contain all possible translations<br />
from any available corpora in the target language. It is my aim to establish a<br />
triangulated terminology database in the Danish e-government domain based on an<br />
ontology-based terminology management system developed by Copenhagen Business<br />
School (Madsen et.al. 2006).<br />
FIGURE ii). Inconsistent Official- and Lexical translations<br />
NORDTERM 2009, København 9.-12. juni 2009 308
Named Entity expressed<br />
in a source language<br />
Official expression<br />
in a inter lingual language<br />
Expressions<br />
in a target language<br />
- Country specific NE has<br />
a unique ontological structure<br />
-NE should contain identifiers<br />
specifying time/period/place<br />
(e.g. country code)<br />
FIGURE iii). Ontology-based Terminology Management<br />
The Veterinary and Food<br />
Administration<br />
Official expression<br />
in a inter-lingual language<br />
Is translation of<br />
Is translation of<br />
Triangulated<br />
terminology<br />
management<br />
using standard<br />
identifier<br />
食品管理庁<br />
食糧庁<br />
食品局<br />
獣医・食品管理庁<br />
Is translation of<br />
Fødevarestyrelsen<br />
Named Entity expressed<br />
in a source language<br />
Expressions<br />
in a target language<br />
FIGURE iv). Triangulated Terminology Management<br />
NORDTERM 2009, København 9.-12. juni 2009 309
CONCLUSION<br />
In this paper, I first demonstrated phenomena identified in translation processes in<br />
rare language combinations such as Danish and Japanese. These phenomena will<br />
potentially create problems for readers of the translated texts due to the diversion of<br />
translations. As a solution, I proposed an ontology-based triangulated terminology<br />
management approach.<br />
ACKNOWLEDGMENTS<br />
I would like to thank my supervisor, Hanne Erdman Thomsen for helpful advices on my<br />
project.<br />
REFERENCES<br />
Gollins, T. and Sanderson, M. (2001) Improving Cross Language Information Retrieval with<br />
Triangulated Translation, Proceedings of the 24 th<br />
annual international ACM SIGIR conference on<br />
Research and development in information retrieval, New Orleans, Louisiana, United States:pp.90-95<br />
Ballesteros, L. (2001) Cross Language Retrieval via transitive translation, In Croft W. B. (ed). Advances<br />
in Information Retrieval: recent Research from the CIIR, Kluwer Academic Publishers, pp.203-234<br />
Pedersen, T., Patwardhan, S., and Michelizzi, J. (2004) WordNet::Similarity – Measuring the<br />
Relatedness of Concepts. Available from: http://search.cpan.org/dist/WordNet-Similarity.<br />
Madsen, B, Thomsen, H. and Wenzel, A (2006) i-Term for NORDTERM 5th International Conference<br />
on Language Resources and Evaluation (LREC 2006), Workshops Proceedings: W16 Terminology<br />
Design: Quality Criteria and Evaluation Methods (TermEval). Genova, Italy<br />
NORDTERM 2009, København 9.-12. juni 2009 310
Oppsummering – arbeidsseminar om<br />
språkteknologiske termer på de nordiske<br />
språkene<br />
Torbjørg Breivik<br />
Språkrådet, Norge<br />
Abstract. De nordiske språknemndenes arbeidsgruppe for språkteknologi (ASTIN) arrangerte en<br />
workshop i tilknytning til Nordterm 2009. Utgangspunktet var et arbeid med språkteknologiske<br />
termer for de nordiske språkene som ble påbegynt av de nasjonale dokumentasjonssentrene for<br />
forskningsprogrammet Nordisk Språkteknologi. Det nordiske nettverket for disse sentrene ble<br />
kalt NorDokNet. Alle sentrene hadde egne nettsider der oppsett og innhold skulle være likt, men<br />
utformingen kunne variere. For å kunne publisere samme type informasjon på nettsidene var det<br />
nødvendig å bruke samme ”merkelapp” på de ulike delene av innholdet. Mange av personene<br />
som var involverte i dette arbeidet, var også involvert i undervisning i språkteknologi på sine<br />
respektive institusjoner og hadde sett behovet for å ha en terminologi på eget språk.<br />
Terminologien er også nødvendig for å kunne formidle hva språkteknologi er, f.eks. ved<br />
rekruttering av studenter. Arbeidet med termene startet mot slutten av perioden for<br />
forskningsprogrammet og meningen var at de enkelte involverte skulle sørge for videre arbeid i<br />
egen regi. Dette har i varierende grad skjedd. ASTIN ønsket derfor å diskutere muligheten for å<br />
gå videre med utvikling av en nordisk språkteknologisk terminologi og om det er grunnlag for å<br />
etablere et nordisk prosjekt. Innlederne på workshoppen var personer som var involvert i<br />
arbeidet fra starten av, og personer som representerer miljø med høy kompetanse i<br />
terminologiarbeid. Rundt 20 personer deltok på møtet.<br />
INNLEGGENE<br />
Innleggene på seminaret tok for seg ulike aspekter ved terminologiarbeidet som er<br />
gjort: hva ble gjort i det enkelte land innenfor NorDokNet og hva er gjort i ettertid. I<br />
tillegg hadde innlederne blitt utfordret til å si noe om videre arbeid og hvordan et slikt<br />
arbeid kan organiseres.<br />
Torbjørg Breivik fra ASTIN ga en kort introduksjon til workshoppen der<br />
bakgrunnen for møtet ble trukket opp. Formålet med møtet var å undersøke om det var<br />
interesse for å etablere et nordisk prosjekt for språkteknologitermer. ASTIN kan påta<br />
seg å stå for å koordinere arbeidet med en prosjektskisse og selve søkeprosessen, men<br />
arbeidet kan ikke settes i gang uten av de som representerer fagområdet i de enkelte<br />
landene deltar. Om diskusjonen skulle vise at det var enighet om å starte prosessen<br />
med etablering av prosjektet, var også arbeidsmåten et aktuelt tema. Hvilke verktøy og<br />
hvilke kanaler kan være effektive for formålet? Arbeidet må kunne foregå på nettet<br />
med mulighet for et eget diskusjonsforum.<br />
NORDTERM 2009, København 9.-12. juni 2009 311
Koenraad de Smedt, Norge, var med i terminologiarbeidet innenfor NorDokNet og<br />
det var han som trakk fram den korte, flerspråklig lista over språkteknologitermer som<br />
i sin tid var utgangspunktet for det NorDokNet gjorde. Meningen var at lista skulle<br />
kompletteres med definisjoner og/eller forklaringer på de nordiske språkene, legges ut<br />
på nettsidene til dokumentasjonssentrene og deretter utvides litt etter litt. De Smedt ga<br />
en oversikt over hva som finnes på norsk av termlister for språkteknologi. De fleste er<br />
noen år gamle og lite nytt arbeid har blitt gjort på dette feltet i Norge etter at det<br />
nordiske forskningsprogrammet i språkteknologi ble avsluttet. Hans konklusjon var at<br />
det finnes noen lister, utvalget av termer er lite, ofte tilfeldig og det er lite<br />
terminologisk informasjon til den enkelte term. Han framhevet at det er positivt at<br />
listene har flere språk. Videre arbeid må være å legge til terminologisk informasjon,<br />
utvide antallet og få med opplysninger om subdomene, bruksområder og semantiske<br />
relasjoner. Han pekte på at man kan bygge en termbase basert på verktøy i Wiki. Det<br />
er avgjørende for nytteverdien av basen at man tar med informasjon som subdomene,<br />
semantiske relasjoner osv. for den enkelte term som legges inn.<br />
Henrik Nilsson ga en oversikt over situasjonen i Sverige: der finnes en egen<br />
referansegruppe for språkteknologi som er satt sammen av personer fra sentrale<br />
aktører innenfor språkteknologiområdet inklusive Språkrådet. Det finnes et eget<br />
nettsted (språkteknologi.se) for arbeidet som gjøres på området, og dette vil utgjøre en<br />
stor ressurs om det etableres et eget prosjekt for språkteknologiske termer for de<br />
nordiske språkene. Det arbeides systematisk med terminologi i Sverige og under<br />
hovedkonferansen for Nordterm 2009 presenterte TNC (Terminologicentrum)<br />
Rikstermbanken som skal inneholde kvalitetssikrede termer for mange fagområder.<br />
Store deler av ressursene i Rikstermbanken vil være flerspråklige. Det finnes ikke<br />
noen egen aktivitet bare for språkteknologiske termer.<br />
Arbeidet som ble gjort innenfor NorDokNet, omfattet svenske termer og er<br />
inkludert i det den svenske referansegruppen arbeider med.<br />
Nilsson presenterte en oversikt over terminologiressurser som ellers finnes for<br />
svensk, og som kan ha relevans for det videre arbeidet. Han trakk særlig fram arbeidet<br />
som er gjort, og gjøres, i den svenske datatermgruppen.<br />
Utfordringene og problemene ifølge Nilsson er at dette er et smalt fagområde, man<br />
får problem med tilgrensende områder innenfor IKT-fagene. Det finnes både markeds-<br />
og forskningstermer, og det kan by på utfordringer ved valg av målgruppe. Hvem skal<br />
man lage denne terminologien for? Bransjen er heterogen og perspektivene blandes.<br />
Terminologi brukes ofte i markedsføring, men her ser man en stor og ofte unødvendig<br />
variasjon i termbruken som bidrar til forvirring og uklarheter. Det finnes ingen<br />
lærebøker i språkteknologi på svensk. Det er også et spørsmål om den store<br />
termvariasjonen er uttrykk for synonymi eller om det er reelle forskjeller. Fagområdet<br />
har stor innflytelse fra andre språk, og særlig fra engelsk lånes mange ord og termer.<br />
Spørsmålet er om man bare kan følge utenlandske standardverk i valg av termer? Det<br />
vil si bare oversette de utenlandske termene eller er det andre hensyn som også må tas,<br />
f.eks. til eget språk og tilgrensende, etablerte terminologier?<br />
NORDTERM 2009, København 9.-12. juni 2009 312
Nilsson avsluttet med å peke på den organisatoriske og terminologifaglige<br />
kompetanse TNC har, samt det nettverket av fageksperter og høringsinstanser de har<br />
knyttet til seg gjennom mange år. Dette er en styrke om man skal etablere et nytt<br />
nordisk prosjekt, men ethvert fagområde byr også på mange språkfaglige utfordringer,<br />
og tverrfaglig samarbeid er nødvendig.<br />
Hanne Fersøe presenterte status for arbeidet med språkteknologiske termer i<br />
Danmark. Hun startet med å vise til arbeidet som ble gjort av dokumentasjonssentrene<br />
for språkteknologi (NorDokNet). Hun viste også en oversikt over europeiske,<br />
flerspråklige termprosjekt, bl.a. en termliste for språkteknologi som ble laget innenfor<br />
Euromap/Hope-prosjektene. NorDokNet satte også i gang et eksperiment med<br />
automatisk ekserpering av flerspråklig terminologi hentet fra tekst på flerspråklige<br />
nettsider. Resultatet fra eksperimentet ble brukt i prosjektet Nordisk nettordbok som<br />
ble avsluttet i 2007.<br />
Ifølge Fersøe er det i dag ingen generell aktivitet på utvikling av terminologi<br />
innenfor språkteknologi, men i enkelte prosjekt arbeides det med terminologiske<br />
problemstillinger (Nordisk nettordbok). Center for Sprogteknologi (CST) har tidligere<br />
vært involvert i spesifikasjon av den europeiske termbasen IATE, utvikling av rutiner<br />
for import av eksisterende termbaser til IATE, analyse og spesifikasjon av automatisk<br />
identifisering og fletting av dubletter i samme base. De har også arbeidet med<br />
utvikling av metoder og standarder i EuroTermBank-prosjektet, og er positive til å<br />
delta i diskusjoner om hvordan dansk terminologi for språkteknologi kan utvikles<br />
videre i nordisk regi.<br />
Kimmo Koskenniemi hadde to oppgaver på workshoppen: han skulle først gi en<br />
oversikt over situasjonen i Finland per i dag, og deretter presentere et verktøy som kan<br />
brukes i et nordisk samarbeidsprosjekt.<br />
I Finland har Koskenniemi arbeidet videre med den lista som ble utviklet under<br />
NorDokNet. Lista over nøkkelord er gruppert i over- og underordnede klasser. De<br />
underordnede ordene i hver klasse kommer fram om man klikker på det overordnede<br />
ordet. Treffene gir opplysninger om kilde og man kan spesifisere søkene innenfor de<br />
rammene man har i søkemotoren SiteSeeker. SiteSeeker brukte i sin tid lista fra<br />
NorDokNet til å teste funksjonaliteten for flerspråklig søking.<br />
Koskenniemi har etablert et Wiki-forum for å kunne diskutere og arbeide med<br />
språkteknologisk terminologi og presenterte dette. Han pekte på at dette er et enkelt og<br />
billig verktøy å jobbe med og han mente det er et godt argument for å bruke det i det<br />
videre arbeidet.<br />
DISKUSJONEN<br />
Diskusjonen viste raskt at det var interesse for å gå videre med arbeidet. Innlederne hadde<br />
også konkludert med dette, og alle deltakerne i diskusjonen støttet dette.<br />
NORDTERM 2009, København 9.-12. juni 2009 313
Koskenniemis måte å tilrettelegge terminologien på, er ryddig og oversiktlig, og den viser<br />
hvordan begrepene henger sammen og forholder seg til hverandre. Ulempen kan være at den<br />
som ikke kjenner fagområdet, men som ønsker dels å finne ut hva et ord står for eller betyr,<br />
ikke finner det så lett. En slik organisering kan også være lite brukervennlig f.eks. for<br />
studenter som er i ferd med å velge fag og som kan være interessert i språkteknologi. Analyse<br />
og valg av hvem man skal vurdere som den mest aktuelle brukergruppen, må bli gjenstand for<br />
grundige diskusjoner i prosjektet før man velger presentasjonsmåte for innholdet.<br />
Diskusjonen dreide seg mest om metode, arbeidsmåte og valg av verktøy for å gjøre jobben<br />
effektivt. De fleste nordiske land var representerte med ressurspersoner innenfor terminologi<br />
og fagspråk selv om ikke alle var like godt kjent med språkteknologi. Island hadde før møtet<br />
informert initiativtakerne om at de er interessert i å delta i et nordisk prosjekt for å realisere en<br />
felles nordisk terminologi på området.<br />
Konklusjonen ble at ASTIN som tok inititativet til møtet, arbeider videre med prosjektet og<br />
lager en prosjektsøknad som sendes Nordspråk pluss. ASTIN kan koordinere og styre<br />
prosjektet på nordisk nivå, men det må etableres nasjonale arbeidsgrupper der man har<br />
representert kompetanse innenfor språk, språkteknologi og terminologiutvikling. Arbeidet som<br />
alt er gjort på området, tas med videre og bygges ut. Resultatet må bli tilgjengelig på et<br />
nordisk nettsted i tillegg til nasjonale nettsteder, og muligheten for å søke på tvers av språkene<br />
må også videreføres.<br />
NORDTERM 2009, København 9.-12. juni 2009 314
Språkteknologisk (meta)terminologi<br />
– situationen i Sverige<br />
Ola Karlsson a och Henrik Nilsson b<br />
a<br />
Språkrådet, Box 20057, 104 60 Stockholm, Sverige, +46 8 442 42 04, ola.karlsson@sprakradet.se<br />
b<br />
Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige, +46 8 446 66 10,<br />
henrik.nilsson@tnc.se<br />
Situationen i Sverige<br />
Denna artikel är en kort rapport över situationen i Sverige vad gäller språkteknologisk<br />
(meta)terminologi. Den behandlar kort existerande materiella resurser i<br />
form av olika terminologisamlingar men också immateriella resurser i form av grupper<br />
och nätverk som arbetar inom området. Vidare berörs de utmaningar och problem man<br />
kan se utifrån ett svenskt perspektiv samt om det i svensk språkteknologisk<br />
terminologi finns några särskilt svenska aspekter, t.ex. språkvårdsaspekter.<br />
Organisatoriskt finns i Sverige flera instanser som i sig ingår i upparbetade nätverk<br />
med experter och remissinstanser och som har ett etablerat samarbete mellan sig.<br />
Svenska datatermgruppen som funnits sedan 1996 är ett exempel på samarbete, och<br />
även om arbetet där inte varit särskilt inriktat på språkteknologisk terminologi finns<br />
viktiga erfarenheter att hämta, t.ex. vad gäller systematik och metodik vid val av<br />
svenska termer. Att det dessutom finns ett nationellt terminologicentrum (TNC) med<br />
lång metodikerfarenhet av terminologiprojekt är en annan svensk styrka.<br />
Språkrådets språkteknologiska referensgrupp<br />
En ny viktig resurs för ett arbete med språkteknologisk (meta)terminologi är<br />
Språkrådets referensgrupp för språkteknologi. Gruppen (som är ganska nyinstiftad och<br />
en av flera referensgrupper som finns inom Språkrådet) ska främja Språkrådets<br />
kontakter med språkteknologisk forskning och industri. På ett mer konkret plan ska<br />
gruppen bland annat:<br />
• främja språkteknologiskt infrastrukturarbete<br />
• vidareutveckla webbplatsen Språkteknologi.se<br />
• diskutera juridiska frågor kring tillgängliggörande av resurser<br />
• ta fram och sprida förslag på språkteknologiska projektarbeten<br />
• främja rekrytering till språkteknologiutbildningarna<br />
• diskutera webbtillgänglighetsfrågor<br />
• diskutera teckentillgänglighet och standardisering<br />
• överblicka andra länders språkpolitik gällande språkteknologi<br />
NORDTERM 2009, København 9.-12. juni 2009 315
• ta fram terminologi på språkteknologiområdet.<br />
Den sistnämnda punkten är naturligtvis särskilt intressant i det här sammanhanget. I<br />
gruppen medverkar representanter för följande organisationer 1<br />
, vilket vittnar om en<br />
bred förankring och variation i kompetensen:<br />
• Språkrådet<br />
• Göteborgs universitet (ordförande) och Språkbanken<br />
• Kungliga tekniska högskolan KTH<br />
• Lunds universitet<br />
• Sics (Swedish institute for computer science)<br />
• Terminologicentrum TNC.<br />
Det finns även ett nationellt informationscentrum för svensk språkteknologi:<br />
Språkteknologi.se. Där kan både allmänhet, näringsliv, forskare och andra<br />
språkteknologiskt intresserade hitta information om språkteknologi: produkter,<br />
teknikbeskrivningar, forskningsrapporter, konferenser, kontaktuppgifter till personer<br />
och organisationer, en omfattande länksamling till nordisk och internationell<br />
språkteknologi och mycket annat. Webbplatsen utvecklas av Språkrådet i samarbete<br />
med Sveriges nationella forskarskola i språkteknologi, GSLT. Språkteknologi.se<br />
samarbetar med NorDokNet, ett nätverk av språkteknologiwebbplatser i Norden, och<br />
LT-World, en informationswebbplats om språkteknologi i världen. 2<br />
Existerande svensk (meta)terminologi<br />
För området språkteknologi har det i Sverige inte tagits något samlat grepp förrän<br />
nu. Detta innebär att de resurser som finns är spridda och av varierande kvalitet.<br />
Det finns existerande terminologisamlingar hos ACM, TNC, Svenska datatermgruppen,<br />
i Rikstermbanken 3 och naturligtvis som diverse webblistor. Svenska<br />
termer finns även i det material som nås via webbplatsen Språkteknolologi.se: dels i<br />
form av intern terminologi på webbplatsen, dels genom externa länkar till ett försök<br />
till standardiserad nordisk terminologi som togs fram 2005, en lista administrerad av<br />
Kimmo Koskenniemi i Finland 4 . Denna nordiska parallellterminologi har använts för<br />
att möjliggöra flerspråkig sökning på Nordokwebbplatserna med sökmotorn<br />
Siteseeker. En bredare flerspråkig lista, som också inkluderar språk som tyska och<br />
spanska, finns publicerad på de finska Nordoksidorna 5<br />
.<br />
Utmaningar och problem<br />
När det gäller terminologi för språkteknologi generellt får det anses vara ett ganska<br />
litet fackområde, vilket också kan konstateras genom antalet specifika termer i<br />
förhållande till närliggande områden som datavetenskap och IT. Det är också ett<br />
1 Båda artikelförfattarna medverkar i gruppen.<br />
2 Se vidare: .<br />
3 Sveriges nationella termbank som öppnades i mars 2009: .<br />
4 Publicerad på <br />
5 På <br />
NORDTERM 2009, København 9.-12. juni 2009 316
fackområde där det kan vara svårt att göra gränsdragningar mot andra närliggande<br />
områden (datavetenskap, lingvistik med flera) – vilka termer, om några, är unika för<br />
språkteknologiområdet? Dessutom är det inte helt enkelt att dela in området i<br />
delområden, t.ex. utifrån teknik- och tillämpningsområden, vilket man bland annat har<br />
konfronterats med i arbetet med Språkteknologi.se.<br />
Branschen är heterogen till sin natur vilket gör att olika perspektiv blandas, och det<br />
kan i sin tur påverka den terminologi som används. Marknadsorienterade termer (elearning)<br />
blandas med akademiska och forskningsinriktade termer (ytparsning,<br />
probabilistisk kontextfri grammatik) och det sker ibland målgruppsanpassningar i<br />
manualer, reklammaterial etc. som påverkar terminologin. Som i alla branscher där det<br />
finns en marknadspotential finns också en risk att terminologi används som<br />
marknadsföringsredskap, dvs. att termer skapas i syfte att skilja ut en produkt från en<br />
konkurrents vilket leder till en onödig termvariation och oegentlig synonymi som kan<br />
förvirra.<br />
Ett annat (potentiellt) problem är att en stor del av den språkteknologiska<br />
terminologin i praktiken baserats på några få utländska (engelskspråkiga)<br />
standardverk 6<br />
. I till exempel termurval för sökapplikationer är det tveksamt att bara<br />
efterapa taxonomier som förekommer i dessa verk, eftersom de ofta är teknik- och<br />
standardiseringsorienterade och inte alltid så användarorienterade. Många av termerna<br />
är för smala och irrelevanta när människor ska söka språkteknologiskt relaterad<br />
information (som på Nordoks webbplatser) eller använda språkteknologiska<br />
tillämpningar. Det är viktigt att (också) utkristallisera bredare och mer användar-<br />
orienterade termer.<br />
Det problemet har till exempel funnits i kategoriseringen av innehållet på<br />
Språkteknologi.se, där redaktionen fått välja ut ett mindre antal frekventa termer för<br />
att täcka in så mycket innehåll som möjligt.<br />
En annan bidragande orsak till bristen på bra svenska termer är att det finns få<br />
läroböcker på svenska (ett undantag är Tekniken bakom språket, R. Domeij och<br />
Språkrådet 2008). I det material man har att utgå ifrån, normalt engelskspråkigt,<br />
förekommer däremot en stor termvariation, och det krävs ibland resurser och<br />
kunnande för att avgöra om uttrycken som används är synonyma eller inte. Den<br />
situationen är i och för sig inte unik för det språkteknologiska området, men inte desto<br />
mindre resurskrävande.<br />
Att en stor del av terminologin kommer från engelskan föranleder en diskussion<br />
som har beröringar dels med språkvårdens praktiska anpassning av lånord (läs mer<br />
under nästa rubrik), dels med övergripande språkpolitik och det allmännas ansvar för<br />
att det skapas svensk vetenskapsterminologi inom svensk forskning och<br />
högskoleverksamhet. Eftersom språkteknologi är en del av Språkrådets (Institutet för<br />
språk och folkminnens) verksamhet, är det kanske särskilt angeläget att det utarbetas<br />
svensk terminologi just inom det området. Med den minoritetslag som träder ikraft den<br />
1 januari 2010 i Sverige, kan svensk terminologi också komma att inbegripa terminologi<br />
för de nationella minoritetsspråken (i synnerhet för samiska och romani chib). I<br />
frekvent använd teknik kan det även gälla stora invandrarspråk i Sverige.<br />
6<br />
Detta gäller inte minst standardverket Survey of the State of the Art in Human Language Technology <br />
NORDTERM 2009, København 9.-12. juni 2009 317
Över huvud taget är det viktigt med språkvårdssynpunkter – och tvärfacklig<br />
diskussion – kring termerna. Den nordiska termlista som togs fram för Nordok och<br />
Tvärsök 2005 var en bra början, men med mer terminologisk diskussion hade<br />
resultatet blivit ännu bättre. En översyn av listan behövs därför.<br />
Specifika svenska problem<br />
Det specifikt svenska på det organisatoriska planet har redan behandlats ovan. När<br />
det gäller svenska språkliga egenheter får dessa anses vara få, och den svenska<br />
terminologin är inte spretigare än den som finns på andra nordiska språk. Ett<br />
svenskspråkigt problem är den variation som förekommer mellan datalingvistik och<br />
datorlingvistik – och deras förhållande till begreppet språkteknologi. En liknande<br />
distinktion som varit föremål för diskussion under mycket lång tid är den mellan<br />
teknologi och teknik (som egentligen inte förändras när språk- läggs till som förled).<br />
Det förekommer även problem kring synonymi och hyponymi, delvis specifikt<br />
svenska, där olika perspektiv, tillämpningar och forskningsdiscipliner blandas. Det<br />
kan till exempel gälla begreppskluster som språkkontroll – språkverktyg – språkstöd.<br />
Halten av engelska lånord på det språkteknologiska området är inte värre i Sverige<br />
än i andra länder, men mycket bör anpassas mer till svenska förhållanden. Hur detta<br />
ska göras får man, med Svenska datatermgruppens metodik, ta ställning till i varje fall<br />
för sig.<br />
Slutsatser och idéer<br />
Man kan avsluta med att ställa några frågor som bör behandlas i det fortsatta arbetet<br />
med nordisk språkteknologisk terminologi:<br />
• Vem är målgrupp för termerna? Krävs det flera termer för att täcka in olika<br />
discipliner och verksamhetsområden, och hur påverkas i så fall urvalet av<br />
termerna?<br />
• Hur hanterar man överlappningen med närliggande termområden där ibland<br />
samma term ges olika begreppsinnebörd i språkteknologi, lingvistik och<br />
datavetenskap?<br />
• Bör samma termer användas i internt fackspråkliga och mer publika<br />
sammanhang, eller bör terminologin målgruppsanpassas mer?<br />
• Bör någon sorts språkteknologisk terminologi prioriteras i arbetet med att se<br />
över och skapa nya termer?<br />
• Bör även termer från andra språk än engelska användas som utgångspunkt (i<br />
den mån sådana finns)?<br />
• Bör man i ännu högre grad än tidigare arbeta med nordisk ensning av<br />
termerna? Hur ska resultatet av det arbetet användas?<br />
ReferensER<br />
Karlsson, O. (1996), Principer för Datatermgruppens termarbete (www). Hämtat från<br />
<br />
NORDTERM 2009, København 9.-12. juni 2009 318
ISBN 978-87-994577-0-0<br />
9 788799 457700