Om svar anhÃ¥lles - Svenska Akademiens ordbok - GÃ¶teborgs ...

GU-ISS-96-4 

Research Reports from 

the Department of Swedish, 

Göteborg University 

ISSN-1401-5919 

Om svar anhålles 

Rapport från projeket OSA 

(Augusti 1996) 

Sture Allén 

Yvonne Cederholm 

Sofie Johansson Kokkinakis 

Lena Rogström 

Rudolf Rydstedt 

Lars Svensson 

Språkdata, Institutionen för svenska språket 

Göteborgs universitet, 412 98 Göteborg

Innehåll 

Förord . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

Sture Allén 

OSA 

Ett datalingvistiskt projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 


Inläsningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 


SGML-taggning av SAOB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 


Taggning i praktiken – en personlig reflektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 


Bibliografisk databas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 


Den ortografiska normen i SAOB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 


SAOB som hypertext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 


SAOB:s täckning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 


OSA-databasen i praktiken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 


Etymologierna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

Lars Svensson 

Att söka i Språkdatas SAOB-konkordans. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

SAOB på Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

Ordlista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5 

Förord 

Projektet OSA har som primärt syfte är att omarbeta Svenska Akademiens ordbok till en 

historisk lexikalisk databas. I första avsnittet av denna rapport ges bakgrunden till projektet 

på basis av Sture Alléns framställning till Svenska Akademien år 1981. Projektet 

leds av professor Sture Allén och i projektgruppen ingår för närvarande också Yvonne 

Cederholm, Sofie Johansson Kokkinakis, Maja Lindfors Viklund, Ulla Martinsson, Lena 

Rogström och Rudolf Rydstedt. 

Denna rapport beskriver hur projektet fortskridit hittills. Arbetet med den optiska inläsningen 

av materialet behandlas översiktligt. Övriga avsnitt ägnas huvudsakligen åt 

det nuvarande arbetet med att märka upp ordbokens innehållsstruktur i SGML. (På 

sidan 77 finns en ordlista där SGML och andra termer förklaras.) Här presenteras taggningsmodellen 

och den metod vi använt i taggningsarbetet. Vi går också in på problemen 

med variation på olika nivåer i ordboken och vad det får för konsekvenser när man skall 

söka i ordboken. 

Den största delen av denna rapport handlar om ordbokens interna stuktur. Först i nästa 

rapport kommer tyngdpunkten att ligga på själva användningen av databasen. Användarens 

perspektiv berörs dock i ett avsnitt av ordbokschefen Lars Svensson, där han 

skriver om hur konkordansen över SAOB används i ordboksredaktionens arbete. Lena 

Rogström skriver också om hur hon använt konkordansen i sitt avhandlingsarbete. 

Konkordansen över SAOB finns tillgänglig på Internet (Internetadresser finns på 

sidan 75). På Internet finns också finalalfabetiskt ordnade ordlistor och en bibliografisk 

databas över SAOB:s källor samt en demoversion av SAOB i hypertextformat. Redan idag 

kan man se att det finns ett stort intresse för en Internetversion av SAOB. Projektet OSA:s 

hemsidor på Internet besöks idag av ca 300 användare i veckan. Framtida publiceringsplaner 

på Internet och/eller CD-ROM diskuteras dock inte i denna rapport. 

Göteborg i augusti 1996 


bitr. projektledare

7 

Sture Allén 

OSA 

Ett datalingvistiskt projekt 

Efter framställningen till Svenska Akademien i november 1981 

Sammanfattning 

Projektets titel syftar på forskares och andra användares situation inför ett stort informationsmaterial: 

Om Svar Anhålles. Många slags frågor med lexikalisk och textuell syftning 

kan inte få svar, därför att materialet inte är tillgängligt på det sätt som krävs. Syftet med 

projektet är att läsa in, lagra, bearbeta, tillhandahålla och undersöka lexikaliskt och textuellt 

stoff med datalingvistiska metoder. Avgörande är att detta nu kan ske på basis av 

optisk läsning. 

Projektet har två faser. I den första fasen läses Svenska Akademiens historiska ordbok 

(SAOB) in med hjälp av en optisk klartextläsare och lagras som en databas. Ordboken, 

som med sina 26 000 sidor representerar minst 2000 årsverken, blir härigenom tillgänglig 

på ett mångfasetterat sätt för sökning och forskning. Från denna synpunkt kan OSA också 

utläsas Ordbok över Svenska Språket utgiven av Svenska Akademien. 

Inläsningen av SAOB ger öppningar för den historiska lexikologin. För den nuspråkliga 

lexikologin förfogar institutionen – Språkdata, Göteborgs universitet – över ordmaterialet 

i projektet Lexikalisk databas och i Nusvensk frekvensordbok, vartill kommer den maskinläsbara 

versionen av Svenska Akademiens ordlista (SAOL). 

Varje ordbok är emellertid ett urval. Det blir därför viktigt att komplettera de lexikaliska 

databaserna med texter. Fas 2 ägnas sålunda åt att med den optiska läsarens hjälp 

göra en serie texter från reformationen till idag tillgängliga i maskinläsbar form. På dessa 

grundas ordindex, som gör det möjligt att öka täckningen av svenskans ordbestånd. 

Projektet aktualiserar också centrala datalingvistiska frågor som texters lagringsform, 

algoritmisk analys av löpande text och hantering av stavningsvariation. Vissa projekt och 

förstudier på dessa områden har genomförts vid institutionen. 

Bakgrund 

Man möter idag en växande insikt om lexikonets centrala roll i perception och produktion 

av naturligt språk och i beskrivningen av naturligt språk. Lexikonet ses härvid som ett 

dynamiskt system av morfosemantiska enheter på ord-, ordleds- och frasplanet, underkastade 

särskilda kombinatoriska regler. Denna inriktning kan sägas profilera europeisk 

lingvistik (Calzolari, Lenders, Mel’cuk, Petöfi, Quemada, Rieser, Zampolli m.fl.) visavi 

amerikansk. Också på amerikanskt håll kan man emellertid se tecken på en omorientering. 

Vid Språkdata har vi sedan mitten av 1960-talet på vårt håll bidragit till denna perspektivförändring 

genom att utveckla och tillämpa datalingvistisk metod och teknik för lexikalisk 

forskning i mycket vid mening. 

Det största hittills genomförda projektet har resulterat i publiceringen av Nusvensk frekvensordbok 

1–4 (1970–80), som på drygt 4000 sidor presenterar ord, fraser, ordled och betydelser 

i ett textmaterial av en miljon ord. I anslutning till frekvensordboken har en rad 

andra ordböcker givits ut från institutionen. Dit hör Tiotusen i topp (Allén), en mindre

8 

frekvensordbok. Dit hör Olika lika ord (Berg), ett svenskt homograflexikon. Dit hör också 

Svensk baklängesordbok (Allén et al.), en specialbearbetning av materialet i frekvensordboken 

och i Svenska Akademiens ordlista med orden ordnade ordslutsvis. 

På det lexikaliska området kan vidare nämnas Förnamnsboken (Allén & Wåhlin), som ger 

uppgifter om de 10 000 vanligaste förnamnen, och Ord och fras i psalmboken (Gellerstam 

& Gellerstam). Dessutom ingår i serien Data linguistica en morfolexikalisk beskrivning av 

nusvenskan (Hellberg). 

Det största nu pågående projektet är Lexikalisk databas, som syftar till att etablera en 

välstrukturerad databas med omfattande lexikalisk information om en stor, central del av 

den nutida svenskans ordförråd. Från databasen skall bland annat genereras och tryckas 

en modern svensk ordbok, som på 1000 sidor beskriver och definierar omkring 100 000 ord 

(databasen som sådan innehåller för närvarande 150 000 ord). Till databasen är dessutom 

knutet ett system av datafiler innehållande fackord på ett stort antal ämnesområden. 

Av andra lexikaliska projekt kan nämnas Vokabulärstudier/SAOL, som genomförs med 

stöd av Svenska Akademien. Inom detta sker nu en uppdatering av 10 upplagan av Svenska 

Akademiens ordlista för den kommande 11 upplagan. Vidare har inom projektet Lexikon 

för invandrare utarbetats ett särskilt avpassat svenskt underlag i storleksordningen 

15 000 ord för översättning till viktiga invandrarspråk. Det kan tillfogas att ordförrådet i 

institutionens talspråkliga databas – en halv miljon ord fria samtal – kommer att sammanställas 

och göras tillgängligt. 

Vid institutionen finns också Logoteket, ett serviceorgan på nationell bas med uppgift att 

upprätta en datamaskinell text- och ordbank. Det inrättades 1975 för att möta den ökade 

efterfrågan på kvalitativa och kvantitativa data om språket från forskare, myndigheter 

och företag. 

SAOB i bokform 

Det största ordboksverk som gäller svenskan är Ordbok över Svenska Språket utgiven av 

Svenska Akademien (SAOB). Det är en historisk ordbok på hög nivå som ger utförlig information 

om det svenska skriftspråkets ordförråd från reformationen och framåt. Dess 

första häfte kom ut 1893. Det senaste häftet, som kom 1981, går fram till ordet solanin (en 

alkaloid). 

Ordboksartiklarna är i korthet ordnade på följande sätt. Efter uppslagsordet följer en 

uttalsuppgift, en uppgift om ordklass (i förekommande fall genus), en böjningsuppgift, en 

uppgift om eventuella sidoformer, en uppgift om variantformer (den s.k. formparentesen) 

och en uppgift om uppslagsordets etymologi. Dessa uppgifter bildar artikelns huvud. Efter 

detta kommer betydelsebeskrivningen med tillhörande exempel. Här presenteras de olika 

urskilda betydelserna jämte uppgifter om bruklighet och äldsta belägg (i vissa fall också 

yngsta belägg). Slutligen behandlas sammansättningar, avledningar och i vissa fall särskilda 

förbindelser. 

SAOB:s hittills utgivna 28 band omfattar c. 26 000 sidor à drygt 8000 tecken, totalt över 

200 miljoner tecken. Ett överslag ger vid handen att antalet uppslagsord är av storleksordningen 

450 000. Som jämförelse kan nämnas att senaste upplagan av SAOL innehåller 

140 000 uppslagsord. 

Den arbetsinsats som ligger bakom SAOB – excerpering, redigering, kontroll, administration, 

tryckning – kan lågt räknat anges till 2000 årsverken. Detta gör ordboken till det 

i särklass största projektet inom i varje fall nordisk språkvetenskap. Uppgiften ger också 

en antydan om storleken hos den informationsmängd som ryms mellan pärmarna.

9 

SAOB som databas 

Till hela denna rikt varierade informationsmängd finns det endast en ingång, den alfabetiska, 

och den gäller enbart uppslagsorden. Men svaren på en stor mängd grundläggande 

frågor låter sig inte utletas via den ingången. Frågorna är tvärtom formulerade i helt andra 

kategorier: kronologiska, morfologiska, semantiska, stilistiska, etymologiska m.m. 

Hur ser det tidiga 1700-talets ordskatt ut Hur har neutrum plural på -er utvecklats Vilka 

ord definieras som hyponymer till tillvägagångssätt Vilka ord anges som tillhörande 

det ekonomiska området Vilka lånord från engelskan kom in vid tiden för första världskriget 

Osv. Vi vet att svaren på sådana frågor finns i de tryckta banden, men de är oåtkomliga 

för dem som inte gång efter annan vill excerpera hela den väldiga ordbokssviten. 

Om ordboken vore tillgänglig i databasform, skulle kategorier som de nämnda bli sökbara. 

Man kunde få svar på frågorna. Fas 1 i projektet avtecknar sig. 

Det finns nu nämligen en apparat med vars hjälp tryckt text kan överföras i datamaskinellt 

läsbar form och därigenom göras tillgänglig på ett mycket flexibelt sätt. Det är den 

optiska läsaren Kurzweil Data Entry Machine. Den består av en skanner (optisk avsökare), 

två minidatorer, en textskärm och ett sekundärminne. Vid användning kalibreras den 

först med hänsyn till svärta, sidformat m.m. och tränas sedan att känna igen textens typsnitt. 

Därefter kan produktionskörning ske. Läshastigheten är 6–12 gånger högre än en 

sekreterares skrivhastighet, beroende på textens typografiska karaktär. 

Vid körning visar den sådana tecken på skärmen som har lästs osäkert (på grund av 

ojämnhet i svärtan, trasiga typer o.d.). Det kräver att en operatör hela tiden är tillgänglig 

för att ange den rätta läsningen på dessa punkter. 

Utöver de ingrepp som operatören gör i samband med inläsningen kan texten kontrolleras 

med hjälp av olika slags program. Dessa kan t.ex. utföra konsekvenskontroller av typen 

moment 1 skall följas av moment 2, vänsterparentes skall motsvaras av högerparentes 

osv. De kan bland annat också kontrollera bokstavskombinationerna (grafotaxen): insprutning 

är ett tillåtligt ord men inte insptutning osv. 

Kurzweilläsare är i drift vid t.ex. Library of Congress i Washington, New York Public 

Library, Oxford University Computing Service och English Department vid University of 

Birmingham. Jag har personlig kontakt med dr Susan Hockey i Oxford och med professor 

John Sinclair och hans närmaste medarbetare dr Antoinette Renouf i Birmingham. De 

båda senare har f.ö. nyligen gjort ett längre studiebesök vid vår institution. I Oxford håller 

man på att lägga upp ett datamaskinellt arkiv med texter på olika språk. I Birmingham 

har man börjat läsa in ett stort modernt textmaterial. De nämnda forskarnas erfarenhet 

är mycket god. 

Genom tillmötesgående från Specialsystem Kinnunen & Co AB, Stockholm, har vi låtit 

genomföra ett experiment med Kurzweilläsaren. Hos detta företag finns den enda läsaren 

i landet. Man har där bland annat läst in den norska lagboken. 

Experimentet, som gjordes i april 1980, gick till så, att vi sände ett par sidor av SAOB 

(avsnittet serval – servare) till företaget för inläsning. Efter mycket kort träning av systemet 

skedde läsningen. Trots att SAOB i själva verket utnyttjar åtta olika stilar, framstod 

resultatet som mycket tillfredsställande. 

För att SAOB skall kunna lagras på ett sådant sätt att de olika kategorierna av information 

blir sökbara fordras en analys av ordboksartiklarnas logiska och typografiska 

struktur. Den fasthet som präglar redaktionens arbete är härvid en stor tillgång. Som presentationen 

ovan visade är artiklarna uppbyggda enligt ett bestämt mönster. 

En struktur- och systemanalys av det erforderliga slaget har jag tidigare utfört. Det 

gällde den gången det maskinskrivna manuskriptet till den 1980 publicerade Stora engelsk-svenska 

ordboken (Esselte Studium; 1100 sidor, 120 000 uppslagsord). Analysen ledde 

till att ordboken datasattes och lagrades i en sådan form, att kategorier som

10 

uppslagsord, uttal, ordklassuppgift, översättning och fraseologi är sökbara. Materialet är 

också tillgängligt för forskningsändamål. 

Uppläggningen av SAOB i motsvarande form kräver självfallet en programmeringsinsats. 

Härvid kan institutionen utnyttja erfarenheten från uppbyggnaden av de system 

som nu är i drift, främst Lexikalisk databas. 

Det faktum att SAOB inte täcker hela alfabetet kan inte betraktas som något hinder. 

Partiet fram t.o.m. solanin innehåller som framgått en myckenhet upplysningar. Det blir 

inte heller fråga om något systematiskt bortfall med avseende på de sökkategorier som 

nämnts tidigare. Det rådande förhållandet aktualiserar emellertid efterhand också frågan 

om SAOB:s tekniska produktionssätt. Den rationaliseringsmöjlighet som i första hand anmäler 

sig är inkodning och korrigering av redaktörernas lappmanuskript på textskärm. 

Detta innebär samtidigt "sättning" och ger sålunda direkt underlag för tryckning. Eftersom 

materialet på detta sätt skulle bli tillgängligt i maskinläsbar form, kunde det också 

successivt infogas i databasen. 

Som databas kan SAOB användas för flera nya syften. Den kan för det första hållas tillgänglig 

för forskningen inom olika områden – nationellt och internationellt – för att ge 

svar på frågor av många olika slag enligt ovan. Varje sökbar kategori kan betraktas som 

en ny ingång. 

Den kan för det andra tillhandahållas som (kommersiellt tillgänglig) databas för sökning 

via terminal på företag eller hos myndigheter respektive via hem-TV genom de nya 

medier som nu utvecklas. Att abonnera på databasen kan för många te sig mer lockande 

än att köpa boksviten. 

För det tredje kan nya publikationer presenteras. Exempel på sådana kan vara en kronologiskt 

ordnad ordbok med äldsta belägg som sorteringsgrund, ett index över en periods 

ordskatt, t.ex. 1600-talets, och en sammanställning av lånord med långivande språk som 

indelningsprincip. 

För det fjärde kan bearbetningar göras som främjar det fortsatta arbetet vid ordboksredaktionen. 

Ett exempel är en baklängeslista över uppslagsorden. Ordbokschefen har förklarat 

sig intresserad av en sådan. 

För det femte är databasen ett utomordentligt fängslande objekt för lingvistisk forskning. 

Undersökningar kan göras av såväl formella som innehållsliga kategorier liksom av 

kombinationer av kategorier. I synnerhet vill jag trycka på möjligheten att studera den 

svenska vokabulärens semantiska struktur. Som underlag för sådana studier kan olika 

slags bearbetningar utföras. En är helt enkelt en framtagning av en konkordans över de 

ord i betydelseförklaringarna som inte är formord. En annan, mer avancerad, är algoritmisk 

syntaktisk analys av betydelseförklaringarna i syfte att bestämma huvudorden (genus 

proximum). Över huvud taget är det viktigt att den utförliga semantiska 

informationen i SAOB görs lätt tillgänglig för forskningen. 

Svenska texter 

Ingen ordbok över ett levande språk kan täcka dess vokabulär fullständigt. Också SAOB 

och Lexikalisk databas är urval. För att få ett ännu fastare grepp om ordbeståndet och för 

att skapa underlag för många textuellt inriktade forskningsuppgifter är det därför av stor 

vikt att med utrustningens hjälp läsa in texter från den nysvenska epoken (tiden från reformationen 

till nu). Detta är fas 2 i projektet. 

Avsikten är att läsa in såväl skönlitterära som andra texter enligt en fyllig plan som 

senare specificeras. Till texterna utarbetas ordindex. Dessa registrerar samtliga ord i materialen 

med källhänvisningar. Vid den närmare utformningen av ordindexen beaktar 

man att de 200 vanligaste orden i ett textmaterial svarar för hälften av alla beläggen i texten. 

Genom sampling kan den datamängd som gäller formorden således reduceras på olika 

sätt vid presentationen av ordindexen. Grundtanken bibehålls: de lexikaliska databaser-

11 

na kompletteras med fullständiga index över ordbeståndet i ett stort textmaterial. Också 

konkordanser av olika slag kan utarbetas. Svaren på en rad frågor får härigenom ökad säkerhet. 

De inlästa texterna låter sig på ett naturligt sätt infogas i Logotekets text- och ordbank. 

Detta serviceorgan vid institutionen har kortfattat beskrivits i det föregående. 

Den optiska textinläsningen ger så stora material, att vissa datalingvistiska forskningsuppgifter 

särskilt framhävs. Det finns anledning att antyda tre av dessa. En av dem 

gäller utveckling av metodiken för effektiv lagring av text. 

Texten kan naturligtvis lagras sekventiellt, ord för ord i den ordning inläsningen ger. 

En sådan lagringsform är användbar för åtskilliga syften. Den kan modifieras genom olika 

slag av komprimering, vilket dock fordrar uppackning vid vissa tillämpningar. 

Ett fascinerande alternativ är att lagra texten i form av ett länkat nätverk. I detta fall 

lagras varje förekommande ordform endast en gång. Genom pekare anges orden i kontexten, 

föregående och efterföljande ord i alfabetisk ordning och i frekvensordning m.m. 

Nätverket innehåller alltså samtidigt texten själv, alfabetiskt ordindex, konkordans, frekvenslista 

m.m. Ändringar i texten medför automatiskt ändringar i ordindex, konkordans 

osv. 

En annan forskningsuppgift som blir av stor betydelse är algoritmisk analys av löpande 

text. Olika slag av syntaktisk analys (s.k. parsing) har prövats på många håll med varierande 

resultat. Den nyss nämnda formen för lagring av text synes öppna nya möjligheter. 

Om textanalysen baseras på ett länkat nätverk, har programmet samtidigt tillgång till 

syntagmatisk (kontextuell) och paradigmatisk (gällande alla belägg på samma ordform) 

information. Detta i kombination med de kraftfulla lexikaliska databaserna ger den algoritmiska 

textanalysen mycket intressanta förutsättningar. 

Den sista av de tre forskningsuppgifter jag vill peka på gäller stavningsvariationen i 

texterna. Den är ju stor i tidigare århundradens texter. Den rymmer emellertid en hel del 

regulariteter som kan utnyttjas för att bland annat sammanföra ordformer i ordindexen. 

Också detta kräver naturligtvis ett utvecklingsarbete. 

* * * 

Svenska Akademien beslöt att svara för personalkostnaderna, och medel till inköp av läsutrustningen 

ställdes till förfogande av Knut och Alice Wallenbergs Stiftelse.

13 


Inläsningen 

En av de bärande tankarna bakom OSA-projektet var att introduktionen av optisk läsning 

(OCR-teknik) gjorde det realistiskt att göra om SAOB till en lexikalisk databas (jämför 

“OSA Ett datalingvistiskt projekt” på sidan 7). Det som gjorde den optiska läsningen tilltalande 

var att den framstod som ett ekonomiskt mycket fördelaktigt alternativ till manuell 

inkodning. De praktiska prov som utfördes i samband med upphandlingen av läsare var 

också lovande: maskinen markerade osäker läsning en gång per 200 tecken och korrigering 

behövdes en gång per 2.000 tecken. Läshastigheten var 20 tecken per sekund. År 1982 

omfattade SAOB närmare 200.000.000 tecken. Med 25 timmars effektiv drift per vecka 

skulle därmed inläsningen totalt kräva 111 veckors arbete, i storleksordningen tre år. Det 

praktiska arbetet kom igång våren 1983, men inläsningen tog inte slut 1986 utan tio år 

senare, i januari 1996. Utan några jämförelser i övrigt, är det lätt att notera en förlängning 

med ungefär samma faktor som den framställandet av själva ordboken har genomgått. 

Den yttersta orsaken till att inläsningen kom att ta betydligt längre tid än förväntat 

var att utrustningen fungerade sämre än vad proven före upphandlingen hade givit anledning 

att förmoda. Det visade sig snart vara nödvändigt med ett omfattande korrekturarbete 

för att det inlästa materialet skulle kunna användas som underlag för vidare 

bearbetningar. Till en början utfördes både inläsning och korrektur internt inom projektet. 

Med tiden skedde dock en övergång till att utnyttja externa leverantörer i stället. 

Dessa åtog sig nämligen att leverera materialet till mycket låg kostnad mot att de kunde 

använda SAOB som en s.k. ”strumpsticka”, ett lägre prioriterat arbete som används för 

att jämna ut beläggningen. Fördelen för projektets del var att kostnaden blev lägre än om 

inläsning och korrektur hade skett i egen regi. Nackdelen var att möjligheterna att förutse 

precis när det inlästa materialet skulle komma att levereras minskade. Det som gjorde att 

en inläsning med låg intensitet under längre tid var rimlig var att det inledande arbetet 

med att fånga SAOB:s struktur (diskuteras i “SGML-taggning av SAOB” på sidan 15 och 

framåt) utfördes med en så begränsad personalinsats (under tre heltidsekvivalenter) att 

ett lägre tempot i materialleverenserna aldrig behövde bli en faktiskt begränsande faktor. 

En naturlig fråga är vilka implikationer som erfarenheterna från OSA-projektet har för 

datafångsten i andra projekt. En viktig erfarenhet är att det inte går att ge ett enkelt och 

generellt giltigt svar på frågan om det lönar sig med optisk läsning eller inte. Till en del 

beror det på att den allmänna tekniska utvecklingen gör att den optiska läsningen med 

tiden har blivit billigare och säkrare. Den största skillnaden mellan idag och början av 80- 

talet ligger dock i sänkta kostnader för utrustningen, inte i höjd läskvalitetet. Detta är 

olyckligt med tanke på projekt där stora mängder text skall fångas då kostnaden för utrustning 

spelar ganska liten roll för totalkostnaden i dessa jämfört med läskvaliteten och 

den därav beroende kostnaden för efterkorrigeringar. Däremot är naturligtvis låg initialkostnad 

väsentlig i projekt där små textmängder skall fångas. En tumregel kan vara att 

man bör ha starka skäl för att inte undersöka hur väl optisk läsning fungerar om den text 

som skall fångas är mer än något dussin sidor lång. Men det är inte bara den optiska läsningen 

som har utvecklats sedan 80-talets början. En väsentlig faktor är att även verktygen 

för manuell inkodning har genomgått en betydande utveckling. Det är tankeväckande 

att persondatorn var ny och föga spridd när OSA-projektet inleddes. En indirekt konsekvens 

av det var att inkodning i tredje världen inte förekom i nämnvärd omfattning vid 

den tiden. Idag är manuell inkodning i låglöneländer en viktig konkurrent till optisk inläsning.

14 

Nu skall inte skillnanden mellan optisk läsning och manuell inkodning övervärderas. 

Oberoende av hur texten fångas så måste den genomgå en efterföljande bearbetning för 

att nå acceptabel kvalitet: både optiska läsare och mänskliga inkodare gör fel. Detta leder 

t.ex. till att det ofta är mindre viktigt hur många fel det finns i den fångade texten jämfört 

med hur lätta dessa fel är att identifiera och rätta till. Det finns naturligtvis ett samband 

i det att en text med mycket fel normalt kräver mer arbete för att bli rimligt korrekt än en 

med få fel, men det finns många subtila faktorer som påverkar hur tung korrekturprocessen 

blir. Så är en text som i väsentlig grad består av fasta formler betydligt mera tillgänglig 

för maskinella korrektioner än en mera varierad. I fallet med SAOB råder det mycket 

stora skillnader mellan olika delar av texten. Bruklighetsangivelserna är t.ex. normalt 

rena formler. Detta gör det lätt att säkert göra rättelser rent maskinellt: står det ”rnindrc 

br.” är det lätt att ändra till ”mindre br.” Motsatt förhållande gäller för språkproven. Dessa 

har en variation inte minst i fråga om stavningen som gör att det endast undantagsvis går 

att utföra korrektioner säkert maskinellt. En poäng är dock att det även här är de typiska 

felen vid optisk läsning som är lättast att justera säkert maskinellt: en människa som skriver 

av ”accijsen” fel skriver kanske ”accisen”, maskinen skriver snarare ”accij8en”. Det senare 

ser värre ut, men det är lätt att lägga märke till. 

För att summera: OSA-projektets erfarenheter av optisk inläsning är inte entydligt positiva, 

men de är tillräckligt goda för att optisk inläsning skall framstå som ett alternativ 

värt att överväga även vid arbete med tekniskt mindre lätthanterlig text. Inte minst har 

det visat sig att de typiska fel som optiska läsare gör ofta är betydligt lättare att rätta till 

under det efterföljande korrekturarbetet än de fel som en mänsklig inkodare skulle göra i 

motsvarande situation.

15 


SGML-taggning av SAOB 

I detta avsnitt beskrivs hur den optiskt inlästa texten översätts till SGML-format 1 , där 

ordbokens innehållsliga struktur taggas. Målet är att SAOB efter taggningsarbetet skall 

kunna användas som en lexikalisk databas, där man kan göra komplexa sökningar som 

t.ex. "vilka ord lånades in från engelskan under perioden 1700–1750". 

Taggningen gör tolkningen av texten explicit. Den implicita information, som i den 

tryckta ordboken signaleras med hjälp av typografin och lätt kan tolkas av en mänsklig 

användare, blir genom taggningen också maskinellt sökbar. SGML-taggarna kommer naturligtvis 

inte att visas för den mänsklige läsaren, utan varje informationskategori associeras 

då med en viss typografi. Typografin behöver inte fastställas en gång för alla. Man 

kan välja utformning beroende på vilken läsare man riktar sig till och exempelvis ge ordboken 

en mer pedagogisk utformning med utförliga förklaringar, eftersom man inte behöver 

ta hänsyn till utrymmet på samma sätt som i tryckta media. Detta avsnitt beskriver 

dock endast SGML-taggningen. 

Följande exempel får belysa taggningsarbetet. Enligt en vanlig lexikografisk konvention 

markeras lexikonartiklars betydelseindelning med siffror. Siffrorna står oftast också 

i fetstil för att indelningen skall framgå tydligt. Här följer ett utsnitt ut SAOB-artikeln 

champagne, som beskriver sammansättningen champagneglas. Vi ser att i den första versionen 

är sammansättningens två betydelser markerade med siffror i fetstil som i en 

tryckt ordbok. I den andra har vi istället satt in taggen . 

— -GLAS -2 1) för drickande av champagne särsk. 

afsedt vinglas; vanl. antingen högt o. smalt l. 

lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade 

champagneglasen äro de bästa. HAG- 

DAL Kok. 1130 (1879). LUNDIN G. Sthm 147 (1880). 

KALLSTENIUS Hush. 184 (1896). 2) (i sht best., föga 

br.) med champagne fylldt glas. Det är med den första 

— -GLAS -2 för drickande av champagne särsk. 

afsedt vinglas; vanl. antingen högt o. smalt l. 

lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade 

champagneglasen äro de bästa. HAG- 

DAL Kok. 1130 (1879). LUNDIN G. Sthm 147 (1880). 

KALLSTENIUS Hush. 184 (1896). (i sht best., föga 

br.) med champagne fylldt glas. Det är med den första 

Den första versionen kan enkelt tolkas av en mänsklig användare. Ett dator som skall 

söka i ordboken kan däremot inte "förstå" att just dessa siffror i fetstil markerar en betydelseindelning. 

För att programmet skall kunna skilja på dessa siffror och andra siffror i 

fetstil i ordboken, måste man lägga till information i form av taggar som gör att programmet 

tolkar det som en betydelseindelning. I exemplet ovan lade vi till taggen 

1.SGML är en internationell standard som finns beskriven i ISO 8879: Information processing – Text and 

office systems – Standard Generalized Markup Language (SGML), Geneva 1986. De som inte är bekanta med 

SGML rekommenderas att läsa t.ex An introduction to SGML av Benoît Marchal som finns tillgänglig på 

Internet under adressen http://www.brainlink.com/~ben/sgml/ eller kapitel 2 i Burnard & 

Sperberg-McQueen Guidelines for Electronic Text Encoding and Interchange (TEI P3) som också ger 

en allmän introduktion till SGML.

16 

som inleder betydelsemoment. Taggen har ett också ett attribut n, som anger betydelsens 

ordningsnummer. På samma sätt markeras alla andra informationskategorier i ordboken. 

Bakgrund och förutsättningar för taggningsarbetet 

SAOB i sin tryckta version är satt i åtta olika stilar, men OCR-programmet känner endast 

igen normalstil, fetstil och kursiv. (Alla exempel från OSA-materialet i denna rapport återges 

också med dessa tre stilar.) 

Normalstil, fetstil och kursiv och andra typografiska markörer, som exempelvis parenteser, 

komman och punkter, utgör de viktigaste hållpunkterna när man skall hitta gränserna 

mellan de olika informationskategorierna. Huvuddelen av taggningen görs 

automatiskt med efterföljande manuella kontroller. Viss svåridentifierad information 

måste dock taggas helt manuellt. Eftersom taggningsarbetet ännu inte är slutfört redovisar 

vi här också en del problem som vi ännu inte har tagit ställning till. 

Taggningsarbetet grundas på de beskrivningar av artikelstrukturen som finns i litteraturen 

om SAOB. Främst på de två handledningar som har utarbetats för redaktörerna 

(Kock 1904; Jonsson 1993), men också på annan litteratur om SAOB (Ekbo 1971; Lundbladh 

1992 etc.). All variation i SAOB:s artikelstruktur är naturligtvis inte dokumenterad 

i dessa beskrivningar, eftersom de haft andra syften – handledningarna utgör riktlinjer 

för redaktörernas arbete och den övriga litteraturen har i första hand ett pedagogiskt syfte. 

Taggningsarbetet har därför till stor del haft karaktären av ett utgrävningsarbete där 

vi undan för undan frilagt olika strukturella lager i SAOB. 

Ordböcker har generellt en mycket komplex struktur som text betraktat och SAOB är 

naturligtvis ett extremfall bland ordböcker. Artiklarnas längd varierar mellan några få rader 

och upp emot hundra spalter. En artikel kan omfatta hundratals olika betydelsenyanser 

och varje betydelse kan exemplifieras med flera språkprov. Den enorma 

detaljrikedomen gör strukturen mycket svåröverskådlig och det är omöjligt att på förhand 

definiera en grammatik som beskriver hela SAOB:s struktur i detalj. Själva struktureringsarbetet 

blir ett sätt att ta fram denna okända grammatik. Kazman (1986, s. 16–17) 

som arbetat med struktureringen av The Oxford English Dictionary säger att uppgiften 

att strukturera en sådan stor ordbok liknar det problem som inom mönsterigenkänningsområdet 

kallats "The Grammatical Inference Problem". Problemet beskriver han enligt 

följande. Input består av en mängd strängar som antingen accepteras eller förkastas av en 

okänd grammatik. Man tillämpar någon slags procedur för skilja acceptabla strängar från 

icke-acceptabla och genom detta får man gradvis kunskap om hur den okända grammatiken 

ser ut. Ett liknande uppgift, skriver Kazman, är att försöka skriva en grammatik för 

ett dött språk. 

Då de första delarna av ordboken publicerades var principerna för ordbokens struktur 

inte fastlagda. En handledning för redaktörerna, som redigerades av Ernst Kock, färdigställdes 

först år 1904. Då hade hela bokstaven A och stora delar av C redan publicerats. 

Det innebär att det finns många strukturella avvikelser i de första delarna jämfört med de 

senare delarna. Exempelvis finns inga avledningsramsor på bokstaven A, utan avledningarna 

utgör där egna huvudartiklar. Även i de senare delarna förekommer det avvikelser i 

strukturen, vilka – även om de inte innebär någon större svårighet för en mänsklig läsare 

– komplicerar struktureringsarbetet inom projektet. SAOB anses dock ha en relativt sett 

stringent struktur och genomförd typografi. Sture Hast (Svensson et al. 1993, s. 55–84) 

har gjort en jämförelse mellan de fyra stora germanska ordböckerna, The Oxford English 

Dictionary (OED), Grimms Deutsches Wörterbuch, Woordenboek der Nederlandsche Taal 

(WNT) och SAOB. Han kommer fram till att OED och SAOB har en mera stringent och 

lingvistisk uppläggning än de andra två. OED är dock, enligt Sture Hast, den mest enhetligt 

utformade ordboken eftersom det i SAOB finns stora diskrepanser i framställningen 

mellan olika redaktörer och tidsperioder. Att OED är den mest enhetligt utformade ordbo-

17 

ken beror antagligen på att James Murray själv skrev eller ansvarade för nästan hälften 

av alla artiklar i ordboken. 

Det finns naturligtvis ingen möjlighet att arbeta om strukturen i de första delarna inom 

ramen för OSA-projektet. Den lexikaliska modell vi utarbetar måste vara generös och tilllåta 

en stor variation i såväl makrostruktur som mikrostruktur. Den måste bygga på den 

stramare strukturen i de senare banden, men samtidigt rymma de första bandens fria artikelstruktur. 

En ovan användare måste kunna söka i hela ordboken utan att känna till 

några detaljer om variationen i artikelstrukturen, eftersom det främsta syftet med projektet 

ändå är att göra ordboken mer lättillgänglig. 

Uppläggning av taggningsarbetet 

Vi har delat in taggningsarbetet i olika faser. Den första fasen är en identifieringsfas där 

gränserna mellan de olika informationskategorierna lokaliseras och de typografiska koderna 

översätts till SGML-taggar. Det är i denna fas vi nu befinner oss och det är huvudsakligen 

identifieringsfasen som beskrivs i detta avsnitt. Denna fas är också den mest 

arbetskrävande i projektet. 

I nästa fas byggs de enskilda elementen samman till en komplex SGML-struktur och 

grammatiken över ordbokens struktur fastställs i en s.k. document type definition (DTD). 

Våra planer är att så långt som möjligt följa den DTD för tryckta lexikon som rekommenderas 

av Text Encoding Initiative (TEI P3 1984: 321–370). I TEI P3 pekar man på den stora 

strukturella variation som finns i ordböcker. På grund av detta har man valt att 

definiera två modeller. En modell med en fast struktur vilken skall täcka in de vanligaste 

typerna av ordböcker samt en alternativ modell som utgår från samma element, men som 

medger att man kan kombinera alla element relativt fritt. 

... because the structure of dictionary entries varies widely both among and within 

dictionaries, the simplest way for an encoding scheme to accommodate the entire range 

of structures actually encountered is to allow virtually any element to appear virtually 

anywhere in a dictionary entry. 

(TEI P3 1994, s. 321) 

Vi bör kunna använda oss av den friare modellen som utgångspunkt, men vissa omfattande 

tillägg måste ändå göras för att DTD:n skall täcka SAOB:s komplexa struktur. Några 

av komplikationerna nämns nedan. 

I den sista fasen av taggningsarbetet kommer vi att lägga till viss information till texten. 

Vi kommer att normalisera stavningen av uppslagsorden. Källhänvisningarna kommer 

också att normaliseras så att de kan länkas till en bibliografisk databas. Vi kommer 

att undvika att ändra i själva texten och istället lägga de normaliserade formerna i SGMLtaggarna. 

Alla korsreferenser och hänvisningar till de behandlade orden skall också formaliseras 

i denna fas, så att man kan kontrollera hela systemet av korsreferenser automatiskt. 

Vi kommer inte att här diskutera vilket sökspråk eller söksystem som skall användas 

för SAOB när taggningsarbetet är avslutat. PAT, det system som används för att söka i 

OED (se t.ex. Salminen 1994), kan hantera sökningar i stora SGML-strukturerade dokument 

och verkar vara det bästa systemet i dagsläget. Tyvärr finns inte idag något fullständigt 

frågespråk som kan hantera SGML. Detta beror på att SGML från början inte alls var 

tänkt att vara ett databasformat, utan utformades för att fungera som ett utbytesformat 

mellan olika ordbehandlingsformat. Eftersom antalet SGML-kodade dokument ökat kraftigt 

de senaste åren har det uppstått ett behov av att kunna söka i och uppdatera dessa 

dokument. Det finns flera forskningsprojekt som arbetar på att ta fram en väldefinierad 

semantik för SGML och att utveckla ett fullständigt frågespråk som innebär att man kan 

söka i och ändra i dokumenten på ett väldefinierat sätt. Raymond och Tompa (1995) ger

18 

en översikt av problemställningarna i From Data Representation to Data Model: Meta-Semantic 

Issues in the Evolution of SGML. En modell som Blake et al. (1994) har arbetat på 

är att utvidga SQL till att också kunna hantera SGML. 

Vi valde till en början att låta elementens namn ligga nära SAOB:s egen terminologi. 

Efter att TEI P3 publicerades 1994 har vi dock lånat många elementnamn därifrån, speciellt 

för de formella informationskategorierna. Elementnamnen utgör därför för närvarande 

en oskön blandning av svenska och engelska, men vi har valt att låta det vara så 

tills vi börjar med nästa fas av taggningsarbetet. 

Taggningsarbetet beskrivs nedan med utgångspunkt från respektive informationskategori. 

Den allmänna beskrivningen av informationskategorierna bygger på Lundbladhs 

Handledning till Svenska Akademiens ordbok från 1992 och jag har också försökt hålla 

mig till den terminologi som Lundbladh använder. 

Primärstrukturen – SAOB:s skelett 

Vi har valt att skilja på två typer av informationskategorier. Den ena typen är de lexikaliska 

enheterna i artiklarna, nämligen uppslagsord, sammansättningar, avledningar, särskilda 

förbindelser samt betydelsemoment. Den andra typen är information som är knuten 

till dessa lexikaliska enheter, antingen på den formella eller semantiska nivån, t.ex. uttal, 

ordklass, böjning, etymologi, definitioner och språkprov. 

Vår strategi var att först bygga ett strukturellt skelett av de lexikaliska enheterna. Skelettet 

kallar vi för primärstrukturen och det utgörs för närvarande av ca 800 000 lexikaliska 

enheter. Här ingår också en del taggar som markerar grupperingar av de lexikaliska 

enheterna, t.ex. ramsor. 

Förutsättningen för att etablera det strukturella skelettet var att man relativt enkelt 

kunde isolera de lexikaliska enheterna maskinellt. Programmen måste sålla ut dessa enheter 

och inget annat i texten, enbart på grundval av den typografiska informationen. Svårigheten 

var att hitta de mönster som beskrev exakt de lexikaliska enheterna och inget 

annat. Den typografiska information som OCR-programmet känner igen var en relativt 

mager utgångspunkt för struktureringsarbetet. Mönstren utgjordes av koderna som angav 

stilbyte mellan brödstil, kursiv och fetstil, samt andra typografiska markörer som t.ex. 

parenteser av olika slag, kolon, semikolon och indrag. Mönstren, som utgör reguljära uttryck, 

översattes sedan till SGML-taggar. Implementeringen gjordes i sed och Perl. 

Tabell 1: tagguppsättning för primärstrukturen 

starttagg sluttagg beskrivning 

— artikel 

— hänvisning 

huvudord (lemma) 

— sammansättningsramsa 

— sammansättningsartikel 

förled i sammansättning 

efterled i sammansättning 

— avledningsramsa 

— avledningsartikel

19 

Tabell 1: tagguppsättning för primärstrukturen 


avledning 

— ramsa med särskilda förbindelser 

— artikel för särskild förbindelse 

särskild förbindelse – grundord 

särskild förbindelse – partikel 

— betydelsemoment på 1:a nivån (huvudmoment, 

anges i tryck med arabiska siffror) 

— betydelsemoment på 2:a nivån (anges i 

tryck med gemener) 

— betydelsemoment på 3:e nivån (anges i 

tryck med grekiska bokstäver) 


tryck med grekiska bokstäver kombinerat 

med prim-tecken) 


tryck med grekiska bokstäver kombinerat 

med bis-tecken) 

— momentgruppering (syntaktiska kriterier; 

anges i tryck med romerska siffror) 

— momentgruppering (icke-syntaktiska kriterier; 

anges i tryck med versaler) 

Det har varit nödvändigt att göra omfattande sorteringar av materialet för att hitta dessa 

mönster. För att exemplifiera hur detta kan gå till kan vi återknyta till exemplet med betydelseindelningen 

i artikeln champagne ovan. I detta fall skulle man först sortera kontexten 

för alla siffror i fetstil i SAOB. Man gör sedan en bedömning om alla siffror är 

ordningsnummer i betydelseindelningen. I så fall byter man ut dem mot taggen , o.s.v., som i exemplet ovan. Detta är ett naturligtvis ett starkt förenklat 

exempel eftersom det finns miljontals siffror i fetstil i SAOB, vilka förekommer i en 

mängd olika funktioner. Mönstren som vi definierar är mycket mer komplicerade, men exemplet 

visar på själva tillvägagångssättet. Vi gör omfattande provtaggningar på små partier 

från olika delar av ordboken – på grund av den strukturella variationen – innan vi 

slutligen taggar hela materialet. Man måste acceptera en viss felprocent på grund av svårigheten 

att överblicka strukturen, men den får inte vara större än att felen går att korrigera 

manuellt i efterhand. Om man taggar 300 000 enheter maskinellt och får med 5 000 

andra enheter av misstag, så tar detta lång tid att korrigerera manuellt. Detta kan tyckas 

vara en trivial upplysning, men jag vill trycka på att det är ordbokens storlek som karaktäriserar 

hela detta projekt och då speciellt svårigheten att överblicka hela materialet. 

Makrostrukturen 

Det är relativt lätt att hitta gränserna mellan huvudartiklarna i SAOB, eftersom de markeras 

typografiskt med ny rad och indrag. Det finns dock en annan typ av artiklar som är 

svårare att hitta eftersom uppslagsordet kan stå var som helst på raden, endast åtskilt

20 

med ett streck. Uppslagsordet är då besläktat med föregående uppslagsord, se t.ex. piemontesare. 

Sammanlagt har cirka 45 000 huvudartiklar identifierats. Artikelgränsen taggas: 

 

Sammansättningar, avledningar och särskilda förbindelser behandlas normalt i de s.k. 

ramsorna. Vissa sammansättningar, avledningar och särskilda förbindelser behandlas 

dock av olika skäl i egna huvudartiklar. Det finns då en hänvisning från ordets alfabetiska 

plats i ramsan till huvudordet. Förhållandet mellan huvudorden och orden i ramsorna är 

komplicerat. Vissa ramsor är exceptionellt långa och ramsan bryts då av andra artiklar. I 

artikeln o- bryts sammansättningsramsan odaterad, odaterbar av artikeln odds. Denna 

artikel har i sin tur en sammansättningsramsa: oddssiffra, oddstal. Upplagsordet o- återkommer 

sedan och sammansättningsramsan fortsätter med odebiterad, odechiffrerad etc. 

Ramsan i artikeln o- är sammanflätad med övriga artiklar på detta sätt genom hela bokstaven 

O. Denna uppbrutna artikelstruktur har också t.ex. artiklarna för-, före-, i, in, inne, 

kring, med, miss-, mot, ned, om, på, re-, sam-, samman och sam-. Den diskontinuerliga artikelstrukturen 

är ett bra exempel på SAOB:s strukturella egenheter och varför de standardmodeller 

som används inom TEI måste byggas ut. 

Artiklarna förses med unika identifierare, för att man skall kunna hantera alla korsreferenser 

automatiskt. Identifieraren utgörs oftast enbart av uppslagsordet, som exempelvis: 

 

Om det finns homografer till uppslagsordet utgörs identifieraren av uppslagsordet samt 

ordklass och homografnummer, t.ex: 

 

Vi har dessutom diskuterat olika möjligher att lägga till ınformation om artiklarnas tillkomst. 

Man skulle kunna förse artiklarna med de tryckningsdatum, som finns angivna på 

varje ark i ordboken. Detta datum är viktigt t.ex. för att precisera vissa bruklighetsangivelser. 

Bruklighetsuppgifter, som t.ex. numera mindre brukligt, är helt beroende av när 

artikeln skrevs. Vi har också diskuterat möjligheten att förse varje artikel med uppgift om 

artikelförfattare, i de fall det är känt. Från och med häfte 52 i band IV anges artikelförfattarna 

på pärmarnas insida. Lars Svensson (Svensson et al. 1993, s. 172–194) har dessutom 

försökt kartlägga vilka som skrev de osignerade artiklarna i de tidigare banden. 

Huvudord 

Alla behandlade ord markeras med versaler i fetstil i SAOB. Detta var helt avgörande för 

att vi skulle kunna hitta huvudorden, sammansättningarna, avledningarna och de särskilda 

förbindelserna. 

Omkring 40 500 huvudord har identifierats hittills. Huvudorden taggas som exemplet 

nedan. 

AFSTÅ 

Efter att huvudorden taggats gjorde vi en automatisk kontroll av att huvudorden kommer 

i alfabetisk ordning. Denna kontroll gjordes för att fånga upp kvarvarande fel från den optiska 

inläsningen. I denna kontroll upptäckte vi emellertid också fel i den tryckta ordboken. 

1 

Stavningen av vissa uppslagsord måste normaliseras, t.ex. stavningen med f istället för 

v i ord som af, afstå, afgöra och stavningen med ä istället för e i ord som rägn (se "Den ortografiska 

normen i SAOB" på sidan 43 och framåt.). När man normaliserar stavningen av

21 

huvudorden bör man enligt min mening undvika att ändra i själva texten, för att minska 

risken att förlora väsentlig information. Den normaliserade formen ges istället som ett attribut 

till elementet, som i exemplet: 

AFSTÅ 

Avstavade huvudord är ett annat problem. De måste gås igenom manuellt för att man 

skall kunna avgöra vilka som egentligen skall innehålla bindestreck. 

Vi har genererat en ordlista över alla huvudord i SAOB. Ordlistan är tillgänglig genom 

World Wide Web på Internet. Adressen är http://svenska.gu.se/saob/saobusers.html. 

Där finns också en baklängessorterad variant av ordlistan. 

Hänvisningar på artikelnivå 

Med hänvisningar menas här de uppslagsord som hänvisar till andra huvudartiklar eller 

ramsor. Ca 19 000 hänvisningar av denna typ har taggats hittills. Uppslagsorden i hänvisningarna 

taggas liksom uppslagsorden i huvudartiklarna med . Hela hänvisningen 

taggas som i exemplet: 

CZAR, se TSAR. 

--- 

CZAR, se TSAR 

Värdet på attributet target motsvaras av en identifierare i en huvudartikel. I exemplet 

ovan hänvisas till artikeln tsar, som inte är skriven än. Hela härledningssystemet i SAOB 

kommer naturligtvis inte att hänga ihop förrän hela ordboken är tryckt. Man bör dock 

kunna kontrollera delar av systemet automatiskt. Då kan man också automatiskt generera 

listor över hänvisningar till de delar som inte ännu är tryckta. Detta bör underlätta ordboksredaktionens 

manuella arbete med hänvisningsregistret. 

Betydelsemoment 

Den hierarkiska strukturen i betydelsebeskrivningen omfattar fem nivåer. Dessutom 

finns två typer av grupperingar på en högre nivå. Momentbeteckningarna anges med versala 

bokstäver, romerska siffror, arabiska siffror, gemener, grekiska bokstäver, samt grekiska 

bokstäver kombinerat med prim- och bis-tecken. Ungefär 300 000 

momentbeteckningar har identifierats hittills och utgör betydelsebeskrivningens skelett. 

Taggarna i betydelseträdet redovisas i tabell 1. Det första betydelsemomentet på översta 

nivån taggas exempelvis: 

 

Även betydelsemomenten måste förses med identifierare för att hänvisningssystemet 

skall fungera. I SAOB finns exempelvis hänvisningar till betydelsemomenten från sammansättningsramsorna. 

De anger till vilken betydelse sammansättningens förled hör. 

Man kan här följa samma namngivningsprincip som för uppslagsordens identifierare, med 

tillägg för ordningsnummer i betydelseträdet. Identifieraren nedan skall utläsas som uppslagsordet 

kram, sbst 1 , betydelsemoment 2.b. 

 

1.Vid genomgången fann vi en handfull uppslagsord på varje bokstav som inte följde 

alfabetiseringen, se t.ex. gejser som placerats före geisha. Vi upptäckte också ett märkligt tryckfel. 

Uppslagsordet kläder (spalt K 1476) är feltryckt, men endast i vissa exemplar där det står klader. 

Alla exemplar är dock tryckta samma datum.

22 

När taggningsarbetet är klart kommer man att kunna ta fram intressant statistik över betydelsehierarkiernas 

djup och omfång, vilket bör visa på hur betydelseanalyserna har varierat 

genom åren. Enligt Sigurd (Allén et al. 1986, s. 183) finns det fler betydelsevarianter 

i de senare banden. 

Sammansättningar 

Sammansättningar behandlas i s.k. sammansättningsramsor. Ramsorna består av underordnade 

artiklar, som i stort sett har samma struktur som huvudartiklarna men som oftast 

innehåller mycket mindre information. Sammansättningarna kan dock i vissa fall ha 

väldigt omfattande betydelseanalyser, se t.ex. ramsorna under artiklarna o- och re. Sammansättningar 

med omfattande betydelseanalyser kan i vissa fall stå som egna huvudartiklar. 

Det finns då en hänvisning från deras alfabetiska plats i ramsan till huvudordet. 

Det är tydligt att kriterierna för huruvida en lexikaliserad sammansättning skall utgöra 

en egen huvudartikel eller inte varierar kraftigt genom åren. Ca 14 200 sammansättningsramsor 

har taggats hittills. Sammansättningsramsans början taggas: 

 

Ca 360 000 sammansättningsartiklar har taggats hittills. Sammansättningsartiklarnas 

början taggas: 

 

Sammansättningarnas förled redovisas endast i den första sammansättningsartikeln i 

ramsan. Förleden taggas: 

SIDEN- 

Efterleden i respektive sammansättningsartikel taggas: 

-TYG 

För att man skall kunna söka på sammansättningarna måste efterleden förses med en expanderad 

form, där både förled och efterled finns med: 

-TYG 

Varianter i sammansättningsfogen redovisas på två olika sätt i SAOB, vilket får konsekvenser 

för sökningen. Det ena sättet är att redovisa varianterna i åtskilda sammansättningramsor. 

I varje ramsa finns då ett förled och ett antal efterled. Under artikeln salt 

finns följande ramsor. 

A: SALT-ACCIS, -AG,..., -ÖVERDRAG 

B: SALTE-BALJA, -BLOMMA,...,-TUNNA 

C: SALTO-LÖSA 

Enligt det andra sättet redovisas variationen i samma ramsa. Det finns då flera förled vid 

den första sammansättningen i ramsan. Under artikeln saltsyra finns varianterna 

saltsyre- och saltsyra-. 

SALTSYRE- äv. (i fackspråk) SALTSYRA-AVSÖNDRING 

Varje sammansättningsartikel måste då förses med två expanderade former. 

 

-FABRIK

23 

Beskrivningen av sammansättningsramsorna kompliceras av att sammansättningsartiklarna 

i sig också kan innehålla sammansättningsramsor. Dessa kallas sekundära sammansättningar, 

som t.ex. gängskärningsmaskin som bildats till sammansättningen 

gängskärning. Sammansättningsartiklar kan också innehålla avledningsramsor. Det omvända 

förhållandet gäller också, d.v.s. avledningsartiklar kan innehålla sammansättningsramsor. 

Beskrivningen i ramsorna är alltså också hierarkisk även om vi inte har 

belägg för fler än två nivåer. 

Vi har tagit fram ordlistor över alla sammansättningar i SAOB och lagt ut dem på Internet. 

Sammansättningarna är sorterade på efterled och för varje sammansättning ges 

en spalthänvisning. 

Särskilda förbindelser 

I artiklar som behandlar verb finns ramsor med s.k. särskilda förbindelser, vilket i de flesta 

fall är detsamma som partikelverb. Ca 2000 ramsor med särskilda förbindelser har taggats 

hittills och ca 9 400 artiklar med särskilda förbindelser. 

Ramsans början taggas: 

 

Varje förbindelseartikel inleds med: 

 

De särskilda förbindelserna kan omfatta former med upp till tre partiklar, som t.ex. raska 

sig i väg eller danka af och an. Grundordet och partiklarna taggas som i exemplet: 

KLÄMMA IHOP 

DANKA AF OCH AN 

Det är mycket vanligt med variantformer av partiklarna, t.ex. klämma ihop l. tillhop l. 

hop. Strukturen kan bli ganska snårig eftersom annan information, t.ex. uttals- eller bruklighetsuppgifter, 

kan vara insprängd mellan varianterna. Förbindelseartiklar med variantformer 

måste förses med expanderade former av samtliga varianter för att man skall 

kunna söka på dem, t.ex. 

 

Carl-Erik Lundbladh (1992) skriver i sin handledning att det finns ett 60-tal olika verbpartiklar 

med variantformer, som redovisas i de särskilda förbindelserna. Vi har hittat 

sammanlagt drygt 150 olika partiklar i de särskilda förbindelserna. Många av dessa är 

dock stavningsvarianter. Vi har också hittat belägg på partiklar som enligt Lundbladh 

inte skall finnas med i ramsorna. 1 

En ordlista över alla särskilda förbindelser finns också tillgänglig på Internet. Förbindelserna 

är sorterade på den första partikeln i förbindelsen. 

Avledningar 

Avledningarna behandlas också i ramsor. Drygt 9 000 avledningsartiklar har identifierats. 

Under bokstaven A och C som skrevs innan principerna var fastlagda, finns inga avledningsramsor. 

Avledningarna behandlas då i huvudartiklar. 

1.dansa baklänges, gå baklänges, rida baklänges, rusa baklänges, rygga baklänges, gripa fatt, hinna 

fatt, hitta fatt, hugga fatt, nappa fatt, rida fatt, befalla hem, dimittera hem, eskortera hem, följa hem, 

föra hem, gå hem, hitta hem, kalla hem, komma hem, ledsaga hem, runka hem, giva hit, räcka hit

24 

Avledningsramsans början taggas: 

 

Varje avledningsartikel taggas: 

 

Själva avledningen taggas: 

RÄVAKTIG 

Synen på vad som utgör sammansättning eller avledning har varierat under åren. Under 

bokstäverna A–D behandlas -aktig som efterled i sammansättning, t.ex. buffelaktig. Under 

E–P vacklar synen på -aktig. Vissa ord behandlas som avledningar, t.ex. gåsaktig, 

medan andra behandlas som sammansättningar, t.ex. hönsaktig. Fr. o.m. bokstaven R behandlas 

-aktig konsekvent som avledningsändelse. Vi har inte studerat variationen mer 

ingående, men variationen verkar inte vara relaterad till olika betydelser hos -aktig, utan 

är möjligen beroende av vilken redaktör som behandlat ordet. 1 När man utarbetar sökrutiner 

för SAOB måste man ta hänsyn till den bristande konsekvensen i ordboken och göra 

det möjligt att söka bland samtliga behandlade ord. Exemplen ovan torde visa på att det 

inte alltid är lätt att avgöra om man skall leta efter ett visst ord bland huvudorden, sammansättningarna 

eller avledningarna. 

Vi har tagit fram finalalfabetiskt sorterade listor över alla avledningar i SAOB. För varje 

avledning anges under vilket huvudord och i vilken spalt den står. 

Sekundärstrukturen – kött på benen 

Efter att primärstrukturen var etablerad, återstod arbetet med att identifiera de resterande 

informationskategorierna och knyta dem till det strukturella skelettet. Med hjälp av 

olika sorteringsverktyg kunde högerkontexten för de lexikaliska enheterna analyseras. De 

typografiska mönster som var särskilt frekventa framträdde i sorteringen. Mönstren beskrevs 

som reguljära uttryck och implementerades i Perl. Vi använde oss i detta läge av 

kontextuell information, både av en större kontext och den omedelbara vänsterkontexten. 

Den större kontexten utgjordes av en teknisk uppdelning av artiklarna. 

• Huvudet (den formella delen) – all text emellan ett huvudord och det första betydelsemomentet 

• Betydelsbeskrivningar (den semantiska delen) – all text emellan ett visst betydelsemoment 

och nästa betydelsemoment 

• Underartiklar – all text emellan en sammansättning, avledning eller särskild förbindelse 

och nästa sammansättning, avledning eller särskild förbindelse. 

Vissa informationskategorier, som t.ex. definitioner och språkprov, förekommer endast i 

betydelsebeskrivningarna eller i underartiklarna, medan andra endast förekommer i huvudet. 

Huvudet är den del av SAOB som är svårast att tagga automatiskt. Det är också den 

del av artiklarna som är mest obearbetad hittills. De informationskategorier som endast 

ingår i huvudet behandlas därför relativt översiktligt här. För en automatisk analys ter 

sig huvudet som en härva av enstaka bokstäver, punkter, komman och stilkoder. Huvudet 

1.Detta framkom vid tillfället för en disputation i nordiska språk vid Uppsala universitet (Gunvor 

Nilsson. Aktig-ord förr och nu. En historisk–semantisk studie av aktig-avledningar i svenskan, 

Uppsala univ. 1993), då en sökning gjordes på begäran av opponenten Martin Gellerstam. I grova 

drag överensstämde resultatet av sökningen med respondentens manuella excerpering, men vi fann 

ett antal ord som inte kommit med i den manuella excerperingen. På grund av vissa tekniska 

komplikationer saknades också några aktig-ord i sökningsresultatet, vilka å andra sidan fanns med 

i den manuella excerperingen.

25 

innehåller uppgifter om uttal, genus, ordklass, böjning, formvarianter och etymologi. Uttalsuppgift 

är obligatorisk, såvida inte ordet är dött. Genusuppgift är obligatorisk för substantiv 

och ordklassuppgift är obligatorisk för alla andra ordklasser. Formvarianter i den 

s.k. formparentesen är optionella uppgifter. De etymologiska uppgifterna är obligatoriska. 

För verb ges också information om verbalsubstantiv i huvudet. 

Vi började med att tagga betydelsebeskrivningarna och underartiklarna. De är idag relativt 

genomarbetade. Enligt vår bedömning är flertalet bruklighetsuppgifter, definitioner 

och språkprov i betydelsebeskrivningarna och underartiklarna idag identifierade. 

Tabell 2: tagguppsättning för sekundärstrukturen 


uttal 

genus 

ordklass 

böjning och formvarianter 

etymologi 

bruklighet 

definition 

språkprov 

citat 

källuppgift – författare 

källuppgift – verk 

källuppgift – beläggställe 

källuppgift – årtal 

källuppgift – tidsintervall 

källuppgift – kommentar 

Uttal 

Uttalsuppgifter finns både i huvudet och i betydelsebeskrivningen. I huvudet kommer uttalsuppgifterna 

alltid direkt efter uppslagsordet, om inte ordet är dött. Det kan också förekomma 

i andra delar av huvudet, vid uppgifter om genus, böjning eller formvarianter. I 

betydelsebeskrivningen förekommer uttal endast om uttalet för en viss betydelse avviker 

från uttalsuppgiften i huvudet. I ramsorna består uttalsuppgiften endast av siffror som 

anger tryck. Uttalsuppgifterna taggas exempelvis: 

Mak1iaväl4isk 

04 

Uttalsinformationen är svårtaggad. Det beror främst på att den innehåller många fel från 

den optiska inläsningen – det är många svåra tecken och upphöjda siffror som skall tolkas. 

Det är också svårt att korrekturläsa uttalsuppgifterna. Sammanlagt har ca 70 600 uttalsuppgifter 

taggats.

26 

Artiklar av typen piemontesare (se sidan 19) är komplicerade vad gäller uttalet. Där 

kan uttalsuppgiften bygga på föregående artikels uttalsuppgifter, så att endast en del av 

uttalet redovisas, se t.ex. regulation och regulativ. Det har sannolikt gjorts för att spara 

plats. 

Genus 

Genusuppgifterna är tämligen svåra att identifiera. De är väldigt komprimerade och kan 

lätt förväxlas med andra typer av information. Enstaka bokstäver varvas med punkter och 

komma, t.ex. m., f., r., n. och ig., och även med källuppgifter och bruklighetsuppgifter. Vid 

taggningsarbetet har vi utgått från de listor över genusförkortningar som finns i handledningarna. 

Ca 19 600 genusuppgifter har taggats hittills. Här återstår alltså en hel del arbete. 

Ordklass 

Ordklassuppgifterna består oftast enbart av en förkortning, t.ex. v., adj., adv., interj. 

Förkortningarna finns listade i handledningarna. Det är svårt att tagga ordklassuppgifterna 

eftersom de lätt förväxlas med samma förkortningar i andra positioner, t.ex. i korshänvisningar 

som se BACKA v. För substantiv ges ordklassuppgift endast om det finns 

homografer. Då står förkortningen tillsammans med ett homografnummer, som exempelvis 

sbst. 1 , sbst. 2 . Ca 13 900 ordklassuppgifter har taggats, enligt nedanstående modell: 

adj. 

Böjning 

Böjninguppgifterna är obligatoriska. De har oftast en relativt stringent form och är därför 

lätta att identifiera. I större artiklar finns emellertid källuppgifter och bruklighetsuppgifter 

som bryter mönstren. Ca 19 900 böjningsuppgifter har taggats. 

best. -en pl. -ar. 

Formparentesen 

I formparentesen redovisas vissa stavningsvarianter och andra formvarianter. Formparentesens 

början taggas: 

 

Exemplet nedan är hämtat från artikeln demolera. Här anges att demoliera är en variantform 

till huvudordet och att varianten är belagd i RP och i Sahlstedt 1769 (se källförteckningarna). 

demoliera RP, SAHLSTEDT 1769 

Källuppgifter i formparentesen är vanligare i de första banden av SAOB. I de senare banden 

anges för det mesta endast tidsintervall för beläggen, som i exemplet hämtat från artikeln 

rasenhet. 

rass- 1619–1698

27 

Etymologi 

Etymologin utgör slutet på huvudet och är obligatorisk där. Den kan också förekomma i 

betydelsebeskrivningen och underartiklarna om dessas etymologi avviker från den i huvudet. 

De etymologiska uppgifterna är lätta att identifiera, eftersom de står inom klamrar. I 

citaten förekommer också klamrar vid emendation, men de är lätta att skilja ut eftersom 

emendationerna endast innehåller enstaka tecken. Etymologierna taggas: 

jfr t. magisterschaft 

Sammanlagt ca 101 000 etymologier har taggats. Ambitionen är att också tagga språk och 

utländska ord i etymologierna, enligt följande exempel. 

jfr t. magisterschaft 

Rudolf Rydstedt diskuterar etymologierna i SAOB på sidan 67 och framåt. 

Bruklighet 

Bruklighetsuppgifter kan förekomma nästan var som helst i artikelstrukturen. De är vanligast 

i betydelsebeskrivningen, där de kommer omedelbart efter momentbeteckningen. 

Vissa bruklighetsuppgifter anges inom parentes, nämligen uppgifter om ordet i fråga har 

inskränkt bruklighet i det allmänna språket eller en speciell stilprägel. Om ordet är fackspråkligt 

anges däremot detta i kursiv. Om båda typerna av bruklighetsuppgifter förekommer 

samtidigt så kommer fackbeteckningen sist. 

Vi har använt oss av listor över vanliga bruklighetsbeteckningar, som har hämtats från 

handledningarna. Den ena listan omfattar ett hundratal vanliga stilangivelser och uppgifter 

om inskränkt bruklighet i det allmänna språket, exempelvis †, numera mindre br. och 

i högre stil. 

Dessa bruklighetsangivelser står alla inom parentes i texten. Den andra listan omfattar 

över tvåhundra olika fackbeteckningar som också hämtats från handledningarna, t.ex. 

adm. (=administrativ term), ekon. (= ekonomisk term), skom. (= skomakarterm). Vi har 

dessutom kompletterat denna lista med några ämnesbeteckningar som vi hittat i SAOB, 

men som inte finns med i förteckningarna. 1 Bland fackbeteckningarna finns stavningsvarianter, 

t.ex. väfn. och vävn. (= vävnadsterm). Det finns också andra varianter, som t.ex. 

paleont. och paleontol. (= paleontologisk term). Dessa varianter bör så småningom normaliseras. 

Vissa fackbeteckningar som inte används längre, t.ex. tonk. (= termer inom tonkonsten), 

bör bytas ut mot den nuspråkliga beteckningen, i detta fall mus. (= musikterm). 

Sammanlagt har ca 167 000 bruklighetsuppgifter taggats. Av dessa är knappt 40 000 

fackbeteckningar. Fackbeteckningarna taggas: 

ekon. 

Övriga bruklighetsuppgifter taggas: 

(numera mindre br.) 

Vi har tagit fram listor över alla facktermer. Termerna är sorterade kronologiskt inom respektive 

ämnesområde. Även dessa finns tillgängliga på Internet. 

1.Ämnesbeteckningar som inte finns med i förteckningarna: bärgv., fyrv., jordbr., kirurg., kyrkl., 

min., repsl., sjökrigsv., smed. och stil.

28 

Definitioner 

I SAOB läggs stor vikt vid betydelsebeskrivningarna. De är mycket utförliga och det är 

inte ovanligt att de omfattar 10 till 20 rader. De består oftast av flera delar, med olika typer 

av definitioner och synonymer. Det finns ingen möjlighet att inom projektets ram göra 

en analys av definitionerna, utan ambitionen har varit att avgränsa dem mot omedelbart 

föregående och efterföljade information. Här följer två exempel på taggade definitioner 

hämtade från artiklarna labiolog respektive demimonde. 

person som är kunnig l. fackman i labiologi. 

benämning på den af urspårade l. komprometterade individer i en 

storstad bestående klass af (i sht) kvinnor som söker efterlikna 

’societetens’ seder o. uppträdande; numera vanl. (med försämrad klang) 

om de fallna (l. åtm. moraliskt tvifvelaktiga) kvinnornas klass, 

försåvidt de söka bevara skenet af fint o. elegant uppträdande; stundom 

allmännare: de prostituerades klass öfverhufvud; jfr HALF-VÄRLD. 

Den stora svårigheten här var att hitta gränsen mellan definitionen och efterföljande information, 

d.v.s det första språkprovet. Den optiska inläsningen skiljer inte på de två stilarna 

som används för definitioner respektive språkprov. Gränsen mot första språkprovet 

har därför taggats manuellt, vilket naturligtvis krävde en stor arbetsinsats. 

Språkprov 

Språkproven består oftast av ett citat och en källhänvisning. Första belägg anges ofta bara 

med en källhänvisning. Detsamma gäller språkprov i ramsorna. Källhänvisningen består 

i sin tur av författarnamn eller översättares namn; boktitel eller liknande i förkortad form, 

sidangivelse eller annan precisering av textställe; uppgift om vilket år verket är tryckt, 

skrivet eller utgivet. När det står två årtal anger det sista årtalet källans utgivningsår och 

det första daterar verkets tillkomst så nära som möjligt. Här följer två typiska modeller 

för språkproven. De är hämtade från artiklarna räkna och boman. 

Hvems lott blef det väl att få räkna blott glada dagar RUNEBERG ESkr. 

2: 303 (1852). 

Bomans flickor trådde dansen på det punschfläckade bordet. Tidn. f. idr. 

1897, s. 352. 

Vi var tvungna att skapa ytterligare stödjepunkter för att tagga språkproven. Efter många 

provtaggningar hittade vi en relativt säker utgångspunkt. Årtalen i språkprovens källangivelser 

står ofta inom parentes, se t.ex. det första språkprovet ovan, vilket gör att man 

kan skilja dem från källuppgifter i huvudet. 

Först taggades årtalen. Som årtal betraktades alla följder av fyra siffror, där den första 

var en etta, den andra en siffra mellan 5 och 9; och den tredje och fjärde en siffra mellan 

0 och 9. Vi fick visserligen med en del sifferkombinationer som inte var årtal, t.ex. spaltnummer 

mellan 1500 och 1999 i uppslagsverk. Detta kunde dock korrigeras i ett senare 

skede. Ca 1 160 600 årtal är taggade hittills. De enkla årtalen taggas: 

1521 

Det finns många andra typer av tidsangivelser i SAOB, men de beskrivs inte här eftersom 

vi följer TEI:s rekommendationer för att tagga datum. En vanlig typ kan nämnas, nämligen 

tidsintervall: 

1855–1856

29 

Efter att vi taggat årtalsupgifterna lade vi in en temporär tagg som markerade en sannolik 

gräns mellan två språkprov. Med utgångspunkt från årtalet sökte vi oss så baklänges i 

språkproven för att identifiera textställe, titel och författare. Det var relativt enkelt att 

särskilja dem eftersom de har olika typografisk karaktär. Ca 634 600 författarnamn har 

taggats enligt nedanstående exempel: 

STRINDBERG 

Ca 457 700 titlar (förkortningar) har taggats enligt nedanstående mönster. Förkortningen 

SD(A) i exemplet står för Stockholms dagblad. 

SD(A) 

Ca 527 100 sidhänvisningar och andra hänvisningar till textställen har taggats. Exempel: 

2: 19 

nr. 5, s. 89 

Övriga tillägg och upplysningar i källhänvisningen taggas: 

Bib. 1917: de stilla i landet 

skolpojksuttryck fr. Uppsala 

Allt text mellan gränstaggen och påföljande källhänvisning betraktas som citat och taggas 

(språkprov från artikeln malm): 

Pröffue edher sielffue, och grant tilsee hwadh Malm j ären, 

fördömda Syndare ären j. PHRYGIUS (1615) 

De förklarande tilläggen (redaktionell text) i citaten taggas som exemplet nedan 

(från artikeln mallig). 

Nu har prästen blivit mallig i pipen, sade.. (målargesällerna) 

på sitt språk. WÄGNER (1921) 

Vi har vid några tillfällen gjort specialundersökningar på uppdrag av olika forskare och 

tagit fram språkprov från individuella författare, t.ex. Hedvig Charlotta Nordenflycht och 

Andreas Arvidi, och från enskilda verk som t.ex. Serenius ordböcker (se "OSA-databasen 

i praktiken" på sidan 59 och framåt.). Resultaten av dessa undersökningar visar klart på 

att det finns en stor variation i källhänvisningarna och att man måste normalisera både 

författarnamn och titlar för att kunna söka på dem.Författarnamn kan variera. Laurentius 

Petri skrivs i de första delarna L. PETRI, men senare sammanskrivet LPETRI. Det är 

också mycket vanligt med varianter på titlarnas förkortningar. Exempelvis förkortas August 

Strindbergs Bland franska bönder både som FrBönd., vilket överensstämmer med 

källförteckningen och som Franska bönd. Detta är naturligtvis trivialt för en mänsklig läsare, 

men ställer till problem vid sökningen. För att komma undan sådana problem bygger 

vi upp en biografisk databas över varianter. Databasen bygger på SAOB-redaktionens bibliografiska 

databas. Uppbyggaden av databasen beskrivs mer utförligt av Sofie Johansson 

Kokkinakis i denna rapport (se “Bibliografisk databas” på sidan 37 och framåt.). Hittills 

har vi endast använt databasen för att ta fram listor över författarnamn, vilka har använts 

vid den automatiska taggningen. Vi kommer relativt snart att börja kontrollera alla källangivelser 

automatiskt mot informationen i databasen. Fördelarna med en sådan kontroll 

är följande. 

• Man kan göra en automatisk korrekturläsning av titlar och namn på författare. 

• Man kan identifiera variantformer av titlarna och författarnas namn. Databasen 

uppdateras allt efter som man hittar nya varianter. 

• Man kan avgöra om osäkra avstavningar i författarnamn och titlar skall tas bort el-

30 

ler inte. Bindestrecket skall t.ex. behållas i STURZEN-BECKER (Sturzen-Becker), 

medan det skall tas bort i STURZEN-BECHER (en annan författare vid namn 

Sturzenbecher). 

• Man kan göra en automatisk korrekturläsning av årtalen i källhänvisningarna. Här 

finns dock många stötestenar. 

• Man kan tillföra ytterligare information om källorna, eftersom det finns uppgifter 

om t.ex. genre och kön i den bibliografiska databasen. Detta kan utnyttjas i sökningen, 

så att man t.ex. kan söka efter språkprov från 1750–1800 från enbart kvinnliga författare. 

Normaliseringen av titlarna kan göras på olika sätt. Som nämnts ovan anser jag att man 

absolut bör undvika att ändra i själva texten. Ett bättre sätt är att lägga den normaliserade 

formen i ett attribut, t.ex. enligt nedan. Ett annat alternativ är att först söka i den 

bibliografiska databasen, för att sedan söka i själva SAOB-databasen. 

Franska bönd. 

FrBönd. 

Statistik över språkproven 

För att visa på vilken typ av undersökningar som blir möjliga när materialet är färdigstrukturerat 

gjorde vi en liten undersökning av språkprovens fördelning över tiden. Underlaget 

hämtades från bokstaven K och omfattade språkprov från ca 19 000 

betydelsemoment. Alla bokstäver i SAOB har dock sina speciella egenskaper och man kan 

säkerligen inte dra några långtgående slutsatser utifrån denna delundersökning. 

Vi skapade emellertid en databas över detta material, men tog endast med språkprovens 

årtal. Vi kunde sedan ta fram ett antal diagram som visade på hur språkproven fördelas 

över tiden. Figur 1 visar språkproven fördelade på 25-årsperioder. Här kan man t.ex. 

se att antalet språkprov från perioden 1525–1549 är mer än dubbelt så många som under 

perioden 1550–1574. Ett påpekande måste göras angående stapeln 1925–1949. Eftersom 

de sista delarna av bokstaven K trycktes 1939 så representerar den endast språkprov mellan 

1925 och 1939. Stapeln 1950–1974 måste också kommenteras. Då undersökningen 

gjordes för några år sedan fanns det fortfarande en del uppgifter som felaktigt taggats som 

årtal, t.ex. spaltnummer i uppslagsböcker. Detta har nu rättats till. 

Figur 1. Språkprovens fördelning på 25-årsperioder

31 

Figur 2 visar ett diagram över hur språkproven från perioden 1900–1924 fördelas på enskilda 

år. Här är det möjligt att se hur excerperingen av källor från vissa år dominerar, 

t.ex. år 1917. Det är möjligen 1917 års bibelöversättning som ger detta genomslag. Antalet 

källor från år 1917 är ca 200, enligt sökningen i den bibliografiska databasen. Som en jämförelse 

kan nämnas att det finns 180 källor från 1916 och 234 från 1918. Det verkar alltså 

inte finnas något direkt samband mellan antalet språkprov och antalet källor. 

Litteratur 

Figur 2: Språkprov 1900–1924 

Allén, S., Loman, B. & Sigurd, B. 1986. Svenska Akademien och svenska språket. 

Stockholm. 

Berg, D.L., Gonnet, G.H. & Tompa, F.W. 1988. The New Oxford English Dictionary Project 

at the University of Waterloo. UW Centre for the New Oxford English Dictionary, 

OED-88-01. 

Blake, G.E., Consens, M.P., Kilpeläinen, P., Larson P.-Å., Snider, T. & Tompa, F.W. 1994. 

Text/Relational Database Management Systems: Harmonizing SQL and SGML. I 

Applications of Databases Proc. (ADB-94), Vadstena. pp. 

Burnard, L. & Speerberg-MacQueen. C.M. 1994. Guidelines for Electronic Text Encoding 

and Interchange (TEI P3). 

Handbok för redigeringen av Svenska Akademiens ordbok. 1904. Utarbetad av Ernst 

Kock. 

Handbok för redigeringen av Svenska Akademiens ordbok. 1993. Utarbetad av Hans 

Jonsson. 

Kazman, R. 1986. Structuring the text of the Oxford English Dictionary through finite state 

transduction, Master Thesis, CS-86-20, University of Waterloo. 

Kreyt, J. G. & van der Voort van der Kleij, J. J. 1992–93.Towards a Computerised 

Historical Dictionary of Dutch. In Acta Linguistica Hungarica, Vol. 41. 

Kring en ordbok. Festskrift till Sven Ekbo. Stockholm (1975; Sv. Ak. handl.: Norstedts) 

Lundbladh, C.-E. 1992. Handledning till Svenska Akademiens ordbok. Lund.

32 

Malmgren, S.-G. 1988. The O.S.A project: Computerization of the Dictionary of the 

Swedish Academy. In Literary and Linguistic Computing 3: 166–8. 

Ordbok över svenska språket, utg. av Svenska Akademien. (Svenska Akademiens ordbok.) 

1893 –. Lund. 

The Oxford English Dictionary. (OED). 1888–. Oxford. 

Rydstedt. R., Creating a Lexical Database from a Dictionary. 1988. In Studies in 

Computer-Aided Lexicology. Göteborg. 

Salminen, A. & Tompa, F.W. 1994. PAT expressions: an algebra for text search. I Acta 

Linguistica Hungarica 41, 1–4 1994, 277–306. 

Svenska Akademiens ordbok (SAOB). 1896–. Lund. 

Svensson, L., Hansson, I. & Ruthström, B. (red.) 1993. Ord och lexikon. Festskrift till Hans 

Jonsson. Lund 1993.

33 


Taggning i praktiken – en personlig reflektion 

Efter att i många år ha arbetat med olika delar av OSA-databasens struktur, huvudsakligen 

manuellt, har jag haft anledning att reflektera över ordbokens brister och förtjänster. 

Den intressanta sidan med att tagga material manuellt är just att man kommer ordboken 

så ”in på livet”. När man suttit och korrekturläst, taggat och kontrollerat artiklar i ett 

oändligt antal timmar har man skaffat sig ett livslångt förhållande av högst personlig art 

till materialet; ett förhållande som oftast givit många insikter av såväl språkvetenskaplig 

som allmänbildande karaktär. Emellanåt får man också anledning att fundera över redaktionens 

humoristiska ådra när man betänker valet av språkprov. Följande två exempel får 

tala för sig själva: 

Wårt språk (är) så regelbundit, och så faststelt, at thet kan.. biuda 

alla språk..foten. SWEDBERG SabbRo 2: Föret. s. 15 (1712). 

Ungdomliga lärjungar inbilla sig .. gärna, att språksvårigheterna lätttare 

övervinnas med större ordböcker. PedT. 1943 s. 226 

Dessa sidor innehåller en del av de reflektioner jag gjort under taggningen av delar av 

OSA-materialet. De är kanske inte alla av vetenskaplig art, men säger förhoppningsvis en 

del om hur arbetet går till och en del om SAOB:s kvaliteter. 

I OSA-databasen markeras de olika innehållskategorierna unikt för att datorn skall 

kunna hitta dem. Till stor del kan detta göras maskinellt (se “SGML-taggning av SAOB” 

på sidan 15 och framåt.i denna skrift) men vissa partier måste taggas manuellt. Ett sådant 

fall är taggningen av förstabeläggen i språkproven. Dessa är av stort intresse för ordboksanvändaren 

och det är väsentligt att de markeras korrekt. 

Tyvärr kan de vara svåra att urskilja maskinellt eftersom inläsningsprogrammet inte 

gjort någon åtskillnad på stilen och textstorleken för brödtext och autentisk språkprovstext. 

I den tryckta texten ser man tydligt vad som är definitioner, redaktionella exempel 

och autentiska språkprov, men i den maskinläsbara versionen är detta inte lika 

tydligt. Skillnaderna mellan stilarna syns inte direkt på skärmen utan markeras endast 

med taggar, dessutom ganska ofta felaktiga sådana. Vid inläsningen har datorn haft problem 

med att avgöra var definitioner och redaktionella språkprov slutar och autentiska 

språkprov börjar. Av den anledningen måste man gå in och utföra den delen av taggningen 

manuellt. 

I arbetet med förstabeläggen har jag haft anledning att reflektera över ordbokens 

språkprov, som ju utgör själva grundvalen för hela arbetet. Det kan ju tyckas som ett enahanda, 

tidskrävande arbete att kontrollera vad som är ett förstabelägg eller inte, inte 

minst för att man antas behöva jämföra med den tryckta ordboken varje gång. Så är dock 

inte fallet. 

Faktum är att när man sitter och taggar förstabeläggen manuellt övar man snabbt upp 

en känsla för vad som är ett autentiskt språkprov och vad som är redaktionella exempel 

respektive en del av definitionen. Det är ytterst sällan man behöver konsultera den tryckta 

texten för att kontrollera sina intuitioner, något som borde borga för ordbokens goda 

kvalitet och omdömesgilla urval av typiska språkprov. Sett ur en ”taggares” synvinkel är 

det framför allt en fördel att arbetet går snabbare om man främst behöver bry sig om databasens 

text. 

Vid de tillfällen då man inte kan använda stilen för att avgöra vad som är vad i databasen 

kan man ändå på ett förhållandevis enkelt sätt avgöra var det första autentiska beläg-

34 

get finns. Är man någorlunda kunnig i svenskans språkliga historia kan man ofta på rent 

kronologiska grunder avgöra om ett språkprov är äldre än den redaktionella texten eller 

inte, framför allt vad beträffar stavning. 

Den språkliga formen 

Bokstaven R började tryckas 1956 och har redaktionell text som stavas enligt moderna 

principer. Därför är det enkelt att avgöra att följande exempel måste vara autentiskt enbart 

på grundval av stavningen. 

Man kan döma hvad tillopp och vördnad han vann .., när han, oaktadt 

penningars rarhet den tiden, för en enda messa fick siuttio marker .. 

silfver. DALIN Hist. 2: 13 (1750). 

I belägget förekommer dels stavning med initialt hv för v-ljudet, en stavning som är sällsynt 

förekommande i SAOB:s redaktionella text. Principen att stava neutrala perfekt particip 

med slutljudande d som dt hade också frångåtts 1956, och stavningen messa för det 

moderna mässa hjälper också till att urskilja språkprovet på rent åldersmässiga grunder. 

Trooheet bland Legehion är en stoor raritet.GRUBB 121 1665. 

I citatet från Grubb används bl.a. dubbeltecknad vokal för långt vokalljud, en stavningsprincip 

som försvann redan under 1700-talet. Även stavningen av j-ljudet (hion) är ålderdomlig 

och tyder på att texten kommer från 1600–1700-talet. 

Innehållet i språkproven 

Ofta har man också stor hjälp av själva innehållet i språkproven. Man kan relativt säkert 

avgöra vilka språkprov som är autentiska enbart på innehåll och ordval, om de formella 

kriterierna inte hjälper till. Följande exempel får illustrera påståendet: 

Hans hustru är en riktig raring, med ljust hår och smilgropar. 

ÅKERHIELM Webster Fiende 98 1927. 

I princip skulle man kanske kunna tänka sig att någon skrev ovanstående citat i akt och 

mening att ha det som redaktionellt språkprov i SAOB. Något i ordvalet säger oss dock att 

en modern ordboksredaktion förmodligen skulle tveka inför beslutet att använda det som 

redaktionell text. Som autentiskt språkprov är det dock utmärkt. 

I nedanstående språkprov citeras två personnamn vilka är så pass ovanliga att de förmodligen 

inte skulle väljas till ett redaktionellt språkprov. 

Tannström är rasande på Agardh. LILJECRONA Riksd-Kul. 166 1840. 

I följande exempel är språkprovet också såpass konkret, genom omnämnandet av en speciell 

fågelart, att man på ganska goda grunder kan anta att det är autentiskt. 

Den raritet bland fåglar som bär namnet dubbelbeckasin. ROSENIUS Jakt 

1: 100 (1912). 

Sammanhanget språkprov – källa 

Ganska ofta kan man direkt koppla innehållet i ett språkprov till en bestämd författare. 

När en person som Sven Dufva figurerar i ett språkprov (i detta fall supplerat) kan man 

på ganska goda grunder anta att det är Runeberg som är upphovsman, varvid språkprovet 

givetvis är autentiskt. 

(Sven Duva) Fick vara dräng, der man höll rast, soldat der striden 

brann. RUNEBERG 2: 52 1846.

35 

Tveksamma fall 

Följande exempel visar på sådana fall då jag varit tvungen att konsultera SAOB för att få 

svar på vad som är redaktionellt eller inte. Man skulle kunna tänka sig att det autentiska 

språkprovet endast består av en källhänvisning efter ett redaktionellt språkprov. 

Avregistrerat motorfordon. SFS 1940 s. 1733. 

Det raskar mot höst. BLOMBERG Landk. 5 1922. 

Glänsande, rasslande siden. BENEDICTSSON FruM 59 1887. 

Gemensamt för alla språkproven (som är autentiska) är att de är så knapphändiga och allmänt 

hållna att det inte finns något speciellt att identifiera dem med vad beträffar stavning, 

innehåll etc. 

I exemplet nedan förefaller innehållet i språkprovet vara för modernt jämfört med källhänvisningens 

ålder. Visserligen fanns det bomber redan under 1700-talet, med frågan är 

om de användes för att bomba städer med. Ortografin förefaller dessutom väl modern för 

ett autentiskt 1700-talsexempel, vilket det alltså inte är. 

Han begravdes under raset, när bomben träffade huset. BERGMAN Jordkl. 

1:220 1773. 

Följande exempel är ett redaktionellt exempel där kursiven fattas, men av innehållet att 

döma skulle man kunna tro att det var autentiskt eftersom det stämmer väl överens med 

källhänvisningen. 

Skjuta med revolver. KrigVAT 1852, s. 99. 


Ovanstående redogörelse visar i mångt och mycket på ett tillvägagångssätt som i stora 

stycken kan sägas vara intuitivt. Man har en ”känsla” för vad som är rätt eller fel; en känsla 

som arbetats upp genom ett långt arbete med ordboken och som man litar på utan att 

djupare reflektera över vari den bottnar. Naturligtvis grundas inte taggningsarbetet på 

medarbetarnas oreflekterade intuitioner inför materialet, men var och en som arbetat 

länge med ett material får till slut en sådan kännedom om det att man ofta kan avgöra på 

förhand vad en viss kategori representerar. Och denna kännedom kan utnyttjas som ett 

komplement till de mer teoretiska, rationella metoderna som arbetet huvudsakligen bygger 

på. 

Just det faktum att man utan konkreta hållpunkter kan avgöra vilka språkprov som är 

autentiska och inte i SAOB, visar att urvalet av språkprov i ordboken bygger på välgrundade 

kriterier som urskiljer ”verkligt” språk gentemot konstruerade exempel.

37 


Bibliografisk databas 

Uppbyggnad och koppling till SAOB 

Den bibliografiska databas över källförteckningar i SAOB som finns på Språkdata vid Göteborgs 

universitet bygger på den bibliografiska databas som Lars Svensson på Ordboken 

i Lund har byggt upp. Detta gjordes genom att sätta ihop material från tre olika källförteckningssamlingar, 

”Källförteckning av Sigrid von Greyertz”, ”Källförteckning, supplement 

1 av Gulli Starfelt-Brown” och ”Källförteckning, supplement 2 av Lars Svensson”. De 

representerar bibliografiskt material från tidsperioderna 1939, 1975 och 1975–1990, respektive. 

De två första samlingarna är tryckta och har scannats in och den tredje materialsamlingen 

som bygger på excerperade texter finns inte i tryckt format utan endast i 

databasform. 

Sökning i den bibliografiska databasen 

För att kunna söka på viss information i databasen har vi i Göteborg utvecklat utsökningsrutiner 

vilka kan användas i ett gränssnitt på World Wide Web (WWW). Sökningar kan 

göras med hjälp av ”navigeringsverktyg” (eng. browsers) för WWW, som t.ex. Netscape eller 

Mosaic. Dessa sökningar kan för närvarande göras på författarefternamn, källtitel, förkortning 

av källtitel och sökord. Nu pågår arbete med att skapa sökningsmöjligheter för 

kombinerad sökning, där även sökning på tryckår kommer att ingå. Resultaten i sökningarna 

varierar något genom att de ibland ger alternativ på resultat till sökningselementet. 

Det innebär att vid vissa sökningar får en användare inte det slutgiltiga sökningsresultatet 

omedelbart, utan en vidareutvecklig av sökningen. Detta sker t.ex. vid sökning på en 

författare. Användaren ska då ange författarens efternamn och resultatet blir en lista med 

alla författare med samma efternamn fast med initialer eller förnamn. På det sättet kan 

en användare snabbt och lätt hitta rätt författare utan att veta den exakta stavningen av 

förnamn eller initialer i förväg. Det slutliga resultatet består av källtitel, sökord, källreferens 

och identifieringsnummer. 

Nedan följer en närmare beskrivning av de sökningsrutiner som finns i dag: 

Författarefternamn, ger en lista på författare med samma efternamn fast med förnamn 

eller initialer, och antal verk angivna, för att underlätta en vidare sökning. Användaren 

kan då välja den författare som stämmer med beskrivningarna i listan på efternamn. 

Källtitel, ger en lista på verk som antingen börjar på ett visst ord eller har en viss titel. 

Förkortning i källtitel, ger en lista av verk som i källtiteln innehåller den sökta förkortningen. 

Användaren måste ange exakt stavning av förkortning. 

Sökord, ger en lista på författare och verk som innehåller det givna sökordet. 

I figur 1 visas gränssnittet på WWW till den bibliografiska databasen.

38 

Figur 1: Gränssnittet på WWW till den bibliografiska databasen. 

Figur 2 och 3 visar exempel på de resultat man kan få i en sökning på författarefternamn. 

I en sökning på ”ANDERSSON” visas först en lista på alla ”ANDERSSON” som finns i databasen, 

med initialer och antal verk som ges exempel från i SAOB, se figur 2. 

Figur 2: Författarefternamn med initialer och antal verk. 

Vid ett val av vidare sökning på ”ANDERSSON [CFG]”, visas en närmare beskrivning av 

de verk författaren har skrivit, se figur 3.

39 

Figur 3: Beskrivning av författare, verk, tryckort och tryckår. 

Implementering 

Den ursprungliga databasen som utvecklades av Lars Svensson på ordbokens redaktion i 

Lund skapades i FileMaker Pro 2.1 under Macintosh operativsystem. Vidareutvecklingen 

av databasen har sedan utförts i Göteborg under operativsystemet Unix med ett gränssnitt 

på World Wide Web (WWW). 

Den bibliografiska databasen innehåller information om författare, källtitel, tryckort, 

tryckår, sortering, källförteckning, sökord plus diverse andra typer av information som 

har insamlats vid ordboksarbetet i Lund. All information som lagts in i databasen i Lund 

har nu överförts till databasen i Göteborg. 

Själva bearbetningen och omarbetningen av materialet sker med hjälp av programmeringsspråk 

som Perl (Practical Extraction and Report Language) och sed. Materialet lagras 

i en delvis modifierad tabellform. Tabellformen bygger på den ursprungliga, men för 

att möjliggöra vissa typer av sökningar och dessutom snabba upp sökningarna har tabellerna 

kompletterats med annan information. Diverse utsökningsrutiner har sedan skapats 

i databasfrågespråket SQL. Ett gränssnitt i Common Gateway Interface (CGI) har 

skapats för att användare ska kunna göra sökningar genom WWW. 

Kopplingsmöjligheter 

De kopplingsmöjligheter som finns är de mellan befintliga författare och verk i artiklar i 

SAOB och deras motsvarighet i databasen. Sammankoppling sker med de ovan beskrivna 

sökningsrutinerna och det gemensamma gränssnittet på WWW. I Figur 4 visas en SAOBartikel 

i gränssnittet på WWW.

40 

Figur 4: Artikel ”ADAGIO” från SAOB på WWW. 

En länk från en författare kan antingen ge en beskrivning av de verk författaren har producerat 

eller en närmare beskrivning av det verk ett aktuellt uppslagsord förekommer i. 

En länk från ett verk kan ge en beskrivning av verket som ett visst uppslagsord förekommer 

i. 

Den information som tidigare varit tillgänglig om författare och verk är ett kortare utdrag 

av exempel på författare, verk, tryckort och tryckår. 

Problem 

I utvecklingen av den bibliografiska databasen i operativsystemet Unix, uppstod diverse 

problem. Det var dels ”konsekvens”, dvs. olika sätt att beskriva t.ex. ”tryckort”, i materialet 

från databasen i Macintosh-format och det var dels representation av materialet i en 

annan form för att underlätta snabb sökning. 

Eftersom databasen i Macintosh inte hade använts för att göra samma typer av sökningar 

som nu var aktuellt, hade konsekvens i materialet inte tidigare varit ett problem. 

Men för att kunna göra sökningar på t.ex. tryckår, blev det nu viktigt att bestämma hur 

tryckårsinformationen skulle representeras. Det fanns ibland med annan information om 

diverse upplagor som i och för sig är information som måste finnas med i tryckårsinformationen 

men inte kan hanteras i en sökning på t.ex. vilka verk som trycktes mellan 1830 

och 1840. Denna typ av information är viktig i sökningen. Den ursprungliga informationen 

finns fortfarande kvar och det är fortfarande den information som användaren ser i resultatet 

av en sökning. 

Komplettering av materialet har utförts i databastabellerna som beskriver författare, 

tryckår, källtitel, sökord och förkortningar på källtitel. Liknande kompletteringar kan 

komma att behövas om fler sökrutiner för att söka i databasen implementeras.

41 

Andra kopplingsmöjligheter 

Det är möjligt att använda den bibliografiska databasen för att skapa andra kopplingsmöjligheter 

än de beskrivna som länkar från artiklar på WWW. 

Andra länkar från SAOB-artiklar på WWW kan t.ex. vara: 

• länkar från de autentiska språkexempel som finns i artiklarna i SAOB till de verk de är 

tagna ur. Detta kan vara intressant om man vill ha en större kontext till det givna exemplet. 

En konkordans av uppslagsordet i ett verk kan vara intressant om man vill studera 

en enskild författares bruk av ett ord. Se vidare ”Implementering av koppling mellan 

gränssnitt och sökrutiner till Svenska Akademiens Ordbok och exempelkorpus (S. Johansson 

Kokkinakis, 1995)”. Detta är en implementering av länkar från språkprov i SAOB till 

Strindbergs ”Tjänstekvinnans son”, dels i form av konkordans av fler förekomster av samma 

uppslagsord och dels större kontexter till dessa. 

• länkar till andra ordböcker för att ge vidare förklaringar av ett uppslagsord, exempelvis 

Söderwalls Ordbok öfver svenska medeltidsspråket. 

• länkar till fler förekomster av ett uppslagsord i flera samtida verk. Det kan vara intressant 

om man vill jämföra olika författares bruk av ett uppslagsord. Detta förutsätter 

många verk i elektroniskt läsbart format. 

Bibliografi 

Kokkinakis Johansson, S. 1995. Implementering av koppling mellan gränssnitt och 

sökrutiner till Svenska Akademiens ordbok och exempelkorpus. Språkdata, 

Institutionen för svenska språket. Göteborgs universitet. 


1893 –. Lund. 

Söderwall, K. F. 1884–1918. Ordbok öfver svenska medeltidsspråket. Lund.

43 


Den ortografiska normen i SAOB 

Under den tid som SAOB redigerats har svenska språket utvecklats och förändrats, inte 

minst vad gäller ortografi och morfologi. För SAOB:s del har framför allt 1906 års stavningsreform 

medfört en del förändringar beträffande stavningen i ordboken, eftersom flera 

bokstäver både hann påbörjas och tryckas innan reformen slog igenom. 

Det är självfallet besvärligt för utgivningen av en omfattande ordbok när själva metaspråket 

måste anpassas. De ortografiska förändringarna har också ställt OSA-projektet 

inför en del principiella och praktiska problem varför vi valt att ägna ett separat avsnitt 

åt just stavningsprinciperna i ordboken och databasen. Redogörelsen för språkdebatten 

under 1800-talet blir med nödvändighet mycket knapphändig, men den som vill läsa mer 

om dessa frågor kan få upplysningar om utförligare beskrivningar i litteraturlistan. 

Svenska Akademien och stavningen 

Svenskan, liksom de flesta skriftspråk, har periodvis varit föremål för intensiva debatter 

angående stavning, och för svenskans vidkommande verkar diskussionen ha varit ovanligt 

livlig under 1700-talet. Gustav Vasas bibel hade sedan 1500-talet haft stort inflytande 

på stavningen, men allt eftersom de språkvetenskapliga disciplinerna utvecklades, samtidigt 

som språket förändrades, höjdes röster som förespråkade en ortografi bättre lämpad 

för det moderna språket. Man kan urskilja två läger – det ena bestående av dem som förespråkade 

en ljudenlig stavning, och det andra bestående av dem som snarare ville lägga 

etymologiskt släktskap till grund för stavningsprinciperna. 

Under slutet av 1600-talet debatterade Urban Hiärne och Jesper Swedberg med en för 

oss smått obegriplig intensitet om stavningsfrågor, och under 1700-talet engagerade sig 

oerhört många i debatten. 1741 försökte man t.o.m. få Riksdagen att lagstifta om stavningsfrågor 

– ett förslag som visar på allvaret i frågan. 

Det är också mot bakgrund av denna debatt om språkriktighet, språkvård och språkvetenskap 

man skall se instiftandet av Svenska Akademien år 1786. Svenska Akademien 

har alltid haft stort inflytande på språkfrågorna i vårt land och SAOL har status av en normerande 

ordlista för svenska språket. Det var också en av Akademiens ledamöter som 

gjorde en bestående insats för att stabilisera stavningen av svenskan under början av 

1800-talet, nämligen Carl Gustaf af Leopold, som 1801 fick gehör för sina ortografiska 

principer. Dessa befästes sedan ytterligare genom att Carl Jonas Love Almqvist lade dem 

till grund för sin ”Svensk Rättstafnings-lära” 1829. 

1889 utkom den sjätte upplagan av SAOL, i stora drag utformad av Esias Tegnér d.y., 

och denna upplaga innehöll en stor mängd ortografiska förändringar. Året efter beslöts att 

SAOL skulle upphöjas till norm i stavningsfrågor. 

Den ortografiska debatten fortsatte dock genom hela seklet och resulterade slutligen i 

1906 års stavningsreform då svenska språket antog den ortografiska norm som i stort sett 

gäller än idag. 

1906 års stavningsreform 

De viktigaste punkterna i 1906 års stavningsreform omfattar stavningen av v-ljudet, t-ljudet 

och ä-ljudet.

44 

V-ljudet kunde vid denna tid stavas antingen med f (skref, afstanna), fv (hafva) eller hv 

(hvilken). Efter reformen kom v-ljudet att stavas uteslutande med v (skrev, avstanna, hava, 

vilken). 

En annan besvärlighet i svensk ortografi var stavningen av t-ljudet i vissa verbformer 

och adverb. Principen hade vacklat genom tiderna men kan i huvudsak förklaras med att 

supinum stavades med t (han har gått) medan perfekt particip i neutrum stavades med dt 

(pappret är användt). T-avledda adverb, (slå någon hårdt (av adjektivet hård)), stavades 

med dt liksom en del andra ord, t.ex. neutrumformen rödt av röd. 1906 års stavningsreform 

förändrade denna stavning till att enbart omfatta tt respektive t (gått, använt, hårt, 

rött). 

Ytterligare en ortografisk svårighet, som fortfarande kvarstår, var stavningen av ä-ljudet, 

som ju i svenskan emellanåt stavas med e (berg) och i andra fall med ä (bälg), trots att 

vokalljudet i båda orden uttalas likadant. Den komplicerade stavningen av svenskans ä- 

ljud (och å-ljud) kan förklaras med språkhistoriska orsaker och bottnar i att ljud som från 

början var olika med tiden föll samman. 1906 års stavningsreform innebar att stavningen 

av ä-ljudet i flera fall återgick till att stavas med e i stället för ä som varit fallet i bl.a. 1889 

års SAOL. 

SAOB och stavningen 

När 1906 års stavningsreform genomfördes hade SAOB publicerat bokstaven A och C och 

påbörjat ett flertal andra bokstäver, bl.a. den omfattande bokstaven B. För att slippa byta 

stavningsprinciper mitt i de påbörjade bokstäverna började man tillämpa nystavningen 

först med bokstaven E, 1917. Till viss del bibehölls dock den äldre stavningen t.o.m. 1923 

i en del kompletterande häften för äldre bokstäver. Faktum är att man kan hitta vissa ord 

stavade på gammalt vis ända fram till bokstaven L (1937) bl.a. hvilka, hvarandra, användt. 

Det finns dock inga stickord med initialt hv, och ytterst få med dt, undantaget de 

ord som har med hand att göra t.ex. HANDTEL och HANDTVÄRK (tryckt 1930). 

Vad beträffar stavningen av kort e- och ä-ljud skiljer sig SAOB från gängse norm genom 

att ett flertal ord stavas med ä, där vi skulle vänta oss e. Detta har fått till följd att en del 

ord som inleds med kort e- eller ä-ljud och som nu stavas med e ändå inte kommer att behandlas 

förrän under Ä. Det mest kända exemplet är väl EGG (knivsegg) som i SAOB stavas 

med Ä och därför inte behandlats än. Lundbladh (1992:19) anger också att bärg stavas 

med ä, men faktum är att just detta ord med sammansättningar stavas med e, alltså stick 

i stäv med de principer som annars används av SAOB i dessa fall. 

Principen får också till följd att den redaktionella texten emellanåt verkar ålderdomligare 

än språkproven genom sin stavning av e, t.ex. värklighetsskildring (R401), värksamhet 

(R401), pängar (R501), rägn (R501). 

I artiklarna kan det se ut som i exemplen nedan: 

om ngns värksamhet: praktisk. En realistisk verksamhet (dvs. utövande 

av boktryckaryrket) nyttig både för hans utveckling såsom man och för 

betryggandet af hans timliga bergning. ATTERBOM Minnest. 2: 225 1855. 

Det redde väl upp sig (med affärerna), gällde bara att skaffa (pängar) 

för tillfället. ÖBERG Makt. 1:82 (1906). 

Vad beträffar morfologin är det främst de plurala verbformerna som berörs. SAOB höll 

länge fast vid bruket av plurala verbformer och de avskaffades först 1976 i ordboken. 

SAOB borde därmed vara den sista mer officiella instansen i Sverige som höll fast vid detta 

bruk.

45 

Även vad beträffar dessa former kan det hända att den redaktionella texten förefaller 

vara ålderdomligare än språkproven. 

Salens tre första bänkar äro reserverade för honoratiores 

(Redaktionsexempel ”reservera” tryckt 1957) 

Implikationer för OSA 

För en mänsklig användare är bakgrunden till SAOB:s stavningsprinciper begripliga och 

ger på sin höjd ett lite kuriöst intryck. Känner man bara till efter vilka principer ordboken 

är redigerad så kan man använda den utan problem. Hittar man inte PENG efter PENE- 

TRERA så kan man med lite tålamod slå upp ordet en gång till med ledning av hänvisningen, 

och slutligen hitta uppslagsordet PÄNNINGAR efter PÄNNA (!) och PÄNNAL. 

För en dator är det inte lika enkelt. I motsats till människan måste den ha exakta besked 

om vad den skall leta efter och hittar den inte vad den söker måste man ge nya order. 

Den kan inte tänka själv. Eftersom alla artiklar dessutom innehåller ett otal stavningar 

av ett och samma ord från skilda tider är det nödvändigt att ha en enhetlig uppslagsform 

där stavningen inte varierar över de olika banden. 

Detta problem delar vi självfallet med redaktionen i Lund som förr eller senare måste 

ta itu med saken, inte minst om en andra upplaga skall påbörjas. För SAOB-redaktionens 

del får problemet anstå ett antal år, men för OSA-projektets del är det nödvändigt att försöka 

få till stånd någon slags normalisering av metaspråket när databasen skall börja användas 

i större skala. En av de stora vinsterna med OSA är just att man skall kunna göra 

stora, snabba sökningar i hela ordboken och samtidigt vara säker på att få med alla uppgifter. 

Det får man inte om ett och samma ord stavas på minst två olika sätt bara i den 

redaktionella texten. 

I princip skulle man lätt kunna gå in och normalisera stavningen av primärenheter och 

därmed lösa det praktiska problemet, men då har man samtidigt gjort om ordboken till något 

annat än vad den är. För OSA-projektets vidkommande är det viktigt att inte göra några 

ingrepp i själva ordbokens redaktionella utförande, vi har t.o.m. låtit de få tryckfelen 

vara kvar, vilket medför att vi får finna andra lösningar. För närvarande funderar vi på 

att ge dubbla upplysningar, d.v.s ha en normerad variant som sökalternativ, samtidigt 

som ordbokens ursprungliga stavning också återges. Vår förhoppning är att vi genom detta 

förfarande också kan vara redaktionen behjälplig när en andra upplaga skall påbörjas. 

Litteratur 

Hernlund, H. 1883. Förslag och åtgärder till svenska skriftspråkets reglerande 1691–1739 

jämte en inledande öfversigt af svenska språkets ställning under den föregående tiden. 

Stockholm. 

Lundbladh, C.-E. 1992. Handledning till Svenska Akademiens ordbok. 1992. Lund 

Johannisson, T., G. Mattsson 1974. Svenska Akademiens ordlista under 100 år. Skrifter 

utgivna av Svenska språknämnden. 55. Stockholm. 

Santesson, L. 1986. Tryckt hos Salvius. Lundastudier i nordisk språkvetenskap. Ser A 37. 

Lund. 

Ståhle, C. I. 1970. Det nordiska rättstavningsmötet 1869 och hundra års svensk 

rättstavning. I: Skrifter utgivna av Nämnden för svensk språkvård 43. Stockholm. 

s. 5–36.

47 


SAOB som hypertext 

Hypertextgränssnitt till artiklar i SAOB 

Artiklarna från A till Advokat i SAOB finns nu tillgängliga i en sökfunktion med gränssnitt 

på World Wide Web (WWW). Det innebär att den som har tillgång till Internet kan 

slå upp ord och läsa hela artiklar i SAOB. WWW är ett forum som använder sig av hypertext. 

Hypertext innebär representation av textmängder där texten inte nödvändigtvis förekommer 

linjärt. Hypertext är länkar som kopplar ihop informationsbitar för att 

möjliggöra för en läsare att välja olika vägar i sökning av information. 

Bakgrund och beskrivning 

Anpassningen till WWW gjordes med början under 1994 först genom att lägga ut artiklarna 

i Hypertext Markup Language (HTML)-format. HTML är en Standard Generalized 

Markup Language (SGML)-variant som används vid informationsrepresentation på 

WWW. Detta innebar att de redan fanns färdiga i HTML-format varje gång det gjordes en 

sökning på en artikel. En senare del av utvecklingen av WWW-anpassningen av SAOB 

gjordes under 1995 och blev en sökrutin där artiklarna inte fanns färdiga när de skulle tas 

fram, utan de genererades från det elektroniska material som SAOB för närvarande redigeras 

i. En nackdel med denna metod är att det kan ta något längre tid att ta fram en artikel, 

men detta uppvägs å andra sidan av besparingen av utrymme. Det krävs nämligen 

väldigt mycket minne för att spara alla artiklar i HTML-format. 

Den automatiska sökningen innebär en möjlighet att söka på artiklar som t.ex. ”abborre”. 

Se figur 1. 

Figur 1: Sökning på artiklar i SAOB med WWW-gränssnitt. 

I figur 2 visas artikeln ”abborre” i HTML-format, ungefär som den ser ut i ordboken. Strukturen 

skiljer sig dock något. Det är t.ex. typsnittsstorlek och placering av olika informationsdelar 

i en artikel som skiljer sig åt. Detta är för att förtydliga strukturen eftersom det är mycket viktigt 

hur informationen struktureras i WWW-miljö för att ge bästa möjliga överblick och förståelse.

48 

Figur 2: SAOB-artikel i HTML-format. 

I artikeln, i figur 2, kan man se vissa ord som är understrukna. De är ord som innehåller 

hypertext-länkar. Genom att klicka på ett sådant ord aktiverar man SAOBs bibliografiska 

databas, vilken kan ge information om författare, källtitlar och tryckår. Figur 3 och 4 beskriver 

vad som händer om man klickar på författaren ”ROTHOF” i HTML-texten i artikeln 

”abborre” i figur 2 ovan. Först får man se en lista med de författare som har 

efternamnet ”ROTHOF” med efterföljande initialer och antal verk det finns exempel ifrån, 

se figur 3. 

Figur 3: Lista med författare och antal verk. 

Om man klickar på författarens namn visas ytterligare information om de verk som författaren 

har skrivit. Se figur 4. 

Figur 4: Exempel på en författare och ett verk.

49 

Sökningen på artiklar innehåller också en möjlighet att söka på delsträngar av ett uppslagsord 

eller en sammansättning om man är osäker på stavning. För att ta reda på alla 

sammansättningar som finns för ett uppslagsord som ”abborre” söker man på ”abborr.*” 

som början av en sträng. Resultatet blir då en lista av alla sammansättningar och eventuella 

avledningar eller andra ord som börjar på abborre. Se figur 5. 

Figur 5: Sammansättningar som börjar på ”abborre”. 

Denna typ av sökning görs för att användaren snabbt kan hitta det aktuella uppslagsordet 

eller den sammansättning han letar efter utan att behöva bekymra sig över den exakta 

stavningen. 

Implementering 

Implementeringen av sökningsrutinen på artiklar i SAOB gjordes under en tremånadersperiod. 

Det innebar bl.a. undersökning av möjligheterna att hantera svenskt textmaterial 

i programmeringsplattformen under operativsystemet Unix. Programmeringsomgivningen 

bestod av programmeringsspråket Perl och gränssnittet Common Gateway Interface 

(CGI) för WWW med olika sökverktyg. 

Utformning och problem 

Hanteringsordningen av information gick från det sökverktyg som en användare hade 

valt, t.ex. Netscape, Mosaic eller Lynx, genom informationsgränssnittet CGI vidare till 

Perl i Unix. Genom att användarmiljöerna kunde variera från PC till Macintosh och Unix 

uppstod vissa problem med materialhanteringen. 

Ett av de problem som uppstod var hanteringen av svenska tecken, eftersom den omfattande 

hanteringen av ord och söksträngar i sökverktyg som Netscape inte alltid fungerade 

normalt. Det hände vid vissa sökningar att detta sökverktyg försökte konvertera 

tecken och därmed göra ord omöjliga att tolka. Det kunde dock lösas med ersättningar i 

programhanteringen av materialet från HTML-representationen så att svenska tecken 

inte syntes annat än i gränssnittet till användaren. 

Tecken för att representera fonologisk information och andra specialtecken som finns i 

SAOB men inte är möjligt att representera i HTML har också ställt till problem. Detta har 

tills vidare fått lösas genom att vissa tecken ersätts med bilder av tecknen.

50 

Ett annat problem man måste ta hänsyn till i implementeringen av tillämpningar på 

WWW är tiden för informationshantering och näthastighet. För att användaren av dessa 

tillämpningar inte ska förlora intresset på grund av att tillämpningen fungerar för långsamt 

är hastigheten mycket viktig. Snabbhet beror naturligtvis på det avstånd en användare 

befinner sig från den server tillämpningen ligger på. Men det beror också på 

hanteringshastigheten i programmet som ligger bakom WWW-tillämpningen. Hanteringshastigheten 

i programmet är inget problem i fallet med sökrutiner för SAOB-artiklar 

på WWW. Perl är ett utmärkt programmeringsspråk för att bearbeta och ersätta strängar 

i Unix. Det är möjligt att hantera mycket stora textmängder, vilket är fallet med SAOB, 

och ändå få snabba sökningsresultat.

51 


SAOB:s täckning 

Den som använder en ordbok för att slå upp vad okända ord betyder får emellanåt mycket 

handfasta problem med brister i ordbokens täckning: det sökta ordet står inte att finna. 

Men allt behöver inte vara frid och fröjd bara för att man råkar hitta ett stickord och ett 

betydelsemoment som passar. Det kan ju vara en olycklig slump som gör att den riktiga 

betydelsen är missad samtidigt som en felaktig verkar stämma in. För praktiskt bruk kan 

man dock räkna med att falska svar är ganska sällsynta: finns det ett betydelsemoment 

som passar så är det nog rimligt att det är det korrekta. Svårigheterna dyker upp när man 

vill använda ordboken som en modell av ordförrådet och dess förändringar. Då blir plötsligt 

variationer i grad av täckning kritiska. Denna artikel försöker ge en översiktlig bild 

av några typer av felkällor som man måste räkna med. 

Den kronologiska täckningen 

SAOB har som uppgift att ge en rimligt heltäckande bild av det svenska riksspråket från 

reformationen och framåt. Gränsen bakåt operationaliseras till 1520. En konsekvens av 

det är att förstånd får 1525 som år för första belägg, medan ordet etymologiskt beskrivs 

”fsv. forstand, liksom d. forstand av mnt. …”. Den skarpa gränsen bakåt motiveras med 

att den ger ett rent snitt mot redovisningen av medeltidsspråket i Söderwalls Ordbok öfver 

Svenska Medeltids-språket och Schlyters Ordbok till Samlingen af Sveriges Gamla Lagar. 

Det arbete, hvars början här framlägges, är afsedt att dels gifva en trogen bild 

af det nu lefvande svenska riksspråket, dels äfven uppvisa, huru vårt språk 

utvecklats allt ifrån reformationstiden. Ordbokens uppgift är alltså att lämna 

en historisk framställning af det nysvenska riksspråket i vidsträckt mening, 

och den tager således vid, där de utgifna eller under utgifning varande ordböckerna 

öfver vårt medeltidsspråk sluta. (SAOB bd 1:1) 

Gränsen framåt har förskjutits gradvis under arbetets gång. Hållpunkter är att bokstaven 

A saknar stickord med första belägg senare än 1902, G efter 1939 och R efter 1960. Efter 

D kan man räkna med att artiklarna följer ungefär i den ordning som de är skrivna, i början 

arbetade man mindre strikt alfabetiskt. Det senare leder till att B har ord med förstabelägg 

så sent som 1922 medan C saknar förstabelägg efter 1905. Sett med dagens ögon 

innebär dessa siffror att SAOB har ett kronologiskt hål på närmare 1/5 – 1/6 av den tid 

som verket skall täcka i början av alfabetet. Det senast publicerade häftet slutar efter stå. 

I SAOL och Svensk ordbok återfinns det ordet 1/5 från slutet. Det är allstå en betydande 

del av det ordförråd som SAOB strävar efter att täcka som inte kommer med därför att det 

är för ungt eller kommer för sent i alfabetet (t.ex. knivens ägg – som alltså inte stavades 

egg enligt SAOB:s norm när E publicerades). 

En förrädisk faktor är att ord med samma egenskaper har en tendens att klumpa ihop 

sig vid en alfabetisk sortering. Ett exempel med etymologisk anknytning är att prefixen 

be- och för- ger en tysk prägel åt respektive bokstav. Denna heterogenitet gör att interna 

variationer i täckningsgrad – t.ex. den nyss nämnda kronologiska – kan få svåröverskådliga 

effekter på resultaten vid undersökningar. Det är t.ex. uppenbart att engelskans och 

tyskans relativa betydelse som långivande språk har förskjutits till engelskans fördel under 

1900-talet. Det intrycket ges också av SAOB, men är det en risk att SAOB ger en felaktig 

bild av styrkan i förändringen beroende på att lån från tyska och engelska hamnar 

lite olika i en alfabetisk sortering

52 

Urvalskriterier 

Diskussionen om SAOB präglas ofta av en besvärande svävning i fråga om vad man förväntar 

sig att ordboken skall täcka. En viktig fråga är om man vill att den skall spegla texterna 

(= la parole) eller språket (= la langue). NFO-serien är en utpräglat textinriktad och 

behandlar därför allt som finns i de undersökta texterna och inget annat, Svensk ordbok 

drar ganska tydligt åt det andra hållet. 

SAOB kan uppfattas både som språk- och som textbeskrivande, man skulle kunna säga 

att ordboken skall beskriva det svenska riksspråket på texternas grund. Det är den givna 

utgångspunkten för en större historisk ordbok, men den leder obevekligen till två principiella 

problem: (1) Även om all bevarad text excerperades perfekt skulle man inte kunna 

utgå från att alla rikssvenska ord (ens i rikssvenskt skriftspråk) har kommit med. (2) Att 

ett ord står i en uppenbart rikssvensk text gör inte att det är ett rikssvenskt ord. Texterna 

innehåller alltså både för mycket och för lite. Trots rykten om motsatsen har SAOB heller 

aldrig haft som ambition att redovisa precis alla ord som förekommer i svensk text. Detta 

görs klart redan i företalet till bd 1 (s. 2). De principer som ges där stämmer i stort sett 

med dem som formuleras av redaktören Sture Hast i början av 80-talet (Hast 1985:187– 

190). Han anger att följande grupper behandlas restriktivt: 

1. Namn utan användning som appellativer medtas inte. 

2. Dialektord medtas i princip inte, vilket inte hindrar att många dialektord kommer med ändå. 

3. Lånord behandlas med viss återhållsamhet. Den äldre principen var att ta med skandinaviska 

och tyska lånord om de lyckats etablera sig någorlunda i svenskan, men från övriga 

språk bara om de fortfarande är levande för de allmänbildade. Det är dock tveksamt om 

regeln någonsin efterlevts. Den moderna principen är att ta med alla lånord som har kommit 

i någorlunda fast bruk och fått svensk böjning – utan genetiska överväganden. Vidare tas 

lånord med om de betecknar en vanlig företeelse som inte har någon annan benämning. 

4. Citatord eller citatuttryck medtas sällan, men generositeten har ökat kraftigt genom åren. 

5. Fackspråkliga ord tas med om de fått viss spridning i allmänspråket. 

6. SAOB är betydligt generösare vid behandlingen av sammansättningar än jämförbara ordböcker, 

trots det stryks mellan en tredjedel och hälften av de belagda sammansatta orden. 

7. Personliga ord eller ordanvändningar tas i allmänhet inte med. Grundprincipen är att ett ord 

eller en ordanvändning eller fras tas med först om den har blivit mera känd och flerfaldigt 

citerad i redaktionens belägg. 

8. Fula ord (med undantag för svordomar) och slang medtogs tidigare inte. Från ungefär 1930 

behandlas fula ord utförligt. Slang behandlas dock fortfarande restriktivt. 

9. Ord som betecknar efemära företeelser tas inte med. Exempel är modeföreteelser i kläder 

eller danser som försvunnit inom ett par år. 

Ett given fråga rör hur pass konsekvent redaktionens principer verkligen har upprätthållits, 

men den förbigås här av praktiska skäl – det skulle krävas omfattande och systematiska 

omexcerperingar för att klarlägga den saken. Det är problematiskt nog att redan 

själva principerna har genomgått vissa förskjutningar, jfr punkt 3 och 4 ovan. En annan 

aspekt är om principerna som sådana kan förrycka bilden av t.ex. de etymologiska relationerna 

i språket vid olika tider. 

Med SAOB:s uttalade princip att beskriva det svenska riksspråket är det inte anmärkningsvärt 

att utesluta språkligt material som inte hör till den språkformen. Svårigheten 

ligger i att göra avgränsningen. Hur delikat uppgiften är beror till stor del på vad gränsdragningen 

skall användas till. Den är ganska liten vid produktionen av en ordbok avsedd 

att användas på ordinärt sätt: då kan man lova att ha med all riktig svenska – och så lite 

till för säkerhets skull. Normalt torde det vara denna attityd som genomsyrar arbetet på 

ordböcker. Det är värre när målet är att nå exakt täckning (få med precis allt) eller konsekvent 

täckningsgrad (missa konsekvent lika mycket ur samtliga relevanta aspekter).

53 

Det är något som är eftersträvandsvärt i t.ex. undersökningar av andelen främmande 

språkmaterial i svensk text. På motsvarande sätt kan variationer i generositet mot främmande 

material i SAOB påverka den bild ordboken ger av proportionerna mellan ord med 

olika ursprung. Det som gör det hela extra problematiskt är att variationen i integreringsgrad 

är i det närmaste steglös. Det kan illustreras med ett citat ur ett brev skrivet av 

Bengt Oxenstierna år 1682: 

Detta allt sker pour se venger de l’Angleterre, och det med rätta efter det genom 

sin blâmable conduite causerar Nederlands undergång och Christenhetens olägenhet 

och trouble. Utan dissimulation Des trogne och ergifne tjänare. / B. O. 

(citerat efter Engwall 1994:53). 

Allt kursiverat i citatet har franskt ursprung. Vissa ord har helt bevarad fransk form. Det 

kan göra att de känns ointegrerade för en modern läsare – och förmodligen även för Oxenstiernas. 

Men hur är det med dissimulation Många uppfattar det nog som minst lika 

svenskt som det böjningsmässigt direkt ofranska causerar. SAOB väljer att ta med dissimulation, 

som verbalabstrakt till dissimulera. Ordets allmänspråkliga betydelse, den som 

finns i citatet ovan, betecknas som numera knappast bruklig (finns även en medicinsk 

fackbetydelse). SAOB:s bruklighetsangivelse motsägs inte av Språkbankens material – ordet 

förekommer över huvud taget inte i dess baskorpus om 30.000.000 löpord. Men i äldre 

tid förekom ordet hos flera författare i den för en franskkunnig genomskinliga betydelsen, 

men var det prov på svenska 

En möjlighet att åtminstone tillfälligt kringgå svårigheterna med att särskilja de ord 

som är integrerade i det abstrakta språksystemet är att utgå från ett kvantitativt kriterium 

för vad som är en del av riksspråket. Med den infallssvinkeln blir ord som förekommer 

ofta, i många sammanhang och uthålligt mera centrala. Det är den typen av kriterier som 

man anar bakom att SAOB är restriktivt vid behandlingen av personliga ord, ord i fackoch 

gruppspråk samt efemära ord. Men inte heller kriterier av denna typ undanröjer 

gränsdragningsproblemen. Ett skäl till det är att kategorierna i sig är svårbestämda. Poängen 

med att tala om gruppspråksord är att dessa ord inte har full hemortsrätt i allmänspråket 

– om de hade det skulle de inte vara gruppspråksord. De kan därför uteslutas för 

att de är perifera. Men gruppspråksbeteckningar (liksom stil- och bruklighetsbeteckningar 

i allmänhet) säger inte nödvändigtvis var ordet förekommer mest frekvent utan kanske 

bara var det omtalade fenomenet förväntas höra hemma. Det vore t.ex. en fullt hedervärd 

arbetsuppgift för en stilistiker att undersöka i vad mån ord som uppfattas som knutna till 

en viss genre eller stil verkligen är mest frekventa i den. 

Hur man än gör är det svårt att ge tydliga och lätthanterliga kriterier för vilka ord som 

bör komma med i SAOB – och mera generellt i listor över ord i språk vid en viss tid. Detta 

gäller även om man bortser från de problem som ligger i att avgränsa vad som rent faktiskt 

är ett ord: hur lexikaliserade sammansättningar måste vara för att räknas som fullvärdiga 

lexikonenheter; hur mycket betydelsenyanser måste skiljas åt för att det skall 

röra sig om två betydelser; om t-avledda adverb och verbalabstrakter är egna ord eller närmast 

ett slags finare böjningsformer. Problemen blir inte mindre när målet är att beskriva 

språkstadier för vilka vi inte har tillgång till informanter. Vi kan lätt se att skribenter på 

1600-talet använde dissimulation i sina texter, men hur vet vi om de uppfattade ordet som 

svenskt 

Svårigheterna gör att det kan vara lockande att arbeta rent frekvensmässigt, t.ex. genom 

att utgå från en baskorpus och ta med alla ord som är belagda med viss frekvens i 

visst antal texter från vissa genrer vid vissa tidpunkter. Några fördelar och nackdelar med 

ett sådant angreppssätt diskuteras nedan i samband med excerperingen beroende på att 

renodlat frekvensorienterat angreppssätt står och faller med hur excerperingen går till.

54 

Excerperingen 

SAOB:s fundament är samlingen med språkprov. En uppenbar störfaktor när det gäller 

den interna balansen i ordboken är att den tidigare utgivna delen av ordboken bygger på 

ett betydligt mindre material än de senare. Några hållpunkter för tillväxten är: 

Tabell 3: Ungefärligt 

antal excerpter i 

SAOB:s samlingar a 

år 

antal 

1883 700.000+ 

1897 1.500.000+ 

1913 3.000.000 

1937 4.800.000 

1980 7.000.000+ 

a.Siffrorna baseras på 

uppskattningar refererade 

i Hast 1985:171 ff. 

Siffrorna över tillväxten ger en allmän uppfattning om skillnaden i materialets storlek, 

men det har också en påtaglig heterogenitet. Under perioden 1910–1959 excerperades enbart, 

eller nästan enbart, den ännu outgivna delen av alfabetet. En annan störning som 

påverkar redan ordbokens första upplaga är att tillväxten väsentligen består i att ständigt 

fler verk excerperas, vilket i praktiken får betydelse för den genremässiga balansen (Hast 

1993:173–175). Det säger sig t.ex. närmast självt att ordböcker därigenom får en större del 

av bevisbördan i början av SAOB än senare. Problemets vidd antyds av tabell 4. 

Tabell 4: Antal hänvisningar till några författare a 

författare A B M S 

Dalin 1111 915 277 210 

Serenius 175 116 72 60 

Richardson 0 10 5 6 

Almqvist 385 572 103 81 

Strindberg 16 52 103 103 

a.Siffrorna anger antal förekomster av respektive författarnamn de 1000 första 

spalterna på respektive bokstav. 

Skälet till att ta med de första 1.000 spalterna på både A och B är att den relativa tillväxten 

hos excerptsamlingen är extra hög i inledningsskedet. Författarnamnen är valda dels 

för att peka ut rätt personer med tillräcklig precision, dels för att ge olika typer av källor. 

Bakom Dalin och Serenius döljer sig lexikografer, Dalin från 1800-talet och Serenius från 

1700-talet. Richardson skriver om krigsvetenskap på 1700-talet – det är alltså inte den 

Richardson som skrev sedelärande romaner. Almqvist och Strindberg är (väsentligen) de 

kända skönlitterära författarna. 1

55 

Lexikograferna har som förväntat kraftigt fallande frekvens, men det mest anmärkningsvärda 

är kanske utgångspunkten: på A har Dalin i medel ett belägg per spalt! Almqvist 

kommer upp i halva den frekvensen under B, innan det bär utför. Strindberg 

kommer upp i ett belägg per 10 spalter, de låga siffrorna i början kan till stor del förklaras 

med att han är en samtida författare i början av alfabetet. Siffrorna för Richardson illustrerar 

att facklitteratur är underrepresenterad i korpusen under inledningsskedet. Det intressanta 

med siffrorna är att lexikon, facklitteratur och skönlitteratur inte självklart kan 

förutsättas ha ordförråd med samma etymologiska struktur. Tvåspråkiga lexikon och lexikon 

med utländsk förlaga kan t.ex. misstänkas innehålla ekvivalenter till ord i referensspråket 

som aldrig sprids utanför ordbokens eller ordböckernas värld. Aspekter på den 

problematiken studeras av Lena Rogström i hennes avhandlingsarbete om lexikografi på 

1700-talet, speciellt Serenius ordböcker. 

Men det är inte bara den excerperade korpusens sammansättning som är problematisk 

utan även excerperingsmetoden. Sture Allén öppnade en debatt i frågan med en artikel i 

Nysvenska studier där han frågade: ”Hur djupt går SAOB” (Allén 1980). I korthet var Alléns 

slutsats att SAOB inte går djupt nog och att en väsentlig orsak är brist på systematik 

i excerperingen. Detta illustrerades i första hand med exempel från Johan Ekeblads brev. 

Allén hade inga svårigheter att finna t.ex. ord som SAOB missat helt (s. 122). 

Riktlinjer för SAOB:s excerpister finns kodifierade i Anvisningar till insamlande av 

språkprov för Svenska akademiens ordboksarbete (Anvisningar §§ 33 – 57). Dessa säger i 

korthet att vissa speciellt centrala verk skall underkastas en uttömmande excerpering 

medan excerpisten i övriga skall inrikta sig på sådant som är speciellt anmärkningsvärt, 

t.ex. för tiden ovanligt bruk av en viss betydelse. Problemet är att den typen av instruktioner 

förutsätter en närmast allvetande excerpist. Hur vet excerpisten vilka ord som har en 

för tiden ovanlig betydelse Han eller hon kan normalt inte ens stödja sin intuition genom 

att slå upp i SAOB. Redan att få grepp om instruktionen skall ha varit ett företag i sig: 

Anvisningarna var, som antytts, synnerligen utförliga. Få excerpister torde ha 

orkat med att sätta sig in i dem och konsekvent nyttja dem. Vana äldre excerpister 

kritiserade dem skarpt. … Efter 1924 … torde anvisningarna inte ha 

använts längre, utan instruktioner har givits i muntlig form eller medelst personliga 

brev o.d. (Hast 1985:165) 

En möjlig väg för att garantera bättre styrsel i arbetet är att ge excerpisten bättre överblick. 

Den normala SAOB-excerperingen bygger på en extensiv genomläsning av källorna 

varvid excerpisten markerar i storleksordningen ett par till tre ord per sida, dock är variationen 

stor (Hast 1985:177). Allén framhäver i stället möjligheten till maskinstödd excerpering 

i konkordansformat, åtminstone för mera centrala verk: 

En tilltalande möjlighet vore att välja ut en serie centrala texter från det aktuella 

århundradena, särskilt de tidigare, för behandling. Resultatet kunde skrivas 

ut som belägg i kontext med källhänvisning. (Allén 1980:128) 

Alléns inlägg uppmärksammades av ordbokens dåvarande chef Hans Jonsson i följande 

årgång av Nysvenska studier, denne visade emellertid begränsad entusiasm inför Alléns 

förslag (Jonsson 1983). Jonssons väsentliga argument mot är (1) att det skulle riskera att 

fördröja arbetet och (2) att det skulle leda till en risk att missa fenomen som är svåra att 

identifiera med enbart kriterier på formplanet. Diskussionen om SAOB:s material i Nysvenska 

studier fortsätter sedan med den drygt 30-sidig artikel av Sture Hast som refereras 

flitigt ovan. I denna summerar Hast den allmänna bilden med: 

Vi kan alltså se att SAOB står sig gott i fråga om materialets mängd [jämfört 

med andra liknande ordböcker]. Men det är främst materialets kvalité som är 

avgörande för om det är bra. Och i det fallet är vårt material av högsta klass. 

1.Flera av författarna är företrädda av annan text än deras huvudgenre, men inte i sådan 

omfattning eller på sådant sätt att det förrycker resultaten.

56 

Oxfordordbokens gamla material t.ex. är till större delen insamlat av frivilliga, 

icke instruerade krafter, vilket gör att en stor del av det var undermåligt eller 

rentav oanvändbart. (Hast 1985:161) 

Hast har säkerligen helt rätt i att SAOB har en mycket god materialsamling jämfört med 

andra större ordböcker. Men frågan återstår om SAOB skulle ha stått sig ännu bättre med 

en excerpering som ansluter sig närmare till Alléns modell. En viktig faktor därvidlag är 

storleken på den korpus som skulle behövas för att den skulle göra nytta: om den skulle 

bli ohanterligt stor vore inte mycket vunnet. Det är något som i viss mån kan belysas av 

existerande frekvensundersökningar, t.ex. Nusvensk frekvensordbok (Allén et al. 1970). 

Resultaten där visar att ordförrådet i faktisk text har en synnerligen ojämlik distribution, 

med en liten frekvenstopp vars ord utgör i storleksordningen någon procent vardera av det 

totala antalet löpord i en text. I en miljonordskopus måste man räkna med att stora delar 

av ordförrådet inte kommer med över huvud taget och att en betydande del av de representerade 

orden och ordformerna är enfrekventa. Det hjälper att öka korpusens storlek till 

20.000.000 ord och mer, men det är tankeväckande att Språkbankens drygt 30.000.000 ord 

från tidningar och romaner inte innehåller en enda ballethoppa men väl balettfetischer, 

balettoman och balettvapen. 

Den som vill dammsuga språket efter infrekventa fenomen måste kort sagt ha en mycket 

stor korpus. Skulle 30.000.000 ord per 50-årsperiod räcka Samtidigt kan man uppenbart 

nå intressanta resultat med mindre material. Så kan Gellerstam redovisa en studie 

baserad på en delmängd av NFO-materialet (med totalt 1.000.000) där huvuddragen i de 

etymologiska proportionerna i nusvenskt språk tecknas (Gellerstam 1994). Sådana studier 

kan förvisso inte ersätta SAOB, men de är ändå viktiga i sammanhanget. De ger en 

typ av oberoende stöd som är nödvändigt för att avgöra i vad mån SAOB är tillräckligt bra, 

inte bara vad som skulle leda till en förbättring. 

Litteratur 

Allén, S. 1980. Hur djupt går SAOB I: Nysvenska studier. Årg. 59–60. Lund. 

Allén, S. 1970. Nusvensk frekvensordbok baserad på tidningstext. I. Graford, 

homografkomponenter. Stockholm. 

Anvisningar till insamlande av språkprov för Svenska akademiens ordboksarbete. 1916. 4. 

uppl. Lund. 

Engwall, G. 1994. Svenskt och franskt. I: Arv och lån i svenskan : Sju uppsatser om 

ordförrådet i kulturströmmarnas perspektiv. Utgivna av Svenska Akademien. 

Stockholm. 

Gellerstam, M. 1994. Ordförrådets härledning. Arv och lån i svenskan : Sju uppsatser om 

ordförrådet i kulturströmmarnas perspektiv. Utgivna av Svenska Akademien. 

Stockholm. 

Hast, S. 1985. Om SAOB:s material. Nysvenska studier. Årg. 63. 1983. Lund. 


Kock. 


Jonsson. 

Jonsson, H. 1983. Ekeblad och SAOB. Nysvenska studier. Årg. 61. 1981. Lund. 

Lundbladh, C.-E. 1992. Handledning till Svenska Akademiens ordbok. Lund. 


1893 –. Lund. 

Schlyter, C. J. 1877. Ordbok till Samlingen af Sveriges Gamla Lagar. (Samling af Sveriges 

gamla lagar. 13). Lund.

57 

Sigurd, B. 1986. Ordboken, ordlistan och några andra av Svenska Akademiens språkliga 

insatser under 1900-talet. I: Allén, Sture & Loman, Bengt & Sigurd, Bengt 1986. 

Svenska Akademien och svenska språket : Tre studier. Stockholm. 

Svensk ordbok. Utarbetad vid Språkdata. Göteborgs universitet. 2 uppl. Solna 1988. 

Söderwall, K. F. 1884–1918. Ordbok öfver Svenska Medeltids-språket. 1–2. Suppl. 1925– 

1973 (Svenska Fornskrifts–Sällskapets Samlingar) Lund.

59 


OSA-databasen i praktiken 

OSA-databasen erbjuder en snabb möjlighet till excerpering av SAOB, både för enskilda 

belägg och undersökningar av mer systematisk art. Systematiska undersökningar, baserade 

på en excerpering av hela SAOB 1 , har tidigare varit mycket tidskrävande men kan 

nu genomföras på ytterst kort tid. Att leta rätt på de exempel som skall undersökas tar för 

datorn endast några sekunder. Sedan återstår naturligtvis själva analysarbetet, något 

man själv får göra. 

Detta öppnar självfallet nya möjligheter för lexikal forskning genom att man lättare 

kan lägga hela SAOB:s material till grund för pilotundersökningar, något som tidigare tett 

sig svårgenomförbart framför allt med tanke på tidsaspekten. OSA-materialet har således 

reducerat tidsåtgången för själva excerperingen vilket medför att man i stället kan ägna 

merparten av undersökningstiden åt den språkvetenskapliga analysen. 

En ordbok av SAOB:s storlek, kontinuerligt utgiven under mer än 100 år, kan av naturliga 

skäl inte vara helt konsekvent i utförande och redigering. Detta påtalas också i alla 

de artiklar som ingår i denna rapport, och även detta avsnitt skall behandla en del problem 

som man måste ta hänsyn till vid vissa typer av undersökningar där SAOB använts. 

De egenheter som diskuteras här emanerar emellertid inte från förändringar i SAOB:s redaktionella 

principer. I stället fokuseras en del av de problem som uppstår genom att metaspråket 

i SAOB ofta avviker från språkprovens ortografi och morfologi. Jag pekar också 

på några fall där SAOB:s redigeringsprinciper som sådana kan diskuteras. 

Redogörelsen bottnar i en undersökning av alla SAOB-belägg som härrör från Jacob Serenius 

engelsk–svenska och svensk–engelska ordböcker, utgivna 1734 respektive 1741. 

Undersökningen ingår i ett avhandlingsarbete som bl.a. omfattar en lexikalisk analys av 

ordförrådet i Serenius ordböcker. Som en del i detta används OSA-materialet i syfte att 

fastlägga hur stor del av ordböckerna som excerperats av SAOB som förstabelägg. 

Det bör inledningsvis nämnas att undersökningen som refereras här baseras på en äldre, 

inte helt fullständig, version av konkordansen över SAOB, men det är av underordnad 

betydelse i detta sammanhang. Det antal exempel som används förefaller ändå tillräckligt 

stort för att visa problemen. 

Undersökningen 

Alla belägg ur Serenius ordböcker slogs upp i konkordansen och skrevs sedan in i en separat 

datafil, konstruerad på så sätt att ett flertal olika sorteringar är möjliga. Beläggen sorterades 

till en början i två huvudfiler, en för varje ordbok, och materialet strukturerades 

med utgångspunkt i deras respektive placering i SAOB:s artikelstruktur enligt följande: 

formbelägg (morfologi, ortografi), betydelsebelägg (placerat som språkprov i betydelseträdet), 

ordbildningsbelägg (ssgr, avledn., särsk. förb.). I förekommande fall noterades också 

om de belägg som här kallats ordbildningsbelägg hörde hemma i någon betydelsestruktur 

i respektive ordbildningsdel. De flesta sammansättningar, avledningar och särskilda förbindelser 

har bara ett betydelsemoment i SAOB, varvid belägget har noterats som belägg 

på både form och innehåll samtidigt, vilket varit av värde för avhandlingens vidkommande. 

I de fall då belägget återfunnits i ett betydelsemoment under en sammansättning etc. 

har det räknats som betydelsebelägg. 

1.Med ”hela” SAOB menas självfallet den hittills tryckta delen av ordboken.

60 

Jag har också noterat de fall då Serenius-belägget varit ett s.k. förstabelägg i SAOB. 

Vidare har materialet också hanterats på sådant sätt att det kunnat sorteras efter beläggets 

status som källspråksenhet respektive målspråksenhet i ordböckerna. 

De belägg ur Serenius ordböcker som återfanns i OSA-materialet visade sig vara fördelade 

på följande sätt: 

Tabell 5: Belägg ur Serenius ordböcker 

1734 (eng>sv) 1741 (sv>eng) 

Totalt antal belägg 2 427 1 020 

Betydelsemoment 1 111 728 

Ssgr 1 043 180 

Avledn 189 41 

Särsk. förb 84 71 

Totalt antal förstabelägg 1 592 408 

Betydelsemoment 562 243 

Ssgr 826 96 

Avledn 157 32 

Särsk. förb 47 37 

Redan en uppställning av detta slag ger en grov uppfattning om det undersökta materialet. 

Som väntat kommer flest belägg från den engelsk-svenska ordboken, troligen för att 

denna är äldst och därför excerperats först. Av den anledningen har man inte tagit med 

samma exempel en gång till när man excerperat den svensk-engelska, något yngre, ordboken. 

Denna är nämligen en vändning av den engelsk-svenska och består därför huvudsakligen 

av ett urval av innehållet i den engelsk-svenska ordboken. Det är därför inte 

förvånande att den både yngre och mindre svensk-engelska ordboken inte bidragit med en 

lika stor andel belägg som den äldre, engelsk-svenska. Lustigt nog bidrar den svensk-engelska 

ordboken med en större procentandel särskilda förbindelser i förhållande till de övriga 

beläggen, jämfört med vad den engelsk-svenska ordboken gör. Det absoluta antalet 

belägg är dock litet för denna kategori. 

En enkel uppställning av denna typ tillhandahåller framför allt information om vilka 

kategorier i Serenius ordböcker som är värda att undersöka närmare. Förstabeläggen är 

då av särskilt intresse och man kan bl.a. notera att dessa i 1734 års ordbok till mer än hälften 

består av sammansättningar medan 1741 års ordbok i stället har hälften av sina förstabelägg 

i betydelsedelen av SAOB. (En mer utförlig studie av dessa kategorier utförs i 

avhandlingsform). 

Uppställningen är enkel, men kan ge värdefull information om vilka kategorier som är 

värda att arbeta vidare med i respektive ordbok. 

Problem 

När man använder OSA-materialet för att komma åt innehållet i en viss källa i ordboken 

räcker det dessvärre inte med att bara ta fram alla de beläggställen där källan förekommer, 

man måste gå vidare till själva källan för att kunna beskriva den utförligt I arbetet 

med Serenius-beläggen uppenbarades ett flertal tidsödande irritationsmoment och problem 

som till stora delar gick att hänföra till SAOB:s redigeringsprinciper. Några av problemen 

går inte att komma runt eftersom de bottnar i en konflikt mellan språkförändring 

och ordböckers behov av konsekvens. En ordbok måste med nödvändighet ha enhetliga 

principer för ortografi, morfologi etc. och redigeringsprinciperna bör självfallet bottna i 

den språknorm som används när ordboken redigeras. Att detta innebär problem för nor-

61 

maliseringen i OSA-databasen har omtalats i ett tidigare avsnitt. Det problemet är dock 

av övergående art, fram till kommande ortografiska reformer. 

Värre är det med det faktum att uppslagsformen i SAOB representerar ett flertal former 

som ett och samma ord kan ha haft under den tid det existerat i skrift. Emellanåt är 

man också benägen att tro att somliga av SAOB:s uppslagsformer representerar former 

som ordet inte haft under nämnda tid, något som exemplifieras nedan. 

De problem som behandlas kan delas upp i två huvudgrupper. Den ena omfattar de problem 

som naturligt uppstår då man i en ordbok med nutida ortografi och morfologi skall 

beskriva ett äldre språks ordförråd, d.v.s. allmängiltiga problem för alla redaktörer av historiska 

ordböcker. Problemen som tas upp här belyses ur ett användarperspektiv och utgörs 

huvudsakligen av skillnader i ortografiska, morfologiska och ordbildningsmässiga 

principer. I grund och botten berör denna fråga konflikten mellan den innehållsliga och 

formella sidan av ett ord i historiskt perspektiv. Båda kategorierna utvecklas under tidens 

gång varför det till slut kan vara svårt att avgöra huruvida man har att göra med ett och 

samma ord och hur detta skall behandlas lexikografiskt. 

Den andra huvudgruppen berör snarast de lexikografiska principer SAOB-redaktionen 

använt sig av genom tiderna och vilka konsekvenser dessa kan tänkas ha för den faktiska 

beskrivningen av vårt ordförråds historia och utveckling. 

Allmängiltiga problem 

Som tidigare nämnts iakttas den samtida språkformen vid utformningen av stickord, definitioner, 

redaktionella språkprov etc. i SAOB. Normen har ändrats ett flertal gånger under 

den tid som ordboken redigerats, men de varianter som använts kan förhållandevis 

enkelt undersökas och normaliseras till en enhetlig form. 

Att stickorden i SAOB har modern form är självfallet helt naturligt. Tyvärr medför det 

en del problem i de fall då man är intresserad av en speciell författares bidrag till SAOB, 

eftersom alla belägg från den speciella källan måste sökas i en normaliserad form; en form 

som kanske inte existerar i den källa man är intresserad av. 

Ett naturligt tillvägagångssätt är då att använda källhänvisningen, t.ex. författarnamnet, 

som sökvariabel, ta ut alla belägg i konkordansform och sedan gå vidare till databasen 

för att få hela kontexten till språkprovet och se vilken artikel det står i. På det viset får 

man upp hela det aktuella språkprovet inklusive källhänvisning och kan notera de uppgifter 

som intresserar en. Arbetsmetoden är mödosam såtillvida att man får tillbringa 

mycket tid framför en dataskärm, men är betydligt mer effektiv än att leta i den tryckta 

utgåvan, spalt för spalt. 

I sökningen efter Serenius-belägg användes namnet som sökvariabel och från varje 

konkordansrad gick jag vidare till den aktuella kontexten för att därigenom få det fullständiga 

språkprovet. Genom detta förfarande fick jag fram aktuell SAOB-artikel med 

stickordet i normaliserad form. För att komma åt den ordform som fanns i själva källmaterialet, 

Serenius ordböcker, var jag dock tvungen att i flera fall konsultera själva källan. 

Orsaken till detta är att SAOB i många fall inte skriver ut hela språkprovet utan bara 

anger källhänvisningen. En jämförelse mellan källmaterialet och SAOB visar tydligt på 

de skillnader som kan finnas mellan de olika materialen. Vid undersökningen framkom 

bl.a. följande skillnader mellan Serenius stavning och SAOB:s normaliserade form.

62 

Serenius 

servieter 

gouverneurska 

amalie-färg 

klöster 

diopterlineal 

campecheträ 

maill-spel 

cotelletter 

SAOB 

servetter 

guvernörska 

emaljfärg 

kloster 

diopterlinjal 

kampeschträ 

maljspel 

kotletter 

Förutom klöster som är en äldre svensk form av kloster uppvisar ortografin drag av ordens 

utländska, i många fall franska, ursprung. Serenius ordböcker utkom under första hälften 

av 1700-talet, en period då franskt inflytande dominerade. Stavningen är därför inte förvånande 

i sig, men kan vara intressant att undersöka i förhållande till det förmodade engelska 

inflytandet på ordboken. (I fallet amalie-färg kan man dessutom undra om 

ortografin också återspeglar ett annorlunda uttal.) 

Om man fäster vikt inte bara vid beläggens förekomst i SAOB överhuvud taget utan 

också vid deras form, är det nödvändigt att gå tillbaka till själva källmaterialet för att få 

beläggens ursprungliga ortografi. 

Samma resonemang ligger också till grund för andra språkliga fenomen som kan vara 

intressanta att undersöka. Nedan visas två exempel på fogemorfem som skiljer sig mellan 

Serenius och SAOB. I fallet ihopafattad skiljer sig även det första morfemets form åt mellan 

de båda ordböckerna, vilket aktualiserar frågan vad som räknas som ett och samma 

ord och vilka redigeringsprinciper SAOB har i dessa fall. 

Serenius 

apothecare-book 

ihopafattad 

SAOB 

apotekarbok 

hopfatta 

Problem relaterade till SAOB:s redigeringsprinciper 

I den undersökning som refereras och från vilken exemplen är hämtade fokuserades särskilt 

sammansättningsbeläggen från Serenius ordbok från 1734. I arbetet med dessa aktualiserades 

ytterligare problem som snarast hör ihop med hur SAOB redigeras. 

Svenskans sätt att bilda sammansättningar kan sägas vara tämligen enastående.Vad 

som utmärker en sammansättnings formella sida är att ordleden är hopskrivna, vanligen 

utan bindestreck. Bindestreck kan dock användas i vissa fall, särskilt om sammansättningen 

räknas som tillfällig. En sammansättning skall också ha s.k. sammansättningsaccent, 

ett kriterium som dock inte går att använda här eftersom SAOB, av naturliga skäl, 

inte omfattar talat material. Man kan m.a.o. inte veta hur de excerperade orden uttalats 

mer än i undantagsfall, då man av en eller annan anledning har mer explicita uppgifter 

om somliga ords uttal noterade i samtida litteratur. 

Genom tidernas gång har man haft olika praxis för sär- och sammanskrivning av sammansättningar. 

Den tendens man idag på många håll oroar sig över, att sammansättningar 

oftare skrivs isär, är inget nytt. Denna skiftande praxis tillsammans med det faktum 

att man inte vet hur orden uttalas medför ibland att man kan tveka inför somliga belägg 

som av SAOB klassificerats som en sammansättning.

63 

Följande exempel ur Serenius ordböcker har av SAOB angivits som sammansättningar 

trots att de formellt sett inte behöver betraktas som sådana. 

Serenius form SAOB:s form Engelsk motsvarighet 1734 

Förstabelägg 

belätes dyrkan belätesdyrkan imageworship 

marknads rättighet marknadsrättighet (ingen engelsk ekvivalent) 1 

sinnes benägenhet sinnesbenägenhet affection 

sinnes likhet sinneslikhet congeniality or likeness of Genius 

sinnes styrka sinnesstyrka strenght of mind 

sinnes övning sinnesövning exercise 

Inte förstabelägg 

hufwud ord huvudord a leading word 

mellan liggande mellanliggande interjacent 

sinnes föreställning sinnesföreställning idea 

sinnes orolighet sinnesorolighet a disturbance of the mind 

Serenius har för vana att alltid använda bindestreck mellan ordleden i en sammansättning, 

vilket han inte gjort i ovanstående exempel. Möjligheten finns naturligtvis att devisen 

fallit bort i trycket just i dessa ord, men det finns också en möjlighet att de inte uttalats 

som en sammansättning utan snarare skall ses som en fras. 

I Serenius ordböcker finns två sätt att ange sammansättningar – antingen i själva artikeln 

eller i en särskild avdelning benämnd composita. I det första fallet brukar sammansättningen 

få en ordklassmarkering, men inte i det andra fallet. Då kan man å andra sidan 

använda rubriken composita som kriterium på att Serenius uppfattat orden som sammansättningar. 

Eftersom beläggen kommer ur en engelsk–svensk ordbok går ordklasskriteriet inte att 

tillämpa, eftersom alla ordklassmarkeringar hör till de engelska orden. Den svenska ekvivalenten 

kan ju vara en sammansättning även om det engelska ordet är ett simplex eller 

rentav en fras och vice versa. 

Det är således svårt att tillämpa formella kriterier på orden för att avgöra om de är 

sammansättningar eller inte. I många fall kan det vara så att devisen utelämnats eller fallit 

bort. Det förefaller dock märkligt att ett devisen skulle fattas just på så många belägg 

av en sammansättning med förleden ”sinnes-” ur 1734 års ordbok. (Bland exemplen ingår 

också ”sinnesförbehåll”. I SAOB anges källan till sidan Nn2a i Serenius 1734, men jag har 

inte lyckats hitta exemplet och kan således inte se om det också är särskrivet i 1734 års 

ordbok). Orden är i många fall också förstabelägg, vilket kan tyda på att de inte var helt 

etablerade som sammansättningar 1734. De finns heller inte med i 1741 års svensk–engelska 

ordbok, så man kan inte jämföra med stavningen där. Det finns dock ett annat exempel 

i 1741 års ordbok, frasen sinnes jemlikhet som återfinns i artikeln SINNE . Här är 

belägget uppenbarligen en fras eftersom den inte har någon ordklassmarkering eller står 

som composita. Förmodligen gör man klokt i att betrakta även de andra beläggen med 

”sinnes-” som fraser. 

1.Ordet ingår som del i förklaringen till den engelska sammansättningen ”market-town” = ”stad som 

har marknads rättighet”.

64 

Av ovanstående fall finns endast ett av beläggen med i 1741 års ordbok, nämligen 

hufwud-ord, då stavat med divis och placerat under avdelningen composita. Detta kan förmodligen 

tas som intäkt för att ett tryckfel förelegat i 1734 års ordbok och att ordet därmed 

kan betraktas som en riktig sammansättning. 

Genom att ange ovanstående belägg som sammansättningar har SAOB också gett en 

tidsangivelse för etablerandet av orden i fråga som sammansättningar. Man kan på goda 

grunder fråga sig om denna tidsgräns är korrekt, med tanke på vad som visat sig när man 

närmare kontrollerar beläggen mot källan. Kanske är det så att SAOB i detta fall satt en 

för tidig angivelse, och föregripit den eventuella utvecklingen av sammansättningen. 

Exemplen är inte många i detta fall, men sätter ändå fingret på en öm punkt när det 

gäller att skildra lexikalisering av vissa typer av begrepp. 

Ett motsvarande resonemang ligger också till grund för nästa exempelkategori. I detta 

fall förutsätter SAOB att man utifrån en belagd verbform implicit kan belägga även andra 

verbformer. Även dessa exempel är tagna från Serenius ordböcker och behandlar s.k. partikelverb. 

Partikelverb behandlas i SAOB under rubriken “särskilda förbindelser”. Partikelverb 

består av ett verb och en s.k. partikel, vanligen ett adverb. Partikeln kan för vissa verb ha 

s.k. lös förbindelse och står då efter verbet, t.ex. följa upp. Vad som skiljer partikelverbet 

från den motsvarande regelbundna konstruktionen är bl.a. att partikeln inte kan skiljas 

från sitt verb och att betoningen ligger på partikeln. Jämför exemplen Man skall följa upp 

projektet och Hon följde honom upp för trappan. 

Somliga partikelverb har både lös och s.k. fast förbindelse, d.v.s. de kan ha partikeln 

före själva verbet, ihopskrivet med detta: uppfölja. Vanligen innebär detta en stilskillnad 

såtillvida att lös förbindelse är mer talspråklig och fast förbindelse högtidligare och mer 

skriftspråklig. I vissa fall inträffar också betydelseskillnad (jfr komma ned och nedkomma). 

Ytterligare andra verb har bara fast förbindelse. Orsaken till att man ändå kallar dem 

partikelverb är främst att de har betoningen på partikeln (t.ex. inträffa). 

Kategorin partikelverb är således komplex och omfattar många regler. En av dessa är 

att partikelverb som vanligen inte har fast förbindelse i de olika tempusformerna ändå 

kan ha detta i perfektparticip, t.ex. verbet äta upp, som normalt inte konstrueras *uppäta. 

Det går dock bra att använda den fasta förbindelsen i formen Maten är uppäten, då verbet 

står i perfekt particip. 

I Serenius ordböcker förekommer ett antal participiella former som han placerat under 

respektive huvudverb och kallat adjektiv. SAOB har tagit dessa participiella former hos 

Serenius till intäkt för att de existerat även i andra former, och anger Serenius som belägg 

till följande partikelverb, angivna i grundform i SAOB. Man har också ändrat partikelns 

form, i några fall från ihop till hop, i andra fall tvärtom. 

Serenius form 

SAOB:s form 

hopläkt läka ihop; hopläka 1:a belägg 

hopwiken ihopvika 1:a belägg 

ihopafattad 

hopfatta 

ihoparäknad hopräkna 1:a belägg 

ihopaskrefven hopskriva 1:a belägg 

ihopsläpad hopsläpa 1:a belägg

65 

I förordet till Illustrerad Svensk Ordbok (1964, tredje upplagan) säger Bertil Molde att 

man sorterar partikelverben under respektive partikel i de fall då ”fast sammansättning 

är regel eller kan tänkas ”. Kanske har man tillämpat samma princip i SAOB. Enligt mitt 

förmenande bör man dock vara försiktig med detta tillvägagångssätt när det gäller en historisk 

ordbok. Det är väl känt att partikelverbens konstruktion ändrats genom tiderna och 

man kan inte ta för givet att en fast förbindelse i participiell form också alltid finns i 

grundform. 

I nedanstående tre exempel tas den av Serenius angivna formen till intäkt för att orden 

också existerat i andra former samtidigt, ett i och för sig rimligt antagande som dock tål 

att tänka på, särskilt i fallet järnwaror. Det är ingen orimlig hypotes att anta att ordet, 

som är ett förstabelägg, bildats i enlighet med det engelska ordet och först kommit att användas 

i plural. Singularformen förefaller än idag vara dåligt företrädd i faktiskt språkbruk, 

även om vi naturligtvis förstår vad ordet betyder. Det ligger i sakens natur att ordet 

oftare förekommer i plural. 

Serenius 

SAOB 

ingrafning ingräva 1:a belägg 

bond-dansar bonddans 1:a belägg (country-dances) 

järn-varor (iron-ware) järnvara 1:a belägg (iron-ware) 

Inkonsekvenser i SAOB:s källangivelser 

Serenius ordböcker är alla excerperade för SAOB. Källhänvisningarna skiljer sig dock 

mellan de olika banden vilket kan vara irriterande när man måste gå tillbaka till källorna 

för att slå upp exemplen. 

När SAOB citerar den engelsk–svenska ordboken från 1734 brukar man i många fall 

ange den engelska källspråksenheten, vilket underlättar sökandet efter den artikel i Serenius 

ordbok från vilken språkprovet excerperats. Till exemplet sifferskrift anges det engelska 

ordet nullity, och hela belägget finns i artikeln NULL som därmed är lätt att hitta. 

I följande exempel utgörs SAOB:s språkprov av en svensk sammansättning, tagen ur 

Serenius engelsk–svenska ordbok från 1734 med angivande av det engelska stickordet i 

versaler. Sammansättningen är dock inte ekvivalent till detta stickord utan till en annan 

sammansättning i samma artikel. Angivandet av i vilken artikel man hittar belägget underlättar 

dock betydligt för läsaren. 

Sammansättning i SAOB Engelsk ssgr Engelskt stickord 

ciderkrog cider-house HOUSE 

grönmångelska herb-woman HERB 

gröntorg herb-market HERB 

disktvätterska scullion-wench SCULLERY 

hörnbord side-board-table SIDE 

Emellanåt ger SAOB bara sidhänvisningen till Serenius ordbok och ingen engelsk motsvarighet, 

t.ex. sjette som har hänvisningen Eee2a. I just detta exempel är det ändå enkelt att 

tänka sig i vilken artikel man skall leta efter det fullständiga språkprovet: SIX.

66 

Värre är det med exempel som består av fraser, t.ex. sitta i förhand, Hh3a. I dessa fall 

kan det vara knepigt att hitta rätt artikel eftersom man kan behöva leta efter en engelsk 

motsvarighet till antingen sitta eller förhand. Värst är det när det exempel som SAOB tagit 

fasta på inte ingår i själva betydelsebeskrivningen av den engelska enheten, utan står 

i någon bruklighetsangivelse som, semantiskt sett, inte har något med artikeln att göra. 

Bibelord och bondord är exempel på detta. Bibelord står som kommentar till ordet glantz 

och bondord står angivet till ordet fall. I dessa, och flera andra, exempel är det hart när 

omöjligt att på kort tid hitta exemplet i Serenius ordböcker eftersom det inte på något sätt 

är semantiskt eller logiskt förknippat med den artikel i vilken det förekommer. 


SAOB bygger på en mångfald skriftliga källor vilket också utgör en av ordbokens starka 

sidor. Antalet källor medför emellertid att man inte har möjlighet att undersöka dessa 

närmare för att utröna deras speciella egenheter, något som heller inte kan sägas falla på 

ordboksredaktionens bord. Dessvärre måste man påpeka att SAOB hade blivit en ännu 

bättre ordbok om man också haft möjlighet att ta hänsyn till hur källmaterialet i sig var 

uppbyggt och vad det vilade på. 

Serenius tre ordböcker bygger t.ex. alla på varandra. Den första, engelsk–svenska, är 

dessutom en osjälvständig produkt, kalkerad på en engelsk–fransk förlaga. Vad detta betytt 

för innehållet i ordboken utreds i mitt pågående avhandlingsarbete, men man kan redan 

nu säga att det svenska ordförråd som skildras i Serenius ordböcker till mycket stor 

del är beskrivet på engelskans villkor. Man kan förmoda att det förhåller sig på liknande 

sätt även med andra, tvåspråkiga ordböcker. 

Eftersom SAOB till stor del bygger på annat ordboksmaterial, vilket faller sig naturligt, 

är det också av stor vikt att detta material undersöks noggrant; en forskningstradition 

som dessvärre är försummad i Sverige. 

Den typ av exempel som redovisats i denna artikel går naturligtvis att hitta också vid 

mindre, manuella sökningar i SAOB. Genom OSA-databasen ökar dock möjligheterna till 

större sökningar, varvid också de tveksamma beläggen lättare kommer i dagen. Vad som 

redovisats här utgör bara en liten del av en förmodad, större kategori av lexikalt material 

som behandlats enligt tveksamma principer i SAOB. Ingen kan emellertid lastas för det 

och SAOB är fortfarande en oumbärlig ordbok i historisk, lexikalisk forskning. Kanske 

kan man säga att den blir ännu bättre när man på detta sätt också kan lära känna bristerna 

bättre. Först då kan man till fullo uppskatta dess förtjänster. 

Litteratur 


1893 –. Lund. 

Serenius, J. 1734. Dictionarium Anglo–Svethico–Latinum. Hamburg. 

Serenius, J. 1741. Dictionarium Suethico–Anglo–Latinum. Stockholm. 

Serenius, J. 1757. An english and swedish dictionary. 2 ed. Nykoping.

67 


Etymologierna 

SAOB är inte någon etymologisk ordbok i snäv mening, men det är ändå ett av de verk där 

mest genomarbetad etymologisk information om ord i svenskan finns samlad. Det är därför 

lockande att försöka använda SAOB som en modell av ordförrådet från reformationen 

och framåt vid studier av t.ex. vilka inlåningsvägar som har dominerat för ord inom skilda 

fackområden under olika tider. Det är dock viktigt att komma ihåg att den tryckta ordboken 

är utformad för att användas just som en ordbok, inte en maskinellt hanterad lexikalisk 

databas. Detta är något som inte bara avspeglas i själva ordbokstexten utan även i att 

den dokumentation som finns att tillgå är väl knapphändig för att ge ett fullgott stöd vid 

mera omfattande maskinella bearbetningar. Trots det är naturligtvis den dokumentation 

som verkligen finns tillgänglig värdefull. Några sidor med allmänna principer står att finna 

i de publicerade handledningarna (Lundbladh 1992:71–74; Ekbo & Loman 1971:23– 

26). Sigurd för en allmännare diskussion i en artikel med anledning av Akademiens 200- 

årsjubileum (Sigurd 1986:176–179). Den mest preciserade informationen, med t.ex. principer 

för vad som skall räknas som medeltidslatin och nylatin, står att finna i redaktionens 

interna anvisningar. Det är dock värt att notera att även dessa anvisningar måste användas 

med viss försiktighet beroende på att de inte alltid har använts konsekvent i hela ordboken. 

Maskinella undersökningar underlättas av att flertalet etymologier är stramt och formelartat 

uppbyggda. Många har en komplexitetsnivå som i exemplen: 

jfr d. rend, nor. dial. renn; till RÄNNA, v. 

efter nylat. motio 

Svårigheterna att hantera informationen maskinellt ökar så fort etymologierna utformningsmässigt 

närmar sig vanlig löpande text, men det är värt att notera att även små och 

enkla etymologier kan ställa till problem, t.ex. genom att information måste hämtas från 

andra ställen i texten för att etymologin skall bli hanterlig. Den typ av rent tekniska problem 

som måste lösas för att hantera t.ex. ifyllnad av information från andra delar av texten 

förbigås dock i det följande för att intresset i stället skall kunna ägnas åt några 

aspekter på själva informationsstrukturen i etymologierna: 

1. Balansen i den etymologiska informationens omfång. Redan SAOB:s urval av ord kan 

emellanåt vara problematiskt när verket skall användas som en modell av svenskans ordförråd 

från reformationen och framåt. Variationer i etymologiernas utförlighet minskar inte 

svårigheterna. 

2. Relationerna mellan enheterna i etymologierna. Etymologier, inte bara i SAOB, är strukturerade 

kring skenbart lättbegripliga uttryck som jämför, av, till och efter. En närmare analys 

visar emellertid att det ofta inte alls är självklart vad de innebär. 

3. Språken i etymologierna. Det är långt ifrån självklart hur språk skall grupperas och avgränsas, 

eller ens vad de skall kallas. 

Balansen i den etymologiska informationens omfång 

Den mest grundläggande faktor som styr balansen i den etymologiska information som 

SAOB ger om det svenska ordförrådet är valet av ord som över huvud taget behandlas i 

ordboken. Det är ett allmänt problem som gäller vid alla tillämpningar där SAOB i någon 

mån skall användas som en modell för svenskans ordförråd och diskuteras därför i ett särskilt 

avsnitt (“SAOB:s täckning” på sidan 51). Ett par specifika faktorer som påverkar just

68 

den etymologiska informationen är (1) att utförligheten i den etymologiska beskrivningen 

har växlat under arbetets gång och (2) att olika delar av ordförrådet behandlas med olika 

utförlighet. 

Variation i utförlighet är viktig bl.a. genom att den påverkar tendensen för olika språk 

att komma med i etymologiska kedjor. Om en kortfattad etymologi kan inskränkas till ett 

”av fr. xxx.”, kan en utförligare vindla sig ända ner till konstruerade indoeuropeiska former. 

På vägen kan latin, grekiska, persiska o.s.v. dyka upp. Variationen kan få mycket 

stark inverkan på utfallet hos kvantitativa bearbetningar eftersom dessa har just redovisade 

språk som stödjepunkter. Sigurd tecknar det allmänna mönstret för variationen på 

följande sätt: 

Etymologiernas utförlighet varierar kraftigt mellan de olika banden. De har blivit 

mer stringenta i senare band, och där finner man aldrig hänvisningar till 

indoeuropeiska rötter. Inte heller finner man i senare band hänvisningar till 

etymologiska lexika eller enskilda uppsatser, vilket var vanligt i tidiga band. 

I äldre tid kunde en etymologi sträcka sig över en hel spalt (se t.ex. den, 

diss). I tidiga etymologier passade redaktören på att ge upplysningar om andra 

ord som kan vara av intresse också. Banden B, C, D, E är de mest utförliga i etymologiskt 

hänseende … (Sigurd 1986:177) 

Beskrivning stämmer väl med det intryck som man får vid en god allmän förtrogenhet med 

SAOB. Låt oss därför detaljgranska den på en punkt: hänvisningar till indoeuropeiska rötter. 

Vi förutsätter att förekomsten av förkortningen ieur. i en etymologi är en sådan hänvisning 

(före M finns det även en handfull fall med indoeur.). Det material som ligger till 

grund är en maskinell excerpering av förstaetymologierna i cirka 85 % av SAOB, var spalter 

har utelämnats framgår av tabellen nedan. Med förstaetymologi avses den första etymologin 

som följer efter ett stickord. Totalt extraherades 36.416 sådana (av Yvonne 

Cederholm). Etymologierna har kapats efter 4 radslut i 720 fall, varav 350 i området B–E. 

Tabell 6: Vissa fördelningar per bokstav 

Bokstav 

Antal ieur. 

i 1:a etym. 

Antal 

1:a etym. 

Spalter i 

boken 

Faktiskt 

spaltantal a 

A 0 4152 2780 

B 14 4509 4928 

C 0 376 304 

D 19 2300 2624 

E 2 1250 880 

F 3 830 3616 c. 1700 

G 25 1669 1764 

H 33 1885 2432 

I 9 1337 1256 

J 5 381 504 

K 38 4013 3880 

L 31 1438 1972 

M 34 2322 2168 

N 16 1018 1308 

O 11 1037 1776 c. 1400

69 

Tabell 6: Vissa fördelningar per bokstav 

Bokstav 

Antal ieur. 

i 1:a etym. 

Antal 

1:a etym. 

Spalter i 

boken 

Faktiskt 

spaltantal a 

P 0 554 3132 c. 1000 

Q 0 0 4 0 

R 21 2556 4632 c. 4200 

S 19 4760 13.768 c. 10.600 

Där över huvud taget någon etymologisk upplysning ges är det här [i sammansättningar 

i ramsa] oftast fråga om översättningslån, … (Ekbo & Loman 

1971:25). 

Den ojämlika behandlingen av enkla ord och sammansättningar kan ställa till problem om 

man vill jämföra just den etymologiska bakgrunden hos ord som har lånats in som sama. 

Det antal spalter som har utnyttjats i undersökningen anges enbart om det 

avviker från antalet i den tryckta boken. 

Mängden ieur. är låg under de två först färdigställda bokstäverna A och C för att stiga under 

B och D. Sedan sjunker den abrupt. De låga siffrorna på A och C beror delvis på att 

förkortningen ieur. inte hunnit sätta sig ännu. Sänkningen efter D hänger samman med 

den uppstramning av ordbokens arbete som skedde under Ebbe Tuneld i början av tjugotalet 

(Sigurd 1986:156). Med tiden svänger pendeln från hastighet i publiceringen till utförlighet 

igen. Andelen ieur. stiger redan under G för att minska med början på O – och så 

stiger den igen under R och S. Även här finns det ett samband med byten av ordbokschef: 

Pelle Holm avlöser Tuneld under M för att sedan själv avlösas av Sven Ekbo ungefär vid 

övergången till R. 

Det viktiga med den övergripande variationen i andelen ieur. är att den visar på att förskjutningar 

i redaktionell policy kan ställa till besynnerliga ojämnheter i materialet. Tabellen 

visar dessutom att inte ens en gammal redaktör som Sigurd (med ronsard som 

första och sjastrar som sista artikel) har en säker intuition för hur SAOB är uppbyggd. Det 

får försiktiga redaktörer att lite svepande formulera sig i stil med: 

SAOB ger i allmänhet inga urgermanska eller urindoeuropeiska konstruerade 

former; av den sakförståndige kan dessa former ändå utan svårighet konstrueras. 

(Ekbo & Loman 1971:25). 

Försiktighet befrämjar nog korrektheten, men knappast tydligheten i bilden av ordboken. 

OSA-databasen gör att svårigheten att få grepp om den interna variationen i SAOB minskar 

i någon mån, men det är värt att notera att det fortfarande kan vara problematiskt att 

utifrån summariska sammanställningar komma fram till vad variationen egentligen beror 

på och vad den säger. Den som studerar tabellen ovan utan tillräcklig bakgrundskunskap 

kan t.ex. dra slutsatsen att ord som inleds med A, C och E är mindre ”indoeuropeiska” 

än de som inleds av andra bokstäver. För en språkvetare är redan bruttosiffrornas storlek 

en varning, andelen ord i svenskan med indoeuropeiskt ursprung bör rimligen vara större 

än någon procent. Men vilka intuitioner har vi för frekvenser hos t.ex. ord som ytterst 

kommer från semitiska språk 

Nu varierar inte utförligheten i etymologierna bara med när artiklarna är skrivna. En 

minst lika viktig faktor är att olika delar av ordförrådet behandlas på skilda sätt. Ett par 

uttalade principer är att ge lånord knappare behandling än arvord och nya lån knappare 

än äldre (Ekbo & Loman 1971:25). Rimligtvis är det något som kan göra att 1500-talet kan 

få proportionellt sett för höga siffror för lån ytterst från persiska jämfört med 1900-talet. 

Även morfologiskt mera komplexa ord tenderar att bli mindre utförligt behandlade. Det 

gäller inte minst sammansättningar:

70 

mansättningar respektive enkla ord. Därmed inte sagt att det alltid skulle röra sig om 

ohanterliga problem. Genom att man kan räkna ut i vilken riktning som felkällorna kommer 

att påverka sifforna går det ofta att kompensera för dem. Men det är inte några korrektioner 

som utförs automatiskt. 

Relationerna mellan enheterna i etymologierna 

Den typiska etymologin, i SAOB och annorstädes, är en kortare eller längre kedja där ett 

ord knyts samman med en räcka bakomliggande former. I det enklaste fallet innehåller 

kedjan bara en länk med information om relation, språk och form enligt mönstret: 

av t. xxx 

En omedelbar fråga är nu hur det lilla av skall tolkas. Det verkar rimligt att anta att det 

indikerar att det ord som etymologin gäller har kommit från det språk som anges: 

När ord har lånats från ett visst språk meddelas det ofta med prepositionen av 

följd av beteckning för det språk som ordet direkt kan härledas ifrån. Skulle det 

i stället stå efter följt av en språkbeteckning och ett ord på detta främmande 

språk, innebär det att ordet är bildat efter mönster av det främmande ordet, 

t.ex. det döda sprödighet ’sprödhet’ efter tyskans sprödigkeit eller rättfärdig 

efter medellågtyska rechtverdich (tyska rechtvertig). När efter används påminner 

förhållandet mellan orden ibland om det som råder vid översättningslån, 

men vid sådana anförs det ord som är det sannolika ursprunget till det förmodade 

översättningslånet ofta efter ett jämför (jfr), t.ex. rörelsefrihet: jfr t. bewegungsfreihet. 

(Lundbladh 1992:73) 

En liten detalj är att Lundbladh inte säger att av innebär ett starkt hävdande av omedelbart 

ursprung. Hellqvist, som Lundbladh ger en allmän hänvisning till (1992:74), går så 

långt att han jämställer av med ytterst av och påpekar explicit att av inte innebär ett ställningstagande 

till om ordet kommit in direkt eller genom förmedling av ett annat språk – 

starkt hävdande av direktlån sker med prepositionen från (Hellqvist 1966:1480). Skälet 

till att denna typ av detaljer är av synnerlig vikt i kvantitativt orienterade undersökningar 

är att de kan leda till grova snedvridningar i resultaten om de inte beaktas. Ett exempel 

på det är etymologier enligt schemat: 

avledn. av XXX 

Skrivsättet kan inte tas till intäkt för att det rör sig om en inhemsk avledning, även om en 

sådan formulering normalt innebär att det åtminstone delvis kan vara det (Ekbo & Loman 

1971:25). Vid första anblicken kan SAOB:s princip här verka mer än lovligt lättsinnig, 

men det finns allvarliga språkvetenskapliga problem i bakgrunden. När man diskuterar 

etymologier sker det ofta med metaforer som inte alltid leder tankarna rätt, något som för 

övrigt Ralph har kritiserat (Ralph 1994:72). I metaforsystemet ingår att man tänker sig 

språk som avgränsade aktörer som lämnar över ord till varandra. Men i verkligheten finns 

det språkbrukare som krånglar till det hela. Det är de som lånar och skapar orden, inte 

språken i sig. Det är t.ex. fullt möjligt att vissa ord som ser ut som vanliga lån från tyskan 

i själva verket är avledningar som en svensk med kunskaper i tyska har ”lånat in” från sin 

egen tyska idiolekt, där ordet finns som en nybildning. Svenskan kan därför ha lånat in 

ord från tyskan som ingen tysk någonsin vare sig har tänkt, sagt eller skrivit (jfr liknande 

fenomen i det äktsvenska freestyle för engelskans walkman). Språkvetenskapligt är detta 

egentligen självklart, men det har obehagliga implikationer för den etymologiska forskningen 

genom att det gör det svårare att avgöra ordens ursprung. 

I det aktuella fallet med etymologier till avledningar motiverar svårigheten att bestämma 

hur avledningen egentligen har kommit in i svenskan den undanglidande tolkningen 

av avledn. av. Priset för denna försiktighet är dock att av får skilda betydelser i etymologier 

med avledn. av jämfört med normalfallet. I normalfallet innebär av ett hävdande av 

att det som följer efter har varit inblandat i tillblivelsen, i fallet med avledn. av gör redak-

71 

törerna Ekbo och Loman en markering av att av i just det fallet inte innebär ett sådant 

hävdande. Vad detta får för praktiska konsekvenser vid maskinella sökningar framgår 

tydligare om man drar in de frekventa jfr-etymologierna – av de 36.416 förstaetymologier 

som nämns ovan är 16.609 sådana. De används i samband med översättningslån på det 

sätt som Lundbladh nämner i citatet ovan, men de används också för att markera t.ex. osäkerhet 

om inlåningsväg. Det är lätt att räkna ut att exterritorial kommer ytterst av latinet 

eller i varje fall av latinskt material, men svårare att säga om vi har fått ordet via tyskan, 

engelskan eller franskan (om det nu inte har kommit via alla vägarna parallellt), vilket 

motiverar etymologin: 

jfr t., eng., fr. exterritorial, ytterst av ex, ur (se EX-) o. territorium, område (se 

TERRITORIUM) 

Det torde i många sammanhang vara mera relevant att föra samman avledn. av med jfr 

än att gruppera alla etymologier med av i en kategori i kontrast till dem med jfr. Men är 

alla jfr jämbördiga, eller måste även den gruppen finfördelas efter vad som skenbart bara 

är små detaljer 

Språken i etymologierna 

Till de bekymmer som man kan vilja befria en användare av SAOB från är variationer i 

språkbeteckningar. Dessa är av två slag: (1) rena variationer i uttryckssätt, t.ex. sp. – 

span. – spanska och holl. – nl.; (2) variationer i omfång, t.ex. t. – ht. – lt. – mlt. Den senare 

typen ställer till mycket svåra problem vid sammanräkningar. När skall t.ex. skånsk dialekt 

räknas som en form av svenska Om man väljer att räkna äldre skånska ord som har 

lånats in i rikssvenskan som danska lån, skall då t.ex. småländska ord som har lånats in 

i riksspråket räknas som svenska lån Denna typ av frågor kan inte besvaras generellt då 

olika tolkningar är relevanta för olika undersökningar. Variationer av den första typen 

mellan synonymer är dock lätta att hantera tekniskt, åtminstone i princip. Den allra enklaste 

lösningen är att normalisera den redaktionella texten genom att välja ut en av de alternativa 

beteckningarna och ändra konsekvent till den, en operation som i praktiken 

bara är en förfinad form av den typ av sök- och ändra-operation som alla med erfarenhet 

av ordbehandling är bekant med. Det förfinade ligger i att utbytena måste göras starkt 

kontextberoende så att språkprov och liknande inte korrumperas. En aningen mer komplicerad 

lösning är att lägga in normaliseringar i SGML-taggar (för allmänna aspekter på 

taggningen se “SGML-taggning av SAOB” på sidan 15 och framåt.). Det är den senare lösningen 

som kommer att användas, inte minst för att många språkbeteckningar i vilket fall 

som helst måste specialkodas för att tvetydigheter skall undvikas: fr. kan t.ex. lösas upp 

både som franska och som från. Innan några justeringar kan göras ens genom att tilläggsinformation 

läggs in i SGML-taggar är det dock nödvändigt att man skaffar sig ett mycket 

gott grepp om vilka språkkoder som faktiskt används i texten och om hur de varierar med 

varandra. Den existerande dokumentationen hjälper långt men inte riktigt ända fram då 

dess huvudsakliga uppgift är att vägleda redaktörerna, inte att redovisa varje egenhet 

som har uppstått under ett sekels arbete. Den största svårigheten rent praktiskt är dock 

att informationen är spridd i ett antal olika källor, vilket gör det lätt att missa något. Det 

är därför nödvändigt att komplettera med rent empiriska undersökningar för att leta reda 

på odokumenterade språkkoder och för att kontrollera att den existerande dokumentationen 

verkligen stämmer – och inte minst att man har grävt tillräckligt djupt i den. Det kan 

illustreras med paren holl. – nl. och lt. – nt. 

Man skulle kunna tro holl. var en nl.-dialekt, d.v.s. att beteckningarna är närliggande 

men inte synonyma, men i själva verket har den förra beteckningen blivit ersatt med den 

senare. Det gör att nl. inte nämns i förkortningslistan i bd 1, däremot noterar Lundbladh 

(1992:80) ändringen. I det djupbearbetade materialet finns också en skarp gräns: sista ordet 

med anknytning till holl. är skytke och första med en koppling till nl. är slopa. Detta 

fall är lyckligt i det att man kan verifiera att dokumentationen och den faktiska texten

72 

stämmer med varandra. Det är inte riktigt lika enkelt med nt. och lt. Av dessa nämns formen 

nt. varken i Lundbladhs förkortningslista eller i förordet till bd. 1. Däremot finns den 

med i redaktionens tryckta men opublicerade Handbok för redigering af Svenska Akademiens 

ordbok från 1904. I de djupbearbetade etymologierna dyker nt. upp redan i akter och 

försvinner efter nidska, där det alltså ersätts av lt. 

Den språkhistoriskt bildade som använder SAOB för att slå upp enstaka ord på ordinärt 

sätt kan nog räkna ut att nt. är en förkortning av nedertyska, ungefär som mnt är en 

förkortning för medelnedertyska. Den som söker maskinellt på lt. och mlt. för att hitta lågtyskt 

inflytande anar nog att allt inte står rätt till när inte ett enda belägg dyker upp före 

bokstaven O. Den som kan råka illa ut är den som utgår från t.ex. Lundbladh och söker på 

de beteckningar som har lågtyska eller nedertyska i sig där (lt., mlt. och mnt.). I en sådan 

sökning förrycks resultatet en aning, men inte helt. Det är tillräckligt för att den skall 

kunna påverka slutsatser, men tillräckligt liten för att felkällan skall vara svår att märka. 

När väl variationen är upptäckt i fall som holl. – nl. och nt – lt. är den ofta lätt att åtgärda 

med hjälp av en normalisering eller tilläggsinformation i en SGML-tagg. 

Litteratur 

Ekbo, S. & Loman, B. [1965] 1971. Vägledning till Svenska Akademiens ordbok. 2 uppl. 

Stockholm. 

Engwall, G. 1994. Svenskt och franskt. I: Arv och lån i svenskan : Sju uppsatser om 

ordförrådet i kulturströmmarnas prespektiv. Utgivna av Svenska Akademien. 

Stockholm. 

Gellerstam, M. 1994. Ordförrådets härledning. Arv och lån i svenskan : Sju uppsatser om 


Stockholm. 


Kock. 


Jonsson. 

Hellqvist, E. 1966. Svensk etymologisk ordbok. Bd 2. 3. uppl. Lund. 

Jonsson, H. 1983. Ekeblad och SAOB. Nysvenska studier. Årg. 61. 19181. Lund. 

Lundbladh, C.-E. 1992. Handledning till Svenska Akademiens ordbok. Lund. 


1893 –. Lund. 

Ralph, B. 1994. Svenskt och nordiskt. Arv och lån i svenskan : Sju uppsatser om 


Stockholm. 

Sigurd, B. 1986. Ordboken, ordlistan och några andra av Svenska Akademiens språkliga 

insatser under 1900-talet. I: Allén, Sture & Loman, Bengt & Sigurd, Bengt 1986. 

Svenska Akademien och svenska språket : Tre studier. Stockholm.

73 

Lars Svensson 

Att söka i Språkdatas SAOB-konkordans 

Artiklarna i SAOB måste självklart följa de redigeringsregler och principer och starkt 

formelaktiga språk som tillämpas, så att verket får en enhetlig och likartad form. Trots 

manualer och diskussioner och sökande i ordboken, som har lång tradition, kan det emellertid 

inte så sällan vara svårt att snabbt finna lämpliga paralleller l. modeller l. likartade 

exempel på det formella planet, t. ex. i fråga om ett ords uttal, böjning l. bruklighet l. en 

anmärknings placering l. formulering osv. Ibland minns man (delar av) en bra formulering 

av en anmärkning l. bruklighetsangivelse o. d. men inte i vilken artikel den står. Därför 

hälsar vi på ordboksredaktionen med stor tillfredsställelse att Språkdatas SAOB-konkordans 

nu finns tillgänglig på universitetsnätet. 

Konkordansen utgörs av en optisk inläsning av de tryckta volymerna. Materialet i konkordansprogrammet 

är lagrat som löpande text i form av ett antal delmängder, var och en 

– i vårt fall – bestående av en ordboksartikel. Varje delmängd är försedd med uppgift om 

beläggställe. Till ett givet ord kan man få en grafordlista, en konkordans och en kontext. 

Graforden och konkordanserna kan sorteras initial- och finalalfabetiskt. Man kan även 

söka på fras och årtal, men också på brukligheten (†) [= dead]. Man kan bläddra rad för 

rad eller sida för sida och växla listningsriktning. Kommandot ”/a” utvidgar kontexten till 

en hel spalt. Det går också att göra en utskrift av skärmbilden. 

Hur fungerar då SAOB-konkordansen i praktiken Ja, på det hela taget mycket bra. 

Med hjälp av SAOB-konkordansen kan man t. ex. kontrollera en källas skrivning eller 

förkortning. Detta är värdefullt, om det förekommer flera uppgifter om källans förkortning. 

En sökning på källan ger i allmänhet besked direkt. Vid ett tillfälle kunde en kontrollant 

inte finna den på excerptlappen angivna källan Buttmann (1825) bland våra 

förkortningar eller i den s. k. Grållan – kontrollanternas egen uppslagsbok och "bibel" rörande 

källorna – men en sökning i databasen gav besked: FAXE Buttmann (1825) skall 

källan heta. (J. Faxe har översatt Buttmanns grekiska grammatik och kommer att stå som 

"författare", eftersom det är den svenske översättarens språk som behandlas i SAOB.) 

Om man skall behandla t. ex. en lek eller titel eller ett oböjligt substantiv, så är det 

lämpligt att studera hur sådana artiklar brukar behandlas i ordboken. 

Anmärkningar är vanliga i ordboken. I en anmärkning kan man behandla en misstänkt 

eller avvikande ordform, en felöversättning, att ordet böjdes med latinska ändelser i äldre 

svenska o. d. Självklart har man nytta av att granska några anmärkningar för att se vilka 

stilar som används, var anmärkningen skall placeras i artikeln. Osv. 

Andra exempel där databasen kan ge hjälp och ledning. 

Hur återges stumt tecken i ryska ord i etymologiska parentesen 

Hur används t. ex. termen "överförd" i SAOB 

Exempel på verb bildade till det svaga avljudsstadiet 

Exempel på retrograd ordbildning 

Uttalsuppgifter i äldre ordböcker (t.ex. Dalins Ordbok öfver svenska språket (1850– 

1855), Westes Svenskt och fransyskt lexicon (1807) anförs vid ord, som är döda. Var skall 

dessa uttaluppgifter placeras i ordboksartikeln Vilken stil skall de ha Osv. 

En svaghet med databasen är att träffarna avser samtliga förekomster av den sökta 

bokstavsförbindelsen. Söker man siffrorna t. ex. 1990 så betecknar siffrorna dels årtal, 

dels siduppgift i en källa. Men äv. fall som 19:90 registreras. Söker man på STRINDBERG 

– 4.775 träffar i databasen – så redovisas samtliga anträffade STRINDBERG: författaren,

74 

titlar innehållande ordet STRINDBERG, citat där STRINDBERG ingår, STRINDBERG 

som sammansättningsled osv. 

När man söker på mer än ett ord så gäller det att reducera antalet träffar. Söker man 

t. ex. på ”sbst. oböjl.” så tar det en stund innan man kommit fram till detta ställe i databasen, 

eftersom programmet letar sekvensiellt efter det andra ordet i kontexten. Det innebär 

att man först får samtliga fall av ”sbst. + o. d., o. p. adj., o. v.”, och så till slut ”sbst. + 

oböjl.” Men i stället för att bläddra sig igenom ramsan till aktuellt ställe, så kan man påskynda 

sökningen gm att söka på ”sbst. o. v.”, varefter ”sbst. oböjl.” följer. Och att leta igenom 

9.225 träffar ”anmärkningar” är hopplöst men träffarna reduceras betydligt om man 

söker på t. ex. sekvensen: ”Anm. I nedanstående källa (språkprov)” eller: ”Anm. I äldre 

nysv. (sv., tid)”. På samma sätt kan träffarna för ”ry.” (= ryska) reduceras, om man inte 

söker på enbart ”ry.” (374 träffar) utan på ”av ry.” eller ”i ry” eller ”efter ry.”, vilket utesluter 

icke-språkliga kontexter. 

Det vore således idealet om man så småningom kunde söka på parentes, stil eller avdelning 

i artikeln (t. ex. etymologiska parentensen). Trots ovan nämnd ”olägenhet”, så 

fungerar dock databasen bra som stöd och hjälpmedel för ordboksredaktionen. Det finns 

dessutom möjlighet för oss att av Språkdata få en specialkörning eller specialsökning, om 

så skulle behövas. På datornätet finns sedan en tid tillbaka dessutom några mycket nyttiga 

ordlistor tillkomna som en frukt av konkordansarbetet. Ordbokens samtliga sammansättningar 

är sorterade på efterled, huvudorden och avledningarna finalalfabetiskt 

ordnade och de särskilda förbindelserna sorterade på partikeln. Vi i Lund tackar och tar 

emot!

75 

SAOB på Internet 

Följande information finns tillgänglig genom OSA-projektets hemsida på Internet: 

Konkordans över SAOB Detta är tillsvidare det enda sättet att söka i hela SAOB. Formatet 

är dock svårläst och kräver troligen att man har ordboken vid sidan om. 

Ordlistor. 

Huvudord (alfabetisk och finalalfabetisk sortering) 

sammansättningar (sorterade på efterled) 

avledningar (finalalfabetisk sortering) 

särskilda förbindelser (sorterade på partikel) 

facktermer (kronologiskt sorterade) 

Bibliografisk databas Databasen är ursprungligen upplagd av ordbokschefen Lars 

Svensson. Den innehåller samtliga källor i SAOB t.o.m. 1990, sammanlagt c:a 19 000 referenser. 

Vissa justeringar och utökade sökmöjligheter har utförts inom OSA-projektet (se 

“Bibliografisk databas” på sidan 37 och framåt). 

Hypertextlexikon Vi har bearbetat artiklarna A-advokat för att visa på hur en elektronisk 

version av SAOB kan komma att se ut. Det finns också ett enklare söksystem kopplat 

till hypertextlexikonet, där man kan söka på huvudord eller del av ett huvudord, t.ex. alla 

ord som slutar på ”tion” (se “SAOB som hypertext” på sidan 47 och framåt). 

Adresser 

Adressen till OSA-projektets hemsida på Internet/World Wide Web är: 

http://svenska.gu.se/saob/saobusers.html 

Från hemsidan kommer man också åt konkordansprogrammet (Telnet-uppkoppling). Man 

kan ta kontakt med systemet direkt via Telnet på följande adress: 

svenska.gu.se

77 

Ordlista 

DTD (Document Type Definition) En dokumenttypsdefinition är en specifikation av 

vilka strukturer som får finnas i dokument av den aktuella typen. En ordbok kan t.ex. 

definieras som en följd av artiklar, som i sin tur har en given följd av byggelement: 

först stickord, sedan uttal, former o.s.v. I SGML-sammanhang (jfr SGML) används 

DTD:er vid maskinell kontroll av att strukturen i dokumenten är korrekt markerad. 

hypertext Text med förgreningar (länkar) som gör det lätt för läsaren att välja sin egen 

väg genom texten eller textkomplexet. I en ordbok är det naturligt att t.ex. göra länkar 

mellan förkortningar i själva ordbokstexten och förklaringar till dem. Den koppling av 

källhänvisningar i texten till bibliografin som diskuteras av Sofie Kokkinakis 

Johansson är ett exempel på hur projektet omvandlar SAOB till en regelrätt hypertext 

(sidan 47). 

HTML (Hypertext Markup Language) Märkningsspråk (inom ramen för SGML) för 

hypertext som används på World Wide Web. 

märkningsspråk (markup language) Formellt språk för att märka upp den 

innehållsliga strukturen i texter. I SGML-sammanhang definieras märkningsspråket 

med en dokumenttypsdefinition (jfr DTD). 

OCR (Optical Character Recognition) Datorbaserad överföring av text på papper till 

för dator hanterligt format. Maskinen identifierar alltså följden av skrivtecken i 

texten. Tekniken fungerar bäst för tryckt eller maskinellt utskriven text. 

Perl (Practical Extraction and Report Language) Programmeringsspråk som i första 

hand är tänkt att användas dels för systemadministration, men som i stor 

utsträckning används för bearbetning av stora texter. 

sed (Stream Text Editor) Standardverktyg (editor) inom operativsystemet Unix. Ger 

bl.a. en möjlighet att använda reguljära uttryck för att bearbeta texter. 

SGML (Standard Generalized Markup Language) SGML är en internationell 

standard (ISO 8879) som är till för att göra det lättare att föra över text mellan olika 

system. En huvudprincip är att man i första hand skall bekymra sig om vad som är 

textens logiska beståndsdelar (vad som är rubriker, framhävd stil, stickord, 

etymologier o.s.v.), inte precis om hur de skall se ut. 

TEI (Text Encoding Initiative) Internationellt samarbetsprojekt som startades 1987 

för att ta fram generella märkningsmodeller för elektroniska texter inom ramen för 

SGML. TEI har finansierats av The Association for Computers and the Humanities 

(ACH), The Association for Computational Linguistics (ACL) och The Association for 

Literary and Linguistic Computing (ALLC). Som ett resultat av projektet publicerades 

1994 Guidelines for Electronic Text Encoding and Interchange (TEI P3), redigerad av 

C.M. Sperberg-MacQueen och Lou Burnard. 

WWW eller web (World Wide Web) Ett världsomspännade informationssystem på 

Internet för att länka samman text (hypertext), bilder, video och ljud.

Research Reports from the Department of Swedish, Göteborg University 

GU-ISS-96-1 

GU-ISS-96-2 

GU-ISS-96-3 

GU-ISS-96-4 

GU-ISS-96-5 

GU-ISS-96-6 

GU-ISS-96-7 

GU-ISS-96-8 

GU-ISS-96-9 

GU-ISS-96-10 

GU-ISS-96-11 

Eva Holmqvist, Strukturerad visuell information i en tesaurus för 

svenska. Uppsats för licentiatexamen i: Språkvetenskaplig 

databehandling med lexikologi 

Pernilla Danielsson & Daniel Ridings, PEDANT. Parallel Texts in 

Göteborg 

Jerker Järborg, Formaliserad lexikologi. Rapport från ett 

långtidsprojekt. (Preliminär version) 

Sture Allén, Yvonne Cederholm, Sofie Johansson Kokkinakis, 

Lena Rogström, Rudolf Rydstedt & Lars Svensson, 

Om svar anhålles. Rapport från projektet OSA. 

Sofie Johansson Kokkinakis & Dimitrios Kokkinakis, Rule-Based 

Tagging in Språkbanken. 

Yvonne Cederholm, A Historical Database of Swedish: The O.S.A 

Project. Accepted to EURALEX ’96, Göteborg, August 13-19 1996. 

Pernilla Danielsson & Daniel Ridings, Annotating Parallel Texts 

with the NSL library. 

Pernilla Danielsson & Daniel Ridings, Corpus and Terminology: 

Software for the Translation Program at Göteborgs universitet or Getting 

students to do the work. Accepted to TALC ’96, Lancaster 

Pernilla Danielsson & Daniel Ridings, Terminology in Parallel Texts. 

Accepted to TKE ’96, Vienna. 

Dimitrios Kokkinakis, A system for semi-automatic tagging of (Greek) 

corpora. Experiments, results and evaluation. Accepted to the 

2nd International Conference on Greek Linguistics, Salzburg, Öst. 

Sept 1995. 

Dimitrios Kokkinakis, Towards Automatic Corpus-Based Argument 

Identification. Accepted to the Predicative Forms in Natural Language 

and Lexical Knowledge Bases Workshop, Toulouse, Fra. 1-2 August 1996. 

ISSN-1401-5919

Om svar anhÃ¥lles - Svenska Akademiens ordbok - GÃ¶teborgs ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?