25.12.2014 Views

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

GU-ISS-96-4<br />

Research Reports from<br />

the Department of Swedish,<br />

Göteborg University<br />

ISSN-1401-5919<br />

<strong>Om</strong> <strong>svar</strong> anhålles<br />

Rapport från projeket OSA<br />

(Augusti 1996)<br />

Sture Allén<br />

Yvonne Cederholm<br />

Sofie Johansson Kokkinakis<br />

Lena Rogström<br />

Rudolf Rydstedt<br />

Lars Svensson<br />

Språkdata, Institutionen för svenska språket<br />

Göteborgs universitet, 412 98 Göteborg


Innehåll<br />

Förord . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

Sture Allén<br />

OSA<br />

Ett datalingvistiskt projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7<br />

Rudolf Rydstedt<br />

Inläsningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

Yvonne Cederholm<br />

SGML-taggning av SAOB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

Lena Rogström<br />

Taggning i praktiken – en personlig reflektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

Sofie Johansson Kokkinakis<br />

Bibliografisk databas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

Lena Rogström<br />

Den ortografiska normen i SAOB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

Sofie Johansson Kokkinakis<br />

SAOB som hypertext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

Rudolf Rydstedt<br />

SAOB:s täckning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

Lena Rogström<br />

OSA-databasen i praktiken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

Rudolf Rydstedt<br />

Etymologierna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

Lars Svensson<br />

Att söka i Språkdatas SAOB-konkordans. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

SAOB på Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />

Ordlista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77


5<br />

Förord<br />

Projektet OSA har som primärt syfte är att omarbeta <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> till en<br />

historisk lexikalisk databas. I första avsnittet av denna rapport ges bakgrunden till projektet<br />

på basis av Sture Alléns framställning till <strong>Svenska</strong> Akademien år 1981. Projektet<br />

leds av professor Sture Allén och i projektgruppen ingår för närvarande också Yvonne<br />

Cederholm, Sofie Johansson Kokkinakis, Maja Lindfors Viklund, Ulla Martinsson, Lena<br />

Rogström och Rudolf Rydstedt.<br />

Denna rapport beskriver hur projektet fortskridit hittills. Arbetet med den optiska inläsningen<br />

av materialet behandlas översiktligt. Övriga avsnitt ägnas huvudsakligen åt<br />

det nuvarande arbetet med att märka upp <strong>ordbok</strong>ens innehållsstruktur i SGML. (På<br />

sidan 77 finns en ordlista där SGML och andra termer förklaras.) Här presenteras taggningsmodellen<br />

och den metod vi använt i taggningsarbetet. Vi går också in på problemen<br />

med variation på olika nivåer i <strong>ordbok</strong>en och vad det får för konsekvenser när man skall<br />

söka i <strong>ordbok</strong>en.<br />

Den största delen av denna rapport handlar om <strong>ordbok</strong>ens interna stuktur. Först i nästa<br />

rapport kommer tyngdpunkten att ligga på själva användningen av databasen. Användarens<br />

perspektiv berörs dock i ett avsnitt av <strong>ordbok</strong>schefen Lars Svensson, där han<br />

skriver om hur konkordansen över SAOB används i <strong>ordbok</strong>sredaktionens arbete. Lena<br />

Rogström skriver också om hur hon använt konkordansen i sitt avhandlingsarbete.<br />

Konkordansen över SAOB finns tillgänglig på Internet (Internetadresser finns på<br />

sidan 75). På Internet finns också finalalfabetiskt ordnade ordlistor och en bibliografisk<br />

databas över SAOB:s källor samt en demoversion av SAOB i hypertextformat. Redan idag<br />

kan man se att det finns ett stort intresse för en Internetversion av SAOB. Projektet OSA:s<br />

hemsidor på Internet besöks idag av ca 300 användare i veckan. Framtida publiceringsplaner<br />

på Internet och/eller CD-ROM diskuteras dock inte i denna rapport.<br />

Göteborg i augusti 1996<br />

Yvonne Cederholm<br />

bitr. projektledare


7<br />

Sture Allén<br />

OSA<br />

Ett datalingvistiskt projekt<br />

Efter framställningen till <strong>Svenska</strong> Akademien i november 1981<br />

Sammanfattning<br />

Projektets titel syftar på forskares och andra användares situation inför ett stort informationsmaterial:<br />

<strong>Om</strong> Svar Anhålles. Många slags frågor med lexikalisk och textuell syftning<br />

kan inte få <strong>svar</strong>, därför att materialet inte är tillgängligt på det sätt som krävs. Syftet med<br />

projektet är att läsa in, lagra, bearbeta, tillhandahålla och undersöka lexikaliskt och textuellt<br />

stoff med datalingvistiska metoder. Avgörande är att detta nu kan ske på basis av<br />

optisk läsning.<br />

Projektet har två faser. I den första fasen läses <strong>Svenska</strong> <strong>Akademiens</strong> historiska <strong>ordbok</strong><br />

(SAOB) in med hjälp av en optisk klartextläsare och lagras som en databas. Ordboken,<br />

som med sina 26 000 sidor representerar minst 2000 årsverken, blir härigenom tillgänglig<br />

på ett mångfasetterat sätt för sökning och forskning. Från denna synpunkt kan OSA också<br />

utläsas Ordbok över <strong>Svenska</strong> Språket utgiven av <strong>Svenska</strong> Akademien.<br />

Inläsningen av SAOB ger öppningar för den historiska lexikologin. För den nuspråkliga<br />

lexikologin förfogar institutionen – Språkdata, Göteborgs universitet – över ordmaterialet<br />

i projektet Lexikalisk databas och i Nusvensk frekvens<strong>ordbok</strong>, vartill kommer den maskinläsbara<br />

versionen av <strong>Svenska</strong> <strong>Akademiens</strong> ordlista (SAOL).<br />

Varje <strong>ordbok</strong> är emellertid ett urval. Det blir därför viktigt att komplettera de lexikaliska<br />

databaserna med texter. Fas 2 ägnas sålunda åt att med den optiska läsarens hjälp<br />

göra en serie texter från reformationen till idag tillgängliga i maskinläsbar form. På dessa<br />

grundas ordindex, som gör det möjligt att öka täckningen av svenskans ordbestånd.<br />

Projektet aktualiserar också centrala datalingvistiska frågor som texters lagringsform,<br />

algoritmisk analys av löpande text och hantering av stavning<strong>svar</strong>iation. Vissa projekt och<br />

förstudier på dessa områden har genomförts vid institutionen.<br />

Bakgrund<br />

Man möter idag en växande insikt om lexikonets centrala roll i perception och produktion<br />

av naturligt språk och i beskrivningen av naturligt språk. Lexikonet ses härvid som ett<br />

dynamiskt system av morfosemantiska enheter på ord-, ordleds- och frasplanet, underkastade<br />

särskilda kombinatoriska regler. Denna inriktning kan sägas profilera europeisk<br />

lingvistik (Calzolari, Lenders, Mel’cuk, Petöfi, Quemada, Rieser, Zampolli m.fl.) visavi<br />

amerikansk. Också på amerikanskt håll kan man emellertid se tecken på en omorientering.<br />

Vid Språkdata har vi sedan mitten av 1960-talet på vårt håll bidragit till denna perspektivförändring<br />

genom att utveckla och tillämpa datalingvistisk metod och teknik för lexikalisk<br />

forskning i mycket vid mening.<br />

Det största hittills genomförda projektet har resulterat i publiceringen av Nusvensk frekvens<strong>ordbok</strong><br />

1–4 (1970–80), som på drygt 4000 sidor presenterar ord, fraser, ordled och betydelser<br />

i ett textmaterial av en miljon ord. I anslutning till frekvens<strong>ordbok</strong>en har en rad<br />

andra ordböcker givits ut från institutionen. Dit hör Tiotusen i topp (Allén), en mindre


8<br />

frekvens<strong>ordbok</strong>. Dit hör Olika lika ord (Berg), ett svenskt homograflexikon. Dit hör också<br />

Svensk baklänges<strong>ordbok</strong> (Allén et al.), en specialbearbetning av materialet i frekvens<strong>ordbok</strong>en<br />

och i <strong>Svenska</strong> <strong>Akademiens</strong> ordlista med orden ordnade ordslutsvis.<br />

På det lexikaliska området kan vidare nämnas Förnamnsboken (Allén & Wåhlin), som ger<br />

uppgifter om de 10 000 vanligaste förnamnen, och Ord och fras i psalmboken (Gellerstam<br />

& Gellerstam). Dessutom ingår i serien Data linguistica en morfolexikalisk beskrivning av<br />

nusvenskan (Hellberg).<br />

Det största nu pågående projektet är Lexikalisk databas, som syftar till att etablera en<br />

välstrukturerad databas med omfattande lexikalisk information om en stor, central del av<br />

den nutida svenskans ordförråd. Från databasen skall bland annat genereras och tryckas<br />

en modern svensk <strong>ordbok</strong>, som på 1000 sidor beskriver och definierar omkring 100 000 ord<br />

(databasen som sådan innehåller för närvarande 150 000 ord). Till databasen är dessutom<br />

knutet ett system av datafiler innehållande fackord på ett stort antal ämnesområden.<br />

Av andra lexikaliska projekt kan nämnas Vokabulärstudier/SAOL, som genomförs med<br />

stöd av <strong>Svenska</strong> Akademien. Inom detta sker nu en uppdatering av 10 upplagan av <strong>Svenska</strong><br />

<strong>Akademiens</strong> ordlista för den kommande 11 upplagan. Vidare har inom projektet Lexikon<br />

för invandrare utarbetats ett särskilt avpassat svenskt underlag i storleksordningen<br />

15 000 ord för översättning till viktiga invandrarspråk. Det kan tillfogas att ordförrådet i<br />

institutionens talspråkliga databas – en halv miljon ord fria samtal – kommer att sammanställas<br />

och göras tillgängligt.<br />

Vid institutionen finns också Logoteket, ett serviceorgan på nationell bas med uppgift att<br />

upprätta en datamaskinell text- och ordbank. Det inrättades 1975 för att möta den ökade<br />

efterfrågan på kvalitativa och kvantitativa data om språket från forskare, myndigheter<br />

och företag.<br />

SAOB i bokform<br />

Det största <strong>ordbok</strong>sverk som gäller svenskan är Ordbok över <strong>Svenska</strong> Språket utgiven av<br />

<strong>Svenska</strong> Akademien (SAOB). Det är en historisk <strong>ordbok</strong> på hög nivå som ger utförlig information<br />

om det svenska skriftspråkets ordförråd från reformationen och framåt. Dess<br />

första häfte kom ut 1893. Det senaste häftet, som kom 1981, går fram till ordet solanin (en<br />

alkaloid).<br />

Ordboksartiklarna är i korthet ordnade på följande sätt. Efter uppslagsordet följer en<br />

uttalsuppgift, en uppgift om ordklass (i förekommande fall genus), en böjningsuppgift, en<br />

uppgift om eventuella sidoformer, en uppgift om variantformer (den s.k. formparentesen)<br />

och en uppgift om uppslagsordets etymologi. Dessa uppgifter bildar artikelns huvud. Efter<br />

detta kommer betydelsebeskrivningen med tillhörande exempel. Här presenteras de olika<br />

urskilda betydelserna jämte uppgifter om bruklighet och äldsta belägg (i vissa fall också<br />

yngsta belägg). Slutligen behandlas sammansättningar, avledningar och i vissa fall särskilda<br />

förbindelser.<br />

SAOB:s hittills utgivna 28 band omfattar c. 26 000 sidor à drygt 8000 tecken, totalt över<br />

200 miljoner tecken. Ett överslag ger vid handen att antalet uppslagsord är av storleksordningen<br />

450 000. Som jämförelse kan nämnas att senaste upplagan av SAOL innehåller<br />

140 000 uppslagsord.<br />

Den arbetsinsats som ligger bakom SAOB – excerpering, redigering, kontroll, administration,<br />

tryckning – kan lågt räknat anges till 2000 årsverken. Detta gör <strong>ordbok</strong>en till det<br />

i särklass största projektet inom i varje fall nordisk språkvetenskap. Uppgiften ger också<br />

en antydan om storleken hos den informationsmängd som ryms mellan pärmarna.


9<br />

SAOB som databas<br />

Till hela denna rikt varierade informationsmängd finns det endast en ingång, den alfabetiska,<br />

och den gäller enbart uppslagsorden. Men <strong>svar</strong>en på en stor mängd grundläggande<br />

frågor låter sig inte utletas via den ingången. Frågorna är tvärtom formulerade i helt andra<br />

kategorier: kronologiska, morfologiska, semantiska, stilistiska, etymologiska m.m.<br />

Hur ser det tidiga 1700-talets ordskatt ut Hur har neutrum plural på -er utvecklats Vilka<br />

ord definieras som hyponymer till tillvägagångssätt Vilka ord anges som tillhörande<br />

det ekonomiska området Vilka lånord från engelskan kom in vid tiden för första världskriget<br />

Osv. Vi vet att <strong>svar</strong>en på sådana frågor finns i de tryckta banden, men de är oåtkomliga<br />

för dem som inte gång efter annan vill excerpera hela den väldiga <strong>ordbok</strong>ssviten.<br />

<strong>Om</strong> <strong>ordbok</strong>en vore tillgänglig i databasform, skulle kategorier som de nämnda bli sökbara.<br />

Man kunde få <strong>svar</strong> på frågorna. Fas 1 i projektet avtecknar sig.<br />

Det finns nu nämligen en apparat med vars hjälp tryckt text kan överföras i datamaskinellt<br />

läsbar form och därigenom göras tillgänglig på ett mycket flexibelt sätt. Det är den<br />

optiska läsaren Kurzweil Data Entry Machine. Den består av en skanner (optisk avsökare),<br />

två minidatorer, en textskärm och ett sekundärminne. Vid användning kalibreras den<br />

först med hänsyn till svärta, sidformat m.m. och tränas sedan att känna igen textens typsnitt.<br />

Därefter kan produktionskörning ske. Läshastigheten är 6–12 gånger högre än en<br />

sekreterares skrivhastighet, beroende på textens typografiska karaktär.<br />

Vid körning visar den sådana tecken på skärmen som har lästs osäkert (på grund av<br />

ojämnhet i svärtan, trasiga typer o.d.). Det kräver att en operatör hela tiden är tillgänglig<br />

för att ange den rätta läsningen på dessa punkter.<br />

Utöver de ingrepp som operatören gör i samband med inläsningen kan texten kontrolleras<br />

med hjälp av olika slags program. Dessa kan t.ex. utföra konsekvenskontroller av typen<br />

moment 1 skall följas av moment 2, vänsterparentes skall mot<strong>svar</strong>as av högerparentes<br />

osv. De kan bland annat också kontrollera bokstavskombinationerna (grafotaxen): insprutning<br />

är ett tillåtligt ord men inte insptutning osv.<br />

Kurzweilläsare är i drift vid t.ex. Library of Congress i Washington, New York Public<br />

Library, Oxford University Computing Service och English Department vid University of<br />

Birmingham. Jag har personlig kontakt med dr Susan Hockey i Oxford och med professor<br />

John Sinclair och hans närmaste medarbetare dr Antoinette Renouf i Birmingham. De<br />

båda senare har f.ö. nyligen gjort ett längre studiebesök vid vår institution. I Oxford håller<br />

man på att lägga upp ett datamaskinellt arkiv med texter på olika språk. I Birmingham<br />

har man börjat läsa in ett stort modernt textmaterial. De nämnda forskarnas erfarenhet<br />

är mycket god.<br />

Genom tillmötesgående från Specialsystem Kinnunen & Co AB, Stockholm, har vi låtit<br />

genomföra ett experiment med Kurzweilläsaren. Hos detta företag finns den enda läsaren<br />

i landet. Man har där bland annat läst in den norska lagboken.<br />

Experimentet, som gjordes i april 1980, gick till så, att vi sände ett par sidor av SAOB<br />

(avsnittet serval – servare) till företaget för inläsning. Efter mycket kort träning av systemet<br />

skedde läsningen. Trots att SAOB i själva verket utnyttjar åtta olika stilar, framstod<br />

resultatet som mycket tillfredsställande.<br />

För att SAOB skall kunna lagras på ett sådant sätt att de olika kategorierna av information<br />

blir sökbara fordras en analys av <strong>ordbok</strong>sartiklarnas logiska och typografiska<br />

struktur. Den fasthet som präglar redaktionens arbete är härvid en stor tillgång. Som presentationen<br />

ovan visade är artiklarna uppbyggda enligt ett bestämt mönster.<br />

En struktur- och systemanalys av det erforderliga slaget har jag tidigare utfört. Det<br />

gällde den gången det maskinskrivna manuskriptet till den 1980 publicerade Stora engelsk-svenska<br />

<strong>ordbok</strong>en (Esselte Studium; 1100 sidor, 120 000 uppslagsord). Analysen ledde<br />

till att <strong>ordbok</strong>en datasattes och lagrades i en sådan form, att kategorier som


10<br />

uppslagsord, uttal, ordklassuppgift, översättning och fraseologi är sökbara. Materialet är<br />

också tillgängligt för forskningsändamål.<br />

Uppläggningen av SAOB i mot<strong>svar</strong>ande form kräver självfallet en programmeringsinsats.<br />

Härvid kan institutionen utnyttja erfarenheten från uppbyggnaden av de system<br />

som nu är i drift, främst Lexikalisk databas.<br />

Det faktum att SAOB inte täcker hela alfabetet kan inte betraktas som något hinder.<br />

Partiet fram t.o.m. solanin innehåller som framgått en myckenhet upplysningar. Det blir<br />

inte heller fråga om något systematiskt bortfall med avseende på de sökkategorier som<br />

nämnts tidigare. Det rådande förhållandet aktualiserar emellertid efterhand också frågan<br />

om SAOB:s tekniska produktionssätt. Den rationaliseringsmöjlighet som i första hand anmäler<br />

sig är inkodning och korrigering av redaktörernas lappmanuskript på textskärm.<br />

Detta innebär samtidigt "sättning" och ger sålunda direkt underlag för tryckning. Eftersom<br />

materialet på detta sätt skulle bli tillgängligt i maskinläsbar form, kunde det också<br />

successivt infogas i databasen.<br />

Som databas kan SAOB användas för flera nya syften. Den kan för det första hållas tillgänglig<br />

för forskningen inom olika områden – nationellt och internationellt – för att ge<br />

<strong>svar</strong> på frågor av många olika slag enligt ovan. Varje sökbar kategori kan betraktas som<br />

en ny ingång.<br />

Den kan för det andra tillhandahållas som (kommersiellt tillgänglig) databas för sökning<br />

via terminal på företag eller hos myndigheter respektive via hem-TV genom de nya<br />

medier som nu utvecklas. Att abonnera på databasen kan för många te sig mer lockande<br />

än att köpa boksviten.<br />

För det tredje kan nya publikationer presenteras. Exempel på sådana kan vara en kronologiskt<br />

ordnad <strong>ordbok</strong> med äldsta belägg som sorteringsgrund, ett index över en periods<br />

ordskatt, t.ex. 1600-talets, och en sammanställning av lånord med långivande språk som<br />

indelningsprincip.<br />

För det fjärde kan bearbetningar göras som främjar det fortsatta arbetet vid <strong>ordbok</strong>sredaktionen.<br />

Ett exempel är en baklängeslista över uppslagsorden. Ordbokschefen har förklarat<br />

sig intresserad av en sådan.<br />

För det femte är databasen ett utomordentligt fängslande objekt för lingvistisk forskning.<br />

Undersökningar kan göras av såväl formella som innehållsliga kategorier liksom av<br />

kombinationer av kategorier. I synnerhet vill jag trycka på möjligheten att studera den<br />

svenska vokabulärens semantiska struktur. Som underlag för sådana studier kan olika<br />

slags bearbetningar utföras. En är helt enkelt en framtagning av en konkordans över de<br />

ord i betydelseförklaringarna som inte är formord. En annan, mer avancerad, är algoritmisk<br />

syntaktisk analys av betydelseförklaringarna i syfte att bestämma huvudorden (genus<br />

proximum). Över huvud taget är det viktigt att den utförliga semantiska<br />

informationen i SAOB görs lätt tillgänglig för forskningen.<br />

<strong>Svenska</strong> texter<br />

Ingen <strong>ordbok</strong> över ett levande språk kan täcka dess vokabulär fullständigt. Också SAOB<br />

och Lexikalisk databas är urval. För att få ett ännu fastare grepp om ordbeståndet och för<br />

att skapa underlag för många textuellt inriktade forskningsuppgifter är det därför av stor<br />

vikt att med utrustningens hjälp läsa in texter från den nysvenska epoken (tiden från reformationen<br />

till nu). Detta är fas 2 i projektet.<br />

Avsikten är att läsa in såväl skönlitterära som andra texter enligt en fyllig plan som<br />

senare specificeras. Till texterna utarbetas ordindex. Dessa registrerar samtliga ord i materialen<br />

med källhänvisningar. Vid den närmare utformningen av ordindexen beaktar<br />

man att de 200 vanligaste orden i ett textmaterial <strong>svar</strong>ar för hälften av alla beläggen i texten.<br />

Genom sampling kan den datamängd som gäller formorden således reduceras på olika<br />

sätt vid presentationen av ordindexen. Grundtanken bibehålls: de lexikaliska databaser-


11<br />

na kompletteras med fullständiga index över ordbeståndet i ett stort textmaterial. Också<br />

konkordanser av olika slag kan utarbetas. Svaren på en rad frågor får härigenom ökad säkerhet.<br />

De inlästa texterna låter sig på ett naturligt sätt infogas i Logotekets text- och ordbank.<br />

Detta serviceorgan vid institutionen har kortfattat beskrivits i det föregående.<br />

Den optiska textinläsningen ger så stora material, att vissa datalingvistiska forskningsuppgifter<br />

särskilt framhävs. Det finns anledning att antyda tre av dessa. En av dem<br />

gäller utveckling av metodiken för effektiv lagring av text.<br />

Texten kan naturligtvis lagras sekventiellt, ord för ord i den ordning inläsningen ger.<br />

En sådan lagringsform är användbar för åtskilliga syften. Den kan modifieras genom olika<br />

slag av komprimering, vilket dock fordrar uppackning vid vissa tillämpningar.<br />

Ett fascinerande alternativ är att lagra texten i form av ett länkat nätverk. I detta fall<br />

lagras varje förekommande ordform endast en gång. Genom pekare anges orden i kontexten,<br />

föregående och efterföljande ord i alfabetisk ordning och i frekvensordning m.m.<br />

Nätverket innehåller alltså samtidigt texten själv, alfabetiskt ordindex, konkordans, frekvenslista<br />

m.m. Ändringar i texten medför automatiskt ändringar i ordindex, konkordans<br />

osv.<br />

En annan forskningsuppgift som blir av stor betydelse är algoritmisk analys av löpande<br />

text. Olika slag av syntaktisk analys (s.k. parsing) har prövats på många håll med varierande<br />

resultat. Den nyss nämnda formen för lagring av text synes öppna nya möjligheter.<br />

<strong>Om</strong> textanalysen baseras på ett länkat nätverk, har programmet samtidigt tillgång till<br />

syntagmatisk (kontextuell) och paradigmatisk (gällande alla belägg på samma ordform)<br />

information. Detta i kombination med de kraftfulla lexikaliska databaserna ger den algoritmiska<br />

textanalysen mycket intressanta förutsättningar.<br />

Den sista av de tre forskningsuppgifter jag vill peka på gäller stavning<strong>svar</strong>iationen i<br />

texterna. Den är ju stor i tidigare århundradens texter. Den rymmer emellertid en hel del<br />

regulariteter som kan utnyttjas för att bland annat sammanföra ordformer i ordindexen.<br />

Också detta kräver naturligtvis ett utvecklingsarbete.<br />

* * *<br />

<strong>Svenska</strong> Akademien beslöt att <strong>svar</strong>a för personalkostnaderna, och medel till inköp av läsutrustningen<br />

ställdes till förfogande av Knut och Alice Wallenbergs Stiftelse.


13<br />

Rudolf Rydstedt<br />

Inläsningen<br />

En av de bärande tankarna bakom OSA-projektet var att introduktionen av optisk läsning<br />

(OCR-teknik) gjorde det realistiskt att göra om SAOB till en lexikalisk databas (jämför<br />

“OSA Ett datalingvistiskt projekt” på sidan 7). Det som gjorde den optiska läsningen tilltalande<br />

var att den framstod som ett ekonomiskt mycket fördelaktigt alternativ till manuell<br />

inkodning. De praktiska prov som utfördes i samband med upphandlingen av läsare var<br />

också lovande: maskinen markerade osäker läsning en gång per 200 tecken och korrigering<br />

behövdes en gång per 2.000 tecken. Läshastigheten var 20 tecken per sekund. År 1982<br />

omfattade SAOB närmare 200.000.000 tecken. Med 25 timmars effektiv drift per vecka<br />

skulle därmed inläsningen totalt kräva 111 veckors arbete, i storleksordningen tre år. Det<br />

praktiska arbetet kom igång våren 1983, men inläsningen tog inte slut 1986 utan tio år<br />

senare, i januari 1996. Utan några jämförelser i övrigt, är det lätt att notera en förlängning<br />

med ungefär samma faktor som den framställandet av själva <strong>ordbok</strong>en har genomgått.<br />

Den yttersta orsaken till att inläsningen kom att ta betydligt längre tid än förväntat<br />

var att utrustningen fungerade sämre än vad proven före upphandlingen hade givit anledning<br />

att förmoda. Det visade sig snart vara nödvändigt med ett omfattande korrekturarbete<br />

för att det inlästa materialet skulle kunna användas som underlag för vidare<br />

bearbetningar. Till en början utfördes både inläsning och korrektur internt inom projektet.<br />

Med tiden skedde dock en övergång till att utnyttja externa leverantörer i stället.<br />

Dessa åtog sig nämligen att leverera materialet till mycket låg kostnad mot att de kunde<br />

använda SAOB som en s.k. ”strumpsticka”, ett lägre prioriterat arbete som används för<br />

att jämna ut beläggningen. Fördelen för projektets del var att kostnaden blev lägre än om<br />

inläsning och korrektur hade skett i egen regi. Nackdelen var att möjligheterna att förutse<br />

precis när det inlästa materialet skulle komma att levereras minskade. Det som gjorde att<br />

en inläsning med låg intensitet under längre tid var rimlig var att det inledande arbetet<br />

med att fånga SAOB:s struktur (diskuteras i “SGML-taggning av SAOB” på sidan 15 och<br />

framåt) utfördes med en så begränsad personalinsats (under tre heltidsekvivalenter) att<br />

ett lägre tempot i materialleverenserna aldrig behövde bli en faktiskt begränsande faktor.<br />

En naturlig fråga är vilka implikationer som erfarenheterna från OSA-projektet har för<br />

datafångsten i andra projekt. En viktig erfarenhet är att det inte går att ge ett enkelt och<br />

generellt giltigt <strong>svar</strong> på frågan om det lönar sig med optisk läsning eller inte. Till en del<br />

beror det på att den allmänna tekniska utvecklingen gör att den optiska läsningen med<br />

tiden har blivit billigare och säkrare. Den största skillnaden mellan idag och början av 80-<br />

talet ligger dock i sänkta kostnader för utrustningen, inte i höjd läskvalitetet. Detta är<br />

olyckligt med tanke på projekt där stora mängder text skall fångas då kostnaden för utrustning<br />

spelar ganska liten roll för totalkostnaden i dessa jämfört med läskvaliteten och<br />

den därav beroende kostnaden för efterkorrigeringar. Däremot är naturligtvis låg initialkostnad<br />

väsentlig i projekt där små textmängder skall fångas. En tumregel kan vara att<br />

man bör ha starka skäl för att inte undersöka hur väl optisk läsning fungerar om den text<br />

som skall fångas är mer än något dussin sidor lång. Men det är inte bara den optiska läsningen<br />

som har utvecklats sedan 80-talets början. En väsentlig faktor är att även verktygen<br />

för manuell inkodning har genomgått en betydande utveckling. Det är tankeväckande<br />

att persondatorn var ny och föga spridd när OSA-projektet inleddes. En indirekt konsekvens<br />

av det var att inkodning i tredje världen inte förekom i nämnvärd omfattning vid<br />

den tiden. Idag är manuell inkodning i låglöneländer en viktig konkurrent till optisk inläsning.


14<br />

Nu skall inte skillnanden mellan optisk läsning och manuell inkodning övervärderas.<br />

Oberoende av hur texten fångas så måste den genomgå en efterföljande bearbetning för<br />

att nå acceptabel kvalitet: både optiska läsare och mänskliga inkodare gör fel. Detta leder<br />

t.ex. till att det ofta är mindre viktigt hur många fel det finns i den fångade texten jämfört<br />

med hur lätta dessa fel är att identifiera och rätta till. Det finns naturligtvis ett samband<br />

i det att en text med mycket fel normalt kräver mer arbete för att bli rimligt korrekt än en<br />

med få fel, men det finns många subtila faktorer som påverkar hur tung korrekturprocessen<br />

blir. Så är en text som i väsentlig grad består av fasta formler betydligt mera tillgänglig<br />

för maskinella korrektioner än en mera varierad. I fallet med SAOB råder det mycket<br />

stora skillnader mellan olika delar av texten. Bruklighetsangivelserna är t.ex. normalt<br />

rena formler. Detta gör det lätt att säkert göra rättelser rent maskinellt: står det ”rnindrc<br />

br.” är det lätt att ändra till ”mindre br.” Motsatt förhållande gäller för språkproven. Dessa<br />

har en variation inte minst i fråga om stavningen som gör att det endast undantagsvis går<br />

att utföra korrektioner säkert maskinellt. En poäng är dock att det även här är de typiska<br />

felen vid optisk läsning som är lättast att justera säkert maskinellt: en människa som skriver<br />

av ”accijsen” fel skriver kanske ”accisen”, maskinen skriver snarare ”accij8en”. Det senare<br />

ser värre ut, men det är lätt att lägga märke till.<br />

För att summera: OSA-projektets erfarenheter av optisk inläsning är inte entydligt positiva,<br />

men de är tillräckligt goda för att optisk inläsning skall framstå som ett alternativ<br />

värt att överväga även vid arbete med tekniskt mindre lätthanterlig text. Inte minst har<br />

det visat sig att de typiska fel som optiska läsare gör ofta är betydligt lättare att rätta till<br />

under det efterföljande korrekturarbetet än de fel som en mänsklig inkodare skulle göra i<br />

mot<strong>svar</strong>ande situation.


15<br />

Yvonne Cederholm<br />

SGML-taggning av SAOB<br />

I detta avsnitt beskrivs hur den optiskt inlästa texten översätts till SGML-format 1 , där<br />

<strong>ordbok</strong>ens innehållsliga struktur taggas. Målet är att SAOB efter taggningsarbetet skall<br />

kunna användas som en lexikalisk databas, där man kan göra komplexa sökningar som<br />

t.ex. "vilka ord lånades in från engelskan under perioden 1700–1750".<br />

Taggningen gör tolkningen av texten explicit. Den implicita information, som i den<br />

tryckta <strong>ordbok</strong>en signaleras med hjälp av typografin och lätt kan tolkas av en mänsklig<br />

användare, blir genom taggningen också maskinellt sökbar. SGML-taggarna kommer naturligtvis<br />

inte att visas för den mänsklige läsaren, utan varje informationskategori associeras<br />

då med en viss typografi. Typografin behöver inte fastställas en gång för alla. Man<br />

kan välja utformning beroende på vilken läsare man riktar sig till och exempelvis ge <strong>ordbok</strong>en<br />

en mer pedagogisk utformning med utförliga förklaringar, eftersom man inte behöver<br />

ta hänsyn till utrymmet på samma sätt som i tryckta media. Detta avsnitt beskriver<br />

dock endast SGML-taggningen.<br />

Följande exempel får belysa taggningsarbetet. Enligt en vanlig lexikografisk konvention<br />

markeras lexikonartiklars betydelseindelning med siffror. Siffrorna står oftast också<br />

i fetstil för att indelningen skall framgå tydligt. Här följer ett utsnitt ut SAOB-artikeln<br />

champagne, som beskriver sammansättningen champagneglas. Vi ser att i den första versionen<br />

är sammansättningens två betydelser markerade med siffror i fetstil som i en<br />

tryckt <strong>ordbok</strong>. I den andra har vi istället satt in taggen .<br />

— -GLAS -2 1) för drickande av champagne särsk.<br />

afsedt vinglas; vanl. antingen högt o. smalt l.<br />

lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade<br />

champagneglasen äro de bästa. HAG-<br />

DAL Kok. 1130 (1879). LUNDIN G. Sthm 147 (1880).<br />

KALLSTENIUS Hush. 184 (1896). 2) (i sht best., föga<br />

br.) med champagne fylldt glas. Det är med den första<br />

— -GLAS -2 för drickande av champagne särsk.<br />

afsedt vinglas; vanl. antingen högt o. smalt l.<br />

lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade<br />

champagneglasen äro de bästa. HAG-<br />

DAL Kok. 1130 (1879). LUNDIN G. Sthm 147 (1880).<br />

KALLSTENIUS Hush. 184 (1896). (i sht best., föga<br />

br.) med champagne fylldt glas. Det är med den första<br />

Den första versionen kan enkelt tolkas av en mänsklig användare. Ett dator som skall<br />

söka i <strong>ordbok</strong>en kan däremot inte "förstå" att just dessa siffror i fetstil markerar en betydelseindelning.<br />

För att programmet skall kunna skilja på dessa siffror och andra siffror i<br />

fetstil i <strong>ordbok</strong>en, måste man lägga till information i form av taggar som gör att programmet<br />

tolkar det som en betydelseindelning. I exemplet ovan lade vi till taggen <br />

1.SGML är en internationell standard som finns beskriven i ISO 8879: Information processing – Text and<br />

office systems – Standard Generalized Markup Language (SGML), Geneva 1986. De som inte är bekanta med<br />

SGML rekommenderas att läsa t.ex An introduction to SGML av Benoît Marchal som finns tillgänglig på<br />

Internet under adressen http://www.brainlink.com/~ben/sgml/ eller kapitel 2 i Burnard &<br />

Sperberg-McQueen Guidelines for Electronic Text Encoding and Interchange (TEI P3) som också ger<br />

en allmän introduktion till SGML.


16<br />

som inleder betydelsemoment. Taggen har ett också ett attribut n, som anger betydelsens<br />

ordningsnummer. På samma sätt markeras alla andra informationskategorier i <strong>ordbok</strong>en.<br />

Bakgrund och förutsättningar för taggningsarbetet<br />

SAOB i sin tryckta version är satt i åtta olika stilar, men OCR-programmet känner endast<br />

igen normalstil, fetstil och kursiv. (Alla exempel från OSA-materialet i denna rapport återges<br />

också med dessa tre stilar.)<br />

Normalstil, fetstil och kursiv och andra typografiska markörer, som exempelvis parenteser,<br />

komman och punkter, utgör de viktigaste hållpunkterna när man skall hitta gränserna<br />

mellan de olika informationskategorierna. Huvuddelen av taggningen görs<br />

automatiskt med efterföljande manuella kontroller. Viss svåridentifierad information<br />

måste dock taggas helt manuellt. Eftersom taggningsarbetet ännu inte är slutfört redovisar<br />

vi här också en del problem som vi ännu inte har tagit ställning till.<br />

Taggningsarbetet grundas på de beskrivningar av artikelstrukturen som finns i litteraturen<br />

om SAOB. Främst på de två handledningar som har utarbetats för redaktörerna<br />

(Kock 1904; Jonsson 1993), men också på annan litteratur om SAOB (Ekbo 1971; Lundbladh<br />

1992 etc.). All variation i SAOB:s artikelstruktur är naturligtvis inte dokumenterad<br />

i dessa beskrivningar, eftersom de haft andra syften – handledningarna utgör riktlinjer<br />

för redaktörernas arbete och den övriga litteraturen har i första hand ett pedagogiskt syfte.<br />

Taggningsarbetet har därför till stor del haft karaktären av ett utgrävningsarbete där<br />

vi undan för undan frilagt olika strukturella lager i SAOB.<br />

Ordböcker har generellt en mycket komplex struktur som text betraktat och SAOB är<br />

naturligtvis ett extremfall bland ordböcker. Artiklarnas längd varierar mellan några få rader<br />

och upp emot hundra spalter. En artikel kan omfatta hundratals olika betydelsenyanser<br />

och varje betydelse kan exemplifieras med flera språkprov. Den enorma<br />

detaljrikedomen gör strukturen mycket svåröverskådlig och det är omöjligt att på förhand<br />

definiera en grammatik som beskriver hela SAOB:s struktur i detalj. Själva struktureringsarbetet<br />

blir ett sätt att ta fram denna okända grammatik. Kazman (1986, s. 16–17)<br />

som arbetat med struktureringen av The Oxford English Dictionary säger att uppgiften<br />

att strukturera en sådan stor <strong>ordbok</strong> liknar det problem som inom mönsterigenkänningsområdet<br />

kallats "The Grammatical Inference Problem". Problemet beskriver han enligt<br />

följande. Input består av en mängd strängar som antingen accepteras eller förkastas av en<br />

okänd grammatik. Man tillämpar någon slags procedur för skilja acceptabla strängar från<br />

icke-acceptabla och genom detta får man gradvis kunskap om hur den okända grammatiken<br />

ser ut. Ett liknande uppgift, skriver Kazman, är att försöka skriva en grammatik för<br />

ett dött språk.<br />

Då de första delarna av <strong>ordbok</strong>en publicerades var principerna för <strong>ordbok</strong>ens struktur<br />

inte fastlagda. En handledning för redaktörerna, som redigerades av Ernst Kock, färdigställdes<br />

först år 1904. Då hade hela bokstaven A och stora delar av C redan publicerats.<br />

Det innebär att det finns många strukturella avvikelser i de första delarna jämfört med de<br />

senare delarna. Exempelvis finns inga avledningsramsor på bokstaven A, utan avledningarna<br />

utgör där egna huvudartiklar. Även i de senare delarna förekommer det avvikelser i<br />

strukturen, vilka – även om de inte innebär någon större svårighet för en mänsklig läsare<br />

– komplicerar struktureringsarbetet inom projektet. SAOB anses dock ha en relativt sett<br />

stringent struktur och genomförd typografi. Sture Hast (Svensson et al. 1993, s. 55–84)<br />

har gjort en jämförelse mellan de fyra stora germanska ordböckerna, The Oxford English<br />

Dictionary (OED), Grimms Deutsches Wörterbuch, Woordenboek der Nederlandsche Taal<br />

(WNT) och SAOB. Han kommer fram till att OED och SAOB har en mera stringent och<br />

lingvistisk uppläggning än de andra två. OED är dock, enligt Sture Hast, den mest enhetligt<br />

utformade <strong>ordbok</strong>en eftersom det i SAOB finns stora diskrepanser i framställningen<br />

mellan olika redaktörer och tidsperioder. Att OED är den mest enhetligt utformade ordbo-


17<br />

ken beror antagligen på att James Murray själv skrev eller an<strong>svar</strong>ade för nästan hälften<br />

av alla artiklar i <strong>ordbok</strong>en.<br />

Det finns naturligtvis ingen möjlighet att arbeta om strukturen i de första delarna inom<br />

ramen för OSA-projektet. Den lexikaliska modell vi utarbetar måste vara generös och tilllåta<br />

en stor variation i såväl makrostruktur som mikrostruktur. Den måste bygga på den<br />

stramare strukturen i de senare banden, men samtidigt rymma de första bandens fria artikelstruktur.<br />

En ovan användare måste kunna söka i hela <strong>ordbok</strong>en utan att känna till<br />

några detaljer om variationen i artikelstrukturen, eftersom det främsta syftet med projektet<br />

ändå är att göra <strong>ordbok</strong>en mer lättillgänglig.<br />

Uppläggning av taggningsarbetet<br />

Vi har delat in taggningsarbetet i olika faser. Den första fasen är en identifieringsfas där<br />

gränserna mellan de olika informationskategorierna lokaliseras och de typografiska koderna<br />

översätts till SGML-taggar. Det är i denna fas vi nu befinner oss och det är huvudsakligen<br />

identifieringsfasen som beskrivs i detta avsnitt. Denna fas är också den mest<br />

arbetskrävande i projektet.<br />

I nästa fas byggs de enskilda elementen samman till en komplex SGML-struktur och<br />

grammatiken över <strong>ordbok</strong>ens struktur fastställs i en s.k. document type definition (DTD).<br />

Våra planer är att så långt som möjligt följa den DTD för tryckta lexikon som rekommenderas<br />

av Text Encoding Initiative (TEI P3 1984: 321–370). I TEI P3 pekar man på den stora<br />

strukturella variation som finns i ordböcker. På grund av detta har man valt att<br />

definiera två modeller. En modell med en fast struktur vilken skall täcka in de vanligaste<br />

typerna av ordböcker samt en alternativ modell som utgår från samma element, men som<br />

medger att man kan kombinera alla element relativt fritt.<br />

... because the structure of dictionary entries varies widely both among and within<br />

dictionaries, the simplest way for an encoding scheme to accommodate the entire range<br />

of structures actually encountered is to allow virtually any element to appear virtually<br />

anywhere in a dictionary entry.<br />

(TEI P3 1994, s. 321)<br />

Vi bör kunna använda oss av den friare modellen som utgångspunkt, men vissa omfattande<br />

tillägg måste ändå göras för att DTD:n skall täcka SAOB:s komplexa struktur. Några<br />

av komplikationerna nämns nedan.<br />

I den sista fasen av taggningsarbetet kommer vi att lägga till viss information till texten.<br />

Vi kommer att normalisera stavningen av uppslagsorden. Källhänvisningarna kommer<br />

också att normaliseras så att de kan länkas till en bibliografisk databas. Vi kommer<br />

att undvika att ändra i själva texten och istället lägga de normaliserade formerna i SGMLtaggarna.<br />

Alla korsreferenser och hänvisningar till de behandlade orden skall också formaliseras<br />

i denna fas, så att man kan kontrollera hela systemet av korsreferenser automatiskt.<br />

Vi kommer inte att här diskutera vilket sökspråk eller söksystem som skall användas<br />

för SAOB när taggningsarbetet är avslutat. PAT, det system som används för att söka i<br />

OED (se t.ex. Salminen 1994), kan hantera sökningar i stora SGML-strukturerade dokument<br />

och verkar vara det bästa systemet i dagsläget. Tyvärr finns inte idag något fullständigt<br />

frågespråk som kan hantera SGML. Detta beror på att SGML från början inte alls var<br />

tänkt att vara ett databasformat, utan utformades för att fungera som ett utbytesformat<br />

mellan olika ordbehandlingsformat. Eftersom antalet SGML-kodade dokument ökat kraftigt<br />

de senaste åren har det uppstått ett behov av att kunna söka i och uppdatera dessa<br />

dokument. Det finns flera forskningsprojekt som arbetar på att ta fram en väldefinierad<br />

semantik för SGML och att utveckla ett fullständigt frågespråk som innebär att man kan<br />

söka i och ändra i dokumenten på ett väldefinierat sätt. Raymond och Tompa (1995) ger


18<br />

en översikt av problemställningarna i From Data Representation to Data Model: Meta-Semantic<br />

Issues in the Evolution of SGML. En modell som Blake et al. (1994) har arbetat på<br />

är att utvidga SQL till att också kunna hantera SGML.<br />

Vi valde till en början att låta elementens namn ligga nära SAOB:s egen terminologi.<br />

Efter att TEI P3 publicerades 1994 har vi dock lånat många elementnamn därifrån, speciellt<br />

för de formella informationskategorierna. Elementnamnen utgör därför för närvarande<br />

en oskön blandning av svenska och engelska, men vi har valt att låta det vara så<br />

tills vi börjar med nästa fas av taggningsarbetet.<br />

Taggningsarbetet beskrivs nedan med utgångspunkt från respektive informationskategori.<br />

Den allmänna beskrivningen av informationskategorierna bygger på Lundbladhs<br />

Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> från 1992 och jag har också försökt hålla<br />

mig till den terminologi som Lundbladh använder.<br />

Primärstrukturen – SAOB:s skelett<br />

Vi har valt att skilja på två typer av informationskategorier. Den ena typen är de lexikaliska<br />

enheterna i artiklarna, nämligen uppslagsord, sammansättningar, avledningar, särskilda<br />

förbindelser samt betydelsemoment. Den andra typen är information som är knuten<br />

till dessa lexikaliska enheter, antingen på den formella eller semantiska nivån, t.ex. uttal,<br />

ordklass, böjning, etymologi, definitioner och språkprov.<br />

Vår strategi var att först bygga ett strukturellt skelett av de lexikaliska enheterna. Skelettet<br />

kallar vi för primärstrukturen och det utgörs för närvarande av ca 800 000 lexikaliska<br />

enheter. Här ingår också en del taggar som markerar grupperingar av de lexikaliska<br />

enheterna, t.ex. ramsor.<br />

Förutsättningen för att etablera det strukturella skelettet var att man relativt enkelt<br />

kunde isolera de lexikaliska enheterna maskinellt. Programmen måste sålla ut dessa enheter<br />

och inget annat i texten, enbart på grundval av den typografiska informationen. Svårigheten<br />

var att hitta de mönster som beskrev exakt de lexikaliska enheterna och inget<br />

annat. Den typografiska information som OCR-programmet känner igen var en relativt<br />

mager utgångspunkt för struktureringsarbetet. Mönstren utgjordes av koderna som angav<br />

stilbyte mellan brödstil, kursiv och fetstil, samt andra typografiska markörer som t.ex.<br />

parenteser av olika slag, kolon, semikolon och indrag. Mönstren, som utgör reguljära uttryck,<br />

översattes sedan till SGML-taggar. Implementeringen gjordes i sed och Perl.<br />

Tabell 1: tagguppsättning för primärstrukturen<br />

starttagg sluttagg beskrivning<br />

— artikel<br />

— hänvisning<br />

huvudord (lemma)<br />

— sammansättningsramsa<br />

— sammansättningsartikel<br />

förled i sammansättning<br />

efterled i sammansättning<br />

— avledningsramsa<br />

— avledningsartikel


19<br />

Tabell 1: tagguppsättning för primärstrukturen<br />

starttagg sluttagg beskrivning<br />

avledning<br />

— ramsa med särskilda förbindelser<br />

— artikel för särskild förbindelse<br />

särskild förbindelse – grundord<br />

särskild förbindelse – partikel<br />

— betydelsemoment på 1:a nivån (huvudmoment,<br />

anges i tryck med arabiska siffror)<br />

— betydelsemoment på 2:a nivån (anges i<br />

tryck med gemener)<br />

— betydelsemoment på 3:e nivån (anges i<br />

tryck med grekiska bokstäver)<br />

— betydelsemoment på 4:e nivån (anges i<br />

tryck med grekiska bokstäver kombinerat<br />

med prim-tecken)<br />

— betydelsemoment på 5:e nivån (anges i<br />

tryck med grekiska bokstäver kombinerat<br />

med bis-tecken)<br />

— momentgruppering (syntaktiska kriterier;<br />

anges i tryck med romerska siffror)<br />

— momentgruppering (icke-syntaktiska kriterier;<br />

anges i tryck med versaler)<br />

Det har varit nödvändigt att göra omfattande sorteringar av materialet för att hitta dessa<br />

mönster. För att exemplifiera hur detta kan gå till kan vi återknyta till exemplet med betydelseindelningen<br />

i artikeln champagne ovan. I detta fall skulle man först sortera kontexten<br />

för alla siffror i fetstil i SAOB. Man gör sedan en bedömning om alla siffror är<br />

ordningsnummer i betydelseindelningen. I så fall byter man ut dem mot taggen , o.s.v., som i exemplet ovan. Detta är ett naturligtvis ett starkt förenklat<br />

exempel eftersom det finns miljontals siffror i fetstil i SAOB, vilka förekommer i en<br />

mängd olika funktioner. Mönstren som vi definierar är mycket mer komplicerade, men exemplet<br />

visar på själva tillvägagångssättet. Vi gör omfattande provtaggningar på små partier<br />

från olika delar av <strong>ordbok</strong>en – på grund av den strukturella variationen – innan vi<br />

slutligen taggar hela materialet. Man måste acceptera en viss felprocent på grund av svårigheten<br />

att överblicka strukturen, men den får inte vara större än att felen går att korrigera<br />

manuellt i efterhand. <strong>Om</strong> man taggar 300 000 enheter maskinellt och får med 5 000<br />

andra enheter av misstag, så tar detta lång tid att korrigerera manuellt. Detta kan tyckas<br />

vara en trivial upplysning, men jag vill trycka på att det är <strong>ordbok</strong>ens storlek som karaktäriserar<br />

hela detta projekt och då speciellt svårigheten att överblicka hela materialet.<br />

Makrostrukturen<br />

Det är relativt lätt att hitta gränserna mellan huvudartiklarna i SAOB, eftersom de markeras<br />

typografiskt med ny rad och indrag. Det finns dock en annan typ av artiklar som är<br />

svårare att hitta eftersom uppslagsordet kan stå var som helst på raden, endast åtskilt


20<br />

med ett streck. Uppslagsordet är då besläktat med föregående uppslagsord, se t.ex. piemontesare.<br />

Sammanlagt har cirka 45 000 huvudartiklar identifierats. Artikelgränsen taggas:<br />

<br />

Sammansättningar, avledningar och särskilda förbindelser behandlas normalt i de s.k.<br />

ramsorna. Vissa sammansättningar, avledningar och särskilda förbindelser behandlas<br />

dock av olika skäl i egna huvudartiklar. Det finns då en hänvisning från ordets alfabetiska<br />

plats i ramsan till huvudordet. Förhållandet mellan huvudorden och orden i ramsorna är<br />

komplicerat. Vissa ramsor är exceptionellt långa och ramsan bryts då av andra artiklar. I<br />

artikeln o- bryts sammansättningsramsan odaterad, odaterbar av artikeln odds. Denna<br />

artikel har i sin tur en sammansättningsramsa: oddssiffra, oddstal. Upplagsordet o- återkommer<br />

sedan och sammansättningsramsan fortsätter med odebiterad, odechiffrerad etc.<br />

Ramsan i artikeln o- är sammanflätad med övriga artiklar på detta sätt genom hela bokstaven<br />

O. Denna uppbrutna artikelstruktur har också t.ex. artiklarna för-, före-, i, in, inne,<br />

kring, med, miss-, mot, ned, om, på, re-, sam-, samman och sam-. Den diskontinuerliga artikelstrukturen<br />

är ett bra exempel på SAOB:s strukturella egenheter och varför de standardmodeller<br />

som används inom TEI måste byggas ut.<br />

Artiklarna förses med unika identifierare, för att man skall kunna hantera alla korsreferenser<br />

automatiskt. Identifieraren utgörs oftast enbart av uppslagsordet, som exempelvis:<br />

<br />

<strong>Om</strong> det finns homografer till uppslagsordet utgörs identifieraren av uppslagsordet samt<br />

ordklass och homografnummer, t.ex:<br />

<br />

Vi har dessutom diskuterat olika möjligher att lägga till ınformation om artiklarnas tillkomst.<br />

Man skulle kunna förse artiklarna med de tryckningsdatum, som finns angivna på<br />

varje ark i <strong>ordbok</strong>en. Detta datum är viktigt t.ex. för att precisera vissa bruklighetsangivelser.<br />

Bruklighetsuppgifter, som t.ex. numera mindre brukligt, är helt beroende av när<br />

artikeln skrevs. Vi har också diskuterat möjligheten att förse varje artikel med uppgift om<br />

artikelförfattare, i de fall det är känt. Från och med häfte 52 i band IV anges artikelförfattarna<br />

på pärmarnas insida. Lars Svensson (Svensson et al. 1993, s. 172–194) har dessutom<br />

försökt kartlägga vilka som skrev de osignerade artiklarna i de tidigare banden.<br />

Huvudord<br />

Alla behandlade ord markeras med versaler i fetstil i SAOB. Detta var helt avgörande för<br />

att vi skulle kunna hitta huvudorden, sammansättningarna, avledningarna och de särskilda<br />

förbindelserna.<br />

<strong>Om</strong>kring 40 500 huvudord har identifierats hittills. Huvudorden taggas som exemplet<br />

nedan.<br />

AFSTÅ<br />

Efter att huvudorden taggats gjorde vi en automatisk kontroll av att huvudorden kommer<br />

i alfabetisk ordning. Denna kontroll gjordes för att fånga upp kvarvarande fel från den optiska<br />

inläsningen. I denna kontroll upptäckte vi emellertid också fel i den tryckta <strong>ordbok</strong>en.<br />

1<br />

Stavningen av vissa uppslagsord måste normaliseras, t.ex. stavningen med f istället för<br />

v i ord som af, afstå, afgöra och stavningen med ä istället för e i ord som rägn (se "Den ortografiska<br />

normen i SAOB" på sidan 43 och framåt.). När man normaliserar stavningen av


21<br />

huvudorden bör man enligt min mening undvika att ändra i själva texten, för att minska<br />

risken att förlora väsentlig information. Den normaliserade formen ges istället som ett attribut<br />

till elementet, som i exemplet:<br />

AFSTÅ<br />

Avstavade huvudord är ett annat problem. De måste gås igenom manuellt för att man<br />

skall kunna avgöra vilka som egentligen skall innehålla bindestreck.<br />

Vi har genererat en ordlista över alla huvudord i SAOB. Ordlistan är tillgänglig genom<br />

World Wide Web på Internet. Adressen är http://svenska.gu.se/saob/saobusers.html.<br />

Där finns också en baklängessorterad variant av ordlistan.<br />

Hänvisningar på artikelnivå<br />

Med hänvisningar menas här de uppslagsord som hänvisar till andra huvudartiklar eller<br />

ramsor. Ca 19 000 hänvisningar av denna typ har taggats hittills. Uppslagsorden i hänvisningarna<br />

taggas liksom uppslagsorden i huvudartiklarna med . Hela hänvisningen<br />

taggas som i exemplet:<br />

CZAR, se TSAR.<br />

---<br />

CZAR, se TSAR<br />

Värdet på attributet target mot<strong>svar</strong>as av en identifierare i en huvudartikel. I exemplet<br />

ovan hänvisas till artikeln tsar, som inte är skriven än. Hela härledningssystemet i SAOB<br />

kommer naturligtvis inte att hänga ihop förrän hela <strong>ordbok</strong>en är tryckt. Man bör dock<br />

kunna kontrollera delar av systemet automatiskt. Då kan man också automatiskt generera<br />

listor över hänvisningar till de delar som inte ännu är tryckta. Detta bör underlätta <strong>ordbok</strong>sredaktionens<br />

manuella arbete med hänvisningsregistret.<br />

Betydelsemoment<br />

Den hierarkiska strukturen i betydelsebeskrivningen omfattar fem nivåer. Dessutom<br />

finns två typer av grupperingar på en högre nivå. Momentbeteckningarna anges med versala<br />

bokstäver, romerska siffror, arabiska siffror, gemener, grekiska bokstäver, samt grekiska<br />

bokstäver kombinerat med prim- och bis-tecken. Ungefär 300 000<br />

momentbeteckningar har identifierats hittills och utgör betydelsebeskrivningens skelett.<br />

Taggarna i betydelseträdet redovisas i tabell 1. Det första betydelsemomentet på översta<br />

nivån taggas exempelvis:<br />

<br />

Även betydelsemomenten måste förses med identifierare för att hänvisningssystemet<br />

skall fungera. I SAOB finns exempelvis hänvisningar till betydelsemomenten från sammansättningsramsorna.<br />

De anger till vilken betydelse sammansättningens förled hör.<br />

Man kan här följa samma namngivningsprincip som för uppslagsordens identifierare, med<br />

tillägg för ordningsnummer i betydelseträdet. Identifieraren nedan skall utläsas som uppslagsordet<br />

kram, sbst 1 , betydelsemoment 2.b.<br />

<br />

1.Vid genomgången fann vi en handfull uppslagsord på varje bokstav som inte följde<br />

alfabetiseringen, se t.ex. gejser som placerats före geisha. Vi upptäckte också ett märkligt tryckfel.<br />

Uppslagsordet kläder (spalt K 1476) är feltryckt, men endast i vissa exemplar där det står klader.<br />

Alla exemplar är dock tryckta samma datum.


22<br />

När taggningsarbetet är klart kommer man att kunna ta fram intressant statistik över betydelsehierarkiernas<br />

djup och omfång, vilket bör visa på hur betydelseanalyserna har varierat<br />

genom åren. Enligt Sigurd (Allén et al. 1986, s. 183) finns det fler betydelsevarianter<br />

i de senare banden.<br />

Sammansättningar<br />

Sammansättningar behandlas i s.k. sammansättningsramsor. Ramsorna består av underordnade<br />

artiklar, som i stort sett har samma struktur som huvudartiklarna men som oftast<br />

innehåller mycket mindre information. Sammansättningarna kan dock i vissa fall ha<br />

väldigt omfattande betydelseanalyser, se t.ex. ramsorna under artiklarna o- och re. Sammansättningar<br />

med omfattande betydelseanalyser kan i vissa fall stå som egna huvudartiklar.<br />

Det finns då en hänvisning från deras alfabetiska plats i ramsan till huvudordet.<br />

Det är tydligt att kriterierna för huruvida en lexikaliserad sammansättning skall utgöra<br />

en egen huvudartikel eller inte varierar kraftigt genom åren. Ca 14 200 sammansättningsramsor<br />

har taggats hittills. Sammansättningsramsans början taggas:<br />

<br />

Ca 360 000 sammansättningsartiklar har taggats hittills. Sammansättningsartiklarnas<br />

början taggas:<br />

<br />

Sammansättningarnas förled redovisas endast i den första sammansättningsartikeln i<br />

ramsan. Förleden taggas:<br />

SIDEN-<br />

Efterleden i respektive sammansättningsartikel taggas:<br />

-TYG<br />

För att man skall kunna söka på sammansättningarna måste efterleden förses med en expanderad<br />

form, där både förled och efterled finns med:<br />

-TYG<br />

Varianter i sammansättningsfogen redovisas på två olika sätt i SAOB, vilket får konsekvenser<br />

för sökningen. Det ena sättet är att redovisa varianterna i åtskilda sammansättningramsor.<br />

I varje ramsa finns då ett förled och ett antal efterled. Under artikeln salt<br />

finns följande ramsor.<br />

A: SALT-ACCIS, -AG,..., -ÖVERDRAG<br />

B: SALTE-BALJA, -BLOMMA,...,-TUNNA<br />

C: SALTO-LÖSA<br />

Enligt det andra sättet redovisas variationen i samma ramsa. Det finns då flera förled vid<br />

den första sammansättningen i ramsan. Under artikeln saltsyra finns varianterna<br />

saltsyre- och saltsyra-.<br />

SALTSYRE- äv. (i fackspråk) SALTSYRA-AVSÖNDRING<br />

Varje sammansättningsartikel måste då förses med två expanderade former.<br />

<br />

-FABRIK


23<br />

Beskrivningen av sammansättningsramsorna kompliceras av att sammansättningsartiklarna<br />

i sig också kan innehålla sammansättningsramsor. Dessa kallas sekundära sammansättningar,<br />

som t.ex. gängskärningsmaskin som bildats till sammansättningen<br />

gängskärning. Sammansättningsartiklar kan också innehålla avledningsramsor. Det omvända<br />

förhållandet gäller också, d.v.s. avledningsartiklar kan innehålla sammansättningsramsor.<br />

Beskrivningen i ramsorna är alltså också hierarkisk även om vi inte har<br />

belägg för fler än två nivåer.<br />

Vi har tagit fram ordlistor över alla sammansättningar i SAOB och lagt ut dem på Internet.<br />

Sammansättningarna är sorterade på efterled och för varje sammansättning ges<br />

en spalthänvisning.<br />

Särskilda förbindelser<br />

I artiklar som behandlar verb finns ramsor med s.k. särskilda förbindelser, vilket i de flesta<br />

fall är detsamma som partikelverb. Ca 2000 ramsor med särskilda förbindelser har taggats<br />

hittills och ca 9 400 artiklar med särskilda förbindelser.<br />

Ramsans början taggas:<br />

<br />

Varje förbindelseartikel inleds med:<br />

<br />

De särskilda förbindelserna kan omfatta former med upp till tre partiklar, som t.ex. raska<br />

sig i väg eller danka af och an. Grundordet och partiklarna taggas som i exemplet:<br />

KLÄMMA IHOP<br />

DANKA AF OCH AN<br />

Det är mycket vanligt med variantformer av partiklarna, t.ex. klämma ihop l. tillhop l.<br />

hop. Strukturen kan bli ganska snårig eftersom annan information, t.ex. uttals- eller bruklighetsuppgifter,<br />

kan vara insprängd mellan varianterna. Förbindelseartiklar med variantformer<br />

måste förses med expanderade former av samtliga varianter för att man skall<br />

kunna söka på dem, t.ex.<br />

<br />

Carl-Erik Lundbladh (1992) skriver i sin handledning att det finns ett 60-tal olika verbpartiklar<br />

med variantformer, som redovisas i de särskilda förbindelserna. Vi har hittat<br />

sammanlagt drygt 150 olika partiklar i de särskilda förbindelserna. Många av dessa är<br />

dock stavning<strong>svar</strong>ianter. Vi har också hittat belägg på partiklar som enligt Lundbladh<br />

inte skall finnas med i ramsorna. 1<br />

En ordlista över alla särskilda förbindelser finns också tillgänglig på Internet. Förbindelserna<br />

är sorterade på den första partikeln i förbindelsen.<br />

Avledningar<br />

Avledningarna behandlas också i ramsor. Drygt 9 000 avledningsartiklar har identifierats.<br />

Under bokstaven A och C som skrevs innan principerna var fastlagda, finns inga avledningsramsor.<br />

Avledningarna behandlas då i huvudartiklar.<br />

1.dansa baklänges, gå baklänges, rida baklänges, rusa baklänges, rygga baklänges, gripa fatt, hinna<br />

fatt, hitta fatt, hugga fatt, nappa fatt, rida fatt, befalla hem, dimittera hem, eskortera hem, följa hem,<br />

föra hem, gå hem, hitta hem, kalla hem, komma hem, ledsaga hem, runka hem, giva hit, räcka hit


24<br />

Avledningsramsans början taggas:<br />

<br />

Varje avledningsartikel taggas:<br />

<br />

Själva avledningen taggas:<br />

RÄVAKTIG<br />

Synen på vad som utgör sammansättning eller avledning har varierat under åren. Under<br />

bokstäverna A–D behandlas -aktig som efterled i sammansättning, t.ex. buffelaktig. Under<br />

E–P vacklar synen på -aktig. Vissa ord behandlas som avledningar, t.ex. gåsaktig,<br />

medan andra behandlas som sammansättningar, t.ex. hönsaktig. Fr. o.m. bokstaven R behandlas<br />

-aktig konsekvent som avledningsändelse. Vi har inte studerat variationen mer<br />

ingående, men variationen verkar inte vara relaterad till olika betydelser hos -aktig, utan<br />

är möjligen beroende av vilken redaktör som behandlat ordet. 1 När man utarbetar sökrutiner<br />

för SAOB måste man ta hänsyn till den bristande konsekvensen i <strong>ordbok</strong>en och göra<br />

det möjligt att söka bland samtliga behandlade ord. Exemplen ovan torde visa på att det<br />

inte alltid är lätt att avgöra om man skall leta efter ett visst ord bland huvudorden, sammansättningarna<br />

eller avledningarna.<br />

Vi har tagit fram finalalfabetiskt sorterade listor över alla avledningar i SAOB. För varje<br />

avledning anges under vilket huvudord och i vilken spalt den står.<br />

Sekundärstrukturen – kött på benen<br />

Efter att primärstrukturen var etablerad, återstod arbetet med att identifiera de resterande<br />

informationskategorierna och knyta dem till det strukturella skelettet. Med hjälp av<br />

olika sorteringsverktyg kunde högerkontexten för de lexikaliska enheterna analyseras. De<br />

typografiska mönster som var särskilt frekventa framträdde i sorteringen. Mönstren beskrevs<br />

som reguljära uttryck och implementerades i Perl. Vi använde oss i detta läge av<br />

kontextuell information, både av en större kontext och den omedelbara vänsterkontexten.<br />

Den större kontexten utgjordes av en teknisk uppdelning av artiklarna.<br />

• Huvudet (den formella delen) – all text emellan ett huvudord och det första betydelsemomentet<br />

• Betydelsbeskrivningar (den semantiska delen) – all text emellan ett visst betydelsemoment<br />

och nästa betydelsemoment<br />

• Underartiklar – all text emellan en sammansättning, avledning eller särskild förbindelse<br />

och nästa sammansättning, avledning eller särskild förbindelse.<br />

Vissa informationskategorier, som t.ex. definitioner och språkprov, förekommer endast i<br />

betydelsebeskrivningarna eller i underartiklarna, medan andra endast förekommer i huvudet.<br />

Huvudet är den del av SAOB som är svårast att tagga automatiskt. Det är också den<br />

del av artiklarna som är mest obearbetad hittills. De informationskategorier som endast<br />

ingår i huvudet behandlas därför relativt översiktligt här. För en automatisk analys ter<br />

sig huvudet som en härva av enstaka bokstäver, punkter, komman och stilkoder. Huvudet<br />

1.Detta framkom vid tillfället för en disputation i nordiska språk vid Uppsala universitet (Gunvor<br />

Nilsson. Aktig-ord förr och nu. En historisk–semantisk studie av aktig-avledningar i svenskan,<br />

Uppsala univ. 1993), då en sökning gjordes på begäran av opponenten Martin Gellerstam. I grova<br />

drag överensstämde resultatet av sökningen med respondentens manuella excerpering, men vi fann<br />

ett antal ord som inte kommit med i den manuella excerperingen. På grund av vissa tekniska<br />

komplikationer saknades också några aktig-ord i sökningsresultatet, vilka å andra sidan fanns med<br />

i den manuella excerperingen.


25<br />

innehåller uppgifter om uttal, genus, ordklass, böjning, formvarianter och etymologi. Uttalsuppgift<br />

är obligatorisk, såvida inte ordet är dött. Genusuppgift är obligatorisk för substantiv<br />

och ordklassuppgift är obligatorisk för alla andra ordklasser. Formvarianter i den<br />

s.k. formparentesen är optionella uppgifter. De etymologiska uppgifterna är obligatoriska.<br />

För verb ges också information om verbalsubstantiv i huvudet.<br />

Vi började med att tagga betydelsebeskrivningarna och underartiklarna. De är idag relativt<br />

genomarbetade. Enligt vår bedömning är flertalet bruklighetsuppgifter, definitioner<br />

och språkprov i betydelsebeskrivningarna och underartiklarna idag identifierade.<br />

Tabell 2: tagguppsättning för sekundärstrukturen<br />

starttagg sluttagg beskrivning<br />

uttal<br />

genus<br />

ordklass<br />

böjning och formvarianter<br />

etymologi<br />

bruklighet<br />

definition<br />

språkprov<br />

citat<br />

källuppgift – författare<br />

källuppgift – verk<br />

källuppgift – beläggställe<br />

källuppgift – årtal<br />

källuppgift – tidsintervall<br />

källuppgift – kommentar<br />

Uttal<br />

Uttalsuppgifter finns både i huvudet och i betydelsebeskrivningen. I huvudet kommer uttalsuppgifterna<br />

alltid direkt efter uppslagsordet, om inte ordet är dött. Det kan också förekomma<br />

i andra delar av huvudet, vid uppgifter om genus, böjning eller formvarianter. I<br />

betydelsebeskrivningen förekommer uttal endast om uttalet för en viss betydelse avviker<br />

från uttalsuppgiften i huvudet. I ramsorna består uttalsuppgiften endast av siffror som<br />

anger tryck. Uttalsuppgifterna taggas exempelvis:<br />

Mak1iaväl4isk<br />

04<br />

Uttalsinformationen är svårtaggad. Det beror främst på att den innehåller många fel från<br />

den optiska inläsningen – det är många svåra tecken och upphöjda siffror som skall tolkas.<br />

Det är också svårt att korrekturläsa uttalsuppgifterna. Sammanlagt har ca 70 600 uttalsuppgifter<br />

taggats.


26<br />

Artiklar av typen piemontesare (se sidan 19) är komplicerade vad gäller uttalet. Där<br />

kan uttalsuppgiften bygga på föregående artikels uttalsuppgifter, så att endast en del av<br />

uttalet redovisas, se t.ex. regulation och regulativ. Det har sannolikt gjorts för att spara<br />

plats.<br />

Genus<br />

Genusuppgifterna är tämligen svåra att identifiera. De är väldigt komprimerade och kan<br />

lätt förväxlas med andra typer av information. Enstaka bokstäver varvas med punkter och<br />

komma, t.ex. m., f., r., n. och ig., och även med källuppgifter och bruklighetsuppgifter. Vid<br />

taggningsarbetet har vi utgått från de listor över genusförkortningar som finns i handledningarna.<br />

Ca 19 600 genusuppgifter har taggats hittills. Här återstår alltså en hel del arbete.<br />

Ordklass<br />

Ordklassuppgifterna består oftast enbart av en förkortning, t.ex. v., adj., adv., interj.<br />

Förkortningarna finns listade i handledningarna. Det är svårt att tagga ordklassuppgifterna<br />

eftersom de lätt förväxlas med samma förkortningar i andra positioner, t.ex. i korshänvisningar<br />

som se BACKA v. För substantiv ges ordklassuppgift endast om det finns<br />

homografer. Då står förkortningen tillsammans med ett homografnummer, som exempelvis<br />

sbst. 1 , sbst. 2 . Ca 13 900 ordklassuppgifter har taggats, enligt nedanstående modell:<br />

adj.<br />

Böjning<br />

Böjninguppgifterna är obligatoriska. De har oftast en relativt stringent form och är därför<br />

lätta att identifiera. I större artiklar finns emellertid källuppgifter och bruklighetsuppgifter<br />

som bryter mönstren. Ca 19 900 böjningsuppgifter har taggats.<br />

best. -en pl. -ar.<br />

Formparentesen<br />

I formparentesen redovisas vissa stavning<strong>svar</strong>ianter och andra formvarianter. Formparentesens<br />

början taggas:<br />

<br />

Exemplet nedan är hämtat från artikeln demolera. Här anges att demoliera är en variantform<br />

till huvudordet och att varianten är belagd i RP och i Sahlstedt 1769 (se källförteckningarna).<br />

demoliera RP, SAHLSTEDT 1769<br />

Källuppgifter i formparentesen är vanligare i de första banden av SAOB. I de senare banden<br />

anges för det mesta endast tidsintervall för beläggen, som i exemplet hämtat från artikeln<br />

rasenhet.<br />

rass- 1619–1698


27<br />

Etymologi<br />

Etymologin utgör slutet på huvudet och är obligatorisk där. Den kan också förekomma i<br />

betydelsebeskrivningen och underartiklarna om dessas etymologi avviker från den i huvudet.<br />

De etymologiska uppgifterna är lätta att identifiera, eftersom de står inom klamrar. I<br />

citaten förekommer också klamrar vid emendation, men de är lätta att skilja ut eftersom<br />

emendationerna endast innehåller enstaka tecken. Etymologierna taggas:<br />

jfr t. magisterschaft<br />

Sammanlagt ca 101 000 etymologier har taggats. Ambitionen är att också tagga språk och<br />

utländska ord i etymologierna, enligt följande exempel.<br />

jfr t. magisterschaft<br />

Rudolf Rydstedt diskuterar etymologierna i SAOB på sidan 67 och framåt.<br />

Bruklighet<br />

Bruklighetsuppgifter kan förekomma nästan var som helst i artikelstrukturen. De är vanligast<br />

i betydelsebeskrivningen, där de kommer omedelbart efter momentbeteckningen.<br />

Vissa bruklighetsuppgifter anges inom parentes, nämligen uppgifter om ordet i fråga har<br />

inskränkt bruklighet i det allmänna språket eller en speciell stilprägel. <strong>Om</strong> ordet är fackspråkligt<br />

anges däremot detta i kursiv. <strong>Om</strong> båda typerna av bruklighetsuppgifter förekommer<br />

samtidigt så kommer fackbeteckningen sist.<br />

Vi har använt oss av listor över vanliga bruklighetsbeteckningar, som har hämtats från<br />

handledningarna. Den ena listan omfattar ett hundratal vanliga stilangivelser och uppgifter<br />

om inskränkt bruklighet i det allmänna språket, exempelvis †, numera mindre br. och<br />

i högre stil.<br />

Dessa bruklighetsangivelser står alla inom parentes i texten. Den andra listan omfattar<br />

över tvåhundra olika fackbeteckningar som också hämtats från handledningarna, t.ex.<br />

adm. (=administrativ term), ekon. (= ekonomisk term), skom. (= skomakarterm). Vi har<br />

dessutom kompletterat denna lista med några ämnesbeteckningar som vi hittat i SAOB,<br />

men som inte finns med i förteckningarna. 1 Bland fackbeteckningarna finns stavning<strong>svar</strong>ianter,<br />

t.ex. väfn. och vävn. (= vävnadsterm). Det finns också andra varianter, som t.ex.<br />

paleont. och paleontol. (= paleontologisk term). Dessa varianter bör så småningom normaliseras.<br />

Vissa fackbeteckningar som inte används längre, t.ex. tonk. (= termer inom tonkonsten),<br />

bör bytas ut mot den nuspråkliga beteckningen, i detta fall mus. (= musikterm).<br />

Sammanlagt har ca 167 000 bruklighetsuppgifter taggats. Av dessa är knappt 40 000<br />

fackbeteckningar. Fackbeteckningarna taggas:<br />

ekon.<br />

Övriga bruklighetsuppgifter taggas:<br />

(numera mindre br.)<br />

Vi har tagit fram listor över alla facktermer. Termerna är sorterade kronologiskt inom respektive<br />

ämnesområde. Även dessa finns tillgängliga på Internet.<br />

1.Ämnesbeteckningar som inte finns med i förteckningarna: bärgv., fyrv., jordbr., kirurg., kyrkl.,<br />

min., repsl., sjökrigsv., smed. och stil.


28<br />

Definitioner<br />

I SAOB läggs stor vikt vid betydelsebeskrivningarna. De är mycket utförliga och det är<br />

inte ovanligt att de omfattar 10 till 20 rader. De består oftast av flera delar, med olika typer<br />

av definitioner och synonymer. Det finns ingen möjlighet att inom projektets ram göra<br />

en analys av definitionerna, utan ambitionen har varit att avgränsa dem mot omedelbart<br />

föregående och efterföljade information. Här följer två exempel på taggade definitioner<br />

hämtade från artiklarna labiolog respektive demimonde.<br />

person som är kunnig l. fackman i labiologi.<br />

benämning på den af urspårade l. komprometterade individer i en<br />

storstad bestående klass af (i sht) kvinnor som söker efterlikna<br />

’societetens’ seder o. uppträdande; numera vanl. (med försämrad klang)<br />

om de fallna (l. åtm. moraliskt tvifvelaktiga) kvinnornas klass,<br />

försåvidt de söka bevara skenet af fint o. elegant uppträdande; stundom<br />

allmännare: de prostituerades klass öfverhufvud; jfr HALF-VÄRLD.<br />

Den stora svårigheten här var att hitta gränsen mellan definitionen och efterföljande information,<br />

d.v.s det första språkprovet. Den optiska inläsningen skiljer inte på de två stilarna<br />

som används för definitioner respektive språkprov. Gränsen mot första språkprovet<br />

har därför taggats manuellt, vilket naturligtvis krävde en stor arbetsinsats.<br />

Språkprov<br />

Språkproven består oftast av ett citat och en källhänvisning. Första belägg anges ofta bara<br />

med en källhänvisning. Detsamma gäller språkprov i ramsorna. Källhänvisningen består<br />

i sin tur av författarnamn eller översättares namn; boktitel eller liknande i förkortad form,<br />

sidangivelse eller annan precisering av textställe; uppgift om vilket år verket är tryckt,<br />

skrivet eller utgivet. När det står två årtal anger det sista årtalet källans utgivningsår och<br />

det första daterar verkets tillkomst så nära som möjligt. Här följer två typiska modeller<br />

för språkproven. De är hämtade från artiklarna räkna och boman.<br />

Hvems lott blef det väl att få räkna blott glada dagar RUNEBERG ESkr.<br />

2: 303 (1852).<br />

Bomans flickor trådde dansen på det punschfläckade bordet. Tidn. f. idr.<br />

1897, s. 352.<br />

Vi var tvungna att skapa ytterligare stödjepunkter för att tagga språkproven. Efter många<br />

provtaggningar hittade vi en relativt säker utgångspunkt. Årtalen i språkprovens källangivelser<br />

står ofta inom parentes, se t.ex. det första språkprovet ovan, vilket gör att man<br />

kan skilja dem från källuppgifter i huvudet.<br />

Först taggades årtalen. Som årtal betraktades alla följder av fyra siffror, där den första<br />

var en etta, den andra en siffra mellan 5 och 9; och den tredje och fjärde en siffra mellan<br />

0 och 9. Vi fick visserligen med en del sifferkombinationer som inte var årtal, t.ex. spaltnummer<br />

mellan 1500 och 1999 i uppslagsverk. Detta kunde dock korrigeras i ett senare<br />

skede. Ca 1 160 600 årtal är taggade hittills. De enkla årtalen taggas:<br />

1521<br />

Det finns många andra typer av tidsangivelser i SAOB, men de beskrivs inte här eftersom<br />

vi följer TEI:s rekommendationer för att tagga datum. En vanlig typ kan nämnas, nämligen<br />

tidsintervall:<br />

1855–1856


29<br />

Efter att vi taggat årtalsupgifterna lade vi in en temporär tagg som markerade en sannolik<br />

gräns mellan två språkprov. Med utgångspunkt från årtalet sökte vi oss så baklänges i<br />

språkproven för att identifiera textställe, titel och författare. Det var relativt enkelt att<br />

särskilja dem eftersom de har olika typografisk karaktär. Ca 634 600 författarnamn har<br />

taggats enligt nedanstående exempel:<br />

STRINDBERG<br />

Ca 457 700 titlar (förkortningar) har taggats enligt nedanstående mönster. Förkortningen<br />

SD(A) i exemplet står för Stockholms dagblad.<br />

SD(A)<br />

Ca 527 100 sidhänvisningar och andra hänvisningar till textställen har taggats. Exempel:<br />

2: 19<br />

nr. 5, s. 89<br />

Övriga tillägg och upplysningar i källhänvisningen taggas:<br />

Bib. 1917: de stilla i landet<br />

skolpojksuttryck fr. Uppsala<br />

Allt text mellan gränstaggen och påföljande källhänvisning betraktas som citat och taggas<br />

(språkprov från artikeln malm):<br />

Pröffue edher sielffue, och grant tilsee hwadh Malm j ären,<br />

fördömda Syndare ären j. PHRYGIUS (1615)<br />

De förklarande tilläggen (redaktionell text) i citaten taggas som exemplet nedan<br />

(från artikeln mallig).<br />

Nu har prästen blivit mallig i pipen, sade.. (målargesällerna)<br />

på sitt språk. WÄGNER (1921)<br />

Vi har vid några tillfällen gjort specialundersökningar på uppdrag av olika forskare och<br />

tagit fram språkprov från individuella författare, t.ex. Hedvig Charlotta Nordenflycht och<br />

Andreas Arvidi, och från enskilda verk som t.ex. Serenius ordböcker (se "OSA-databasen<br />

i praktiken" på sidan 59 och framåt.). Resultaten av dessa undersökningar visar klart på<br />

att det finns en stor variation i källhänvisningarna och att man måste normalisera både<br />

författarnamn och titlar för att kunna söka på dem.Författarnamn kan variera. Laurentius<br />

Petri skrivs i de första delarna L. PETRI, men senare sammanskrivet LPETRI. Det är<br />

också mycket vanligt med varianter på titlarnas förkortningar. Exempelvis förkortas August<br />

Strindbergs Bland franska bönder både som FrBönd., vilket överensstämmer med<br />

källförteckningen och som Franska bönd. Detta är naturligtvis trivialt för en mänsklig läsare,<br />

men ställer till problem vid sökningen. För att komma undan sådana problem bygger<br />

vi upp en biografisk databas över varianter. Databasen bygger på SAOB-redaktionens bibliografiska<br />

databas. Uppbyggaden av databasen beskrivs mer utförligt av Sofie Johansson<br />

Kokkinakis i denna rapport (se “Bibliografisk databas” på sidan 37 och framåt.). Hittills<br />

har vi endast använt databasen för att ta fram listor över författarnamn, vilka har använts<br />

vid den automatiska taggningen. Vi kommer relativt snart att börja kontrollera alla källangivelser<br />

automatiskt mot informationen i databasen. Fördelarna med en sådan kontroll<br />

är följande.<br />

• Man kan göra en automatisk korrekturläsning av titlar och namn på författare.<br />

• Man kan identifiera variantformer av titlarna och författarnas namn. Databasen<br />

uppdateras allt efter som man hittar nya varianter.<br />

• Man kan avgöra om osäkra avstavningar i författarnamn och titlar skall tas bort el-


30<br />

ler inte. Bindestrecket skall t.ex. behållas i STURZEN-BECKER (Sturzen-Becker),<br />

medan det skall tas bort i STURZEN-BECHER (en annan författare vid namn<br />

Sturzenbecher).<br />

• Man kan göra en automatisk korrekturläsning av årtalen i källhänvisningarna. Här<br />

finns dock många stötestenar.<br />

• Man kan tillföra ytterligare information om källorna, eftersom det finns uppgifter<br />

om t.ex. genre och kön i den bibliografiska databasen. Detta kan utnyttjas i sökningen,<br />

så att man t.ex. kan söka efter språkprov från 1750–1800 från enbart kvinnliga författare.<br />

Normaliseringen av titlarna kan göras på olika sätt. Som nämnts ovan anser jag att man<br />

absolut bör undvika att ändra i själva texten. Ett bättre sätt är att lägga den normaliserade<br />

formen i ett attribut, t.ex. enligt nedan. Ett annat alternativ är att först söka i den<br />

bibliografiska databasen, för att sedan söka i själva SAOB-databasen.<br />

Franska bönd.<br />

FrBönd.<br />

Statistik över språkproven<br />

För att visa på vilken typ av undersökningar som blir möjliga när materialet är färdigstrukturerat<br />

gjorde vi en liten undersökning av språkprovens fördelning över tiden. Underlaget<br />

hämtades från bokstaven K och omfattade språkprov från ca 19 000<br />

betydelsemoment. Alla bokstäver i SAOB har dock sina speciella egenskaper och man kan<br />

säkerligen inte dra några långtgående slutsatser utifrån denna delundersökning.<br />

Vi skapade emellertid en databas över detta material, men tog endast med språkprovens<br />

årtal. Vi kunde sedan ta fram ett antal diagram som visade på hur språkproven fördelas<br />

över tiden. Figur 1 visar språkproven fördelade på 25-årsperioder. Här kan man t.ex.<br />

se att antalet språkprov från perioden 1525–1549 är mer än dubbelt så många som under<br />

perioden 1550–1574. Ett påpekande måste göras angående stapeln 1925–1949. Eftersom<br />

de sista delarna av bokstaven K trycktes 1939 så representerar den endast språkprov mellan<br />

1925 och 1939. Stapeln 1950–1974 måste också kommenteras. Då undersökningen<br />

gjordes för några år sedan fanns det fortfarande en del uppgifter som felaktigt taggats som<br />

årtal, t.ex. spaltnummer i uppslagsböcker. Detta har nu rättats till.<br />

Figur 1. Språkprovens fördelning på 25-årsperioder


31<br />

Figur 2 visar ett diagram över hur språkproven från perioden 1900–1924 fördelas på enskilda<br />

år. Här är det möjligt att se hur excerperingen av källor från vissa år dominerar,<br />

t.ex. år 1917. Det är möjligen 1917 års bibelöversättning som ger detta genomslag. Antalet<br />

källor från år 1917 är ca 200, enligt sökningen i den bibliografiska databasen. Som en jämförelse<br />

kan nämnas att det finns 180 källor från 1916 och 234 från 1918. Det verkar alltså<br />

inte finnas något direkt samband mellan antalet språkprov och antalet källor.<br />

Litteratur<br />

Figur 2: Språkprov 1900–1924<br />

Allén, S., Loman, B. & Sigurd, B. 1986. <strong>Svenska</strong> Akademien och svenska språket.<br />

Stockholm.<br />

Berg, D.L., Gonnet, G.H. & Tompa, F.W. 1988. The New Oxford English Dictionary Project<br />

at the University of Waterloo. UW Centre for the New Oxford English Dictionary,<br />

OED-88-01.<br />

Blake, G.E., Consens, M.P., Kilpeläinen, P., Larson P.-Å., Snider, T. & Tompa, F.W. 1994.<br />

Text/Relational Database Management Systems: Harmonizing SQL and SGML. I<br />

Applications of Databases Proc. (ADB-94), Vadstena. pp.<br />

Burnard, L. & Speerberg-MacQueen. C.M. 1994. Guidelines for Electronic Text Encoding<br />

and Interchange (TEI P3).<br />

Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1904. Utarbetad av Ernst<br />

Kock.<br />

Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1993. Utarbetad av Hans<br />

Jonsson.<br />

Kazman, R. 1986. Structuring the text of the Oxford English Dictionary through finite state<br />

transduction, Master Thesis, CS-86-20, University of Waterloo.<br />

Kreyt, J. G. & van der Voort van der Kleij, J. J. 1992–93.Towards a Computerised<br />

Historical Dictionary of Dutch. In Acta Linguistica Hungarica, Vol. 41.<br />

Kring en <strong>ordbok</strong>. Festskrift till Sven Ekbo. Stockholm (1975; Sv. Ak. handl.: Norstedts)<br />

Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. Lund.


32<br />

Malmgren, S.-G. 1988. The O.S.A project: Computerization of the Dictionary of the<br />

Swedish Academy. In Literary and Linguistic Computing 3: 166–8.<br />

Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />

1893 –. Lund.<br />

The Oxford English Dictionary. (OED). 1888–. Oxford.<br />

Rydstedt. R., Creating a Lexical Database from a Dictionary. 1988. In Studies in<br />

Computer-Aided Lexicology. Göteborg.<br />

Salminen, A. & Tompa, F.W. 1994. PAT expressions: an algebra for text search. I Acta<br />

Linguistica Hungarica 41, 1–4 1994, 277–306.<br />

<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> (SAOB). 1896–. Lund.<br />

Svensson, L., Hansson, I. & Ruthström, B. (red.) 1993. Ord och lexikon. Festskrift till Hans<br />

Jonsson. Lund 1993.


33<br />

Lena Rogström<br />

Taggning i praktiken – en personlig reflektion<br />

Efter att i många år ha arbetat med olika delar av OSA-databasens struktur, huvudsakligen<br />

manuellt, har jag haft anledning att reflektera över <strong>ordbok</strong>ens brister och förtjänster.<br />

Den intressanta sidan med att tagga material manuellt är just att man kommer <strong>ordbok</strong>en<br />

så ”in på livet”. När man suttit och korrekturläst, taggat och kontrollerat artiklar i ett<br />

oändligt antal timmar har man skaffat sig ett livslångt förhållande av högst personlig art<br />

till materialet; ett förhållande som oftast givit många insikter av såväl språkvetenskaplig<br />

som allmänbildande karaktär. Emellanåt får man också anledning att fundera över redaktionens<br />

humoristiska ådra när man betänker valet av språkprov. Följande två exempel får<br />

tala för sig själva:<br />

Wårt språk (är) så regelbundit, och så faststelt, at thet kan.. biuda<br />

alla språk..foten. SWEDBERG SabbRo 2: Föret. s. 15 (1712).<br />

Ungdomliga lärjungar inbilla sig .. gärna, att språksvårigheterna lätttare<br />

övervinnas med större ordböcker. PedT. 1943 s. 226<br />

Dessa sidor innehåller en del av de reflektioner jag gjort under taggningen av delar av<br />

OSA-materialet. De är kanske inte alla av vetenskaplig art, men säger förhoppningsvis en<br />

del om hur arbetet går till och en del om SAOB:s kvaliteter.<br />

I OSA-databasen markeras de olika innehållskategorierna unikt för att datorn skall<br />

kunna hitta dem. Till stor del kan detta göras maskinellt (se “SGML-taggning av SAOB”<br />

på sidan 15 och framåt.i denna skrift) men vissa partier måste taggas manuellt. Ett sådant<br />

fall är taggningen av förstabeläggen i språkproven. Dessa är av stort intresse för <strong>ordbok</strong>sanvändaren<br />

och det är väsentligt att de markeras korrekt.<br />

Tyvärr kan de vara svåra att urskilja maskinellt eftersom inläsningsprogrammet inte<br />

gjort någon åtskillnad på stilen och textstorleken för brödtext och autentisk språkprovstext.<br />

I den tryckta texten ser man tydligt vad som är definitioner, redaktionella exempel<br />

och autentiska språkprov, men i den maskinläsbara versionen är detta inte lika<br />

tydligt. Skillnaderna mellan stilarna syns inte direkt på skärmen utan markeras endast<br />

med taggar, dessutom ganska ofta felaktiga sådana. Vid inläsningen har datorn haft problem<br />

med att avgöra var definitioner och redaktionella språkprov slutar och autentiska<br />

språkprov börjar. Av den anledningen måste man gå in och utföra den delen av taggningen<br />

manuellt.<br />

I arbetet med förstabeläggen har jag haft anledning att reflektera över <strong>ordbok</strong>ens<br />

språkprov, som ju utgör själva grundvalen för hela arbetet. Det kan ju tyckas som ett enahanda,<br />

tidskrävande arbete att kontrollera vad som är ett förstabelägg eller inte, inte<br />

minst för att man antas behöva jämföra med den tryckta <strong>ordbok</strong>en varje gång. Så är dock<br />

inte fallet.<br />

Faktum är att när man sitter och taggar förstabeläggen manuellt övar man snabbt upp<br />

en känsla för vad som är ett autentiskt språkprov och vad som är redaktionella exempel<br />

respektive en del av definitionen. Det är ytterst sällan man behöver konsultera den tryckta<br />

texten för att kontrollera sina intuitioner, något som borde borga för <strong>ordbok</strong>ens goda<br />

kvalitet och omdömesgilla urval av typiska språkprov. Sett ur en ”taggares” synvinkel är<br />

det framför allt en fördel att arbetet går snabbare om man främst behöver bry sig om databasens<br />

text.<br />

Vid de tillfällen då man inte kan använda stilen för att avgöra vad som är vad i databasen<br />

kan man ändå på ett förhållandevis enkelt sätt avgöra var det första autentiska beläg-


34<br />

get finns. Är man någorlunda kunnig i svenskans språkliga historia kan man ofta på rent<br />

kronologiska grunder avgöra om ett språkprov är äldre än den redaktionella texten eller<br />

inte, framför allt vad beträffar stavning.<br />

Den språkliga formen<br />

Bokstaven R började tryckas 1956 och har redaktionell text som stavas enligt moderna<br />

principer. Därför är det enkelt att avgöra att följande exempel måste vara autentiskt enbart<br />

på grundval av stavningen.<br />

Man kan döma hvad tillopp och vördnad han vann .., när han, oaktadt<br />

penningars rarhet den tiden, för en enda messa fick siuttio marker ..<br />

silfver. DALIN Hist. 2: 13 (1750).<br />

I belägget förekommer dels stavning med initialt hv för v-ljudet, en stavning som är sällsynt<br />

förekommande i SAOB:s redaktionella text. Principen att stava neutrala perfekt particip<br />

med slutljudande d som dt hade också frångåtts 1956, och stavningen messa för det<br />

moderna mässa hjälper också till att urskilja språkprovet på rent åldersmässiga grunder.<br />

Trooheet bland Legehion är en stoor raritet.GRUBB 121 1665.<br />

I citatet från Grubb används bl.a. dubbeltecknad vokal för långt vokalljud, en stavningsprincip<br />

som försvann redan under 1700-talet. Även stavningen av j-ljudet (hion) är ålderdomlig<br />

och tyder på att texten kommer från 1600–1700-talet.<br />

Innehållet i språkproven<br />

Ofta har man också stor hjälp av själva innehållet i språkproven. Man kan relativt säkert<br />

avgöra vilka språkprov som är autentiska enbart på innehåll och ordval, om de formella<br />

kriterierna inte hjälper till. Följande exempel får illustrera påståendet:<br />

Hans hustru är en riktig raring, med ljust hår och smilgropar.<br />

ÅKERHIELM Webster Fiende 98 1927.<br />

I princip skulle man kanske kunna tänka sig att någon skrev ovanstående citat i akt och<br />

mening att ha det som redaktionellt språkprov i SAOB. Något i ordvalet säger oss dock att<br />

en modern <strong>ordbok</strong>sredaktion förmodligen skulle tveka inför beslutet att använda det som<br />

redaktionell text. Som autentiskt språkprov är det dock utmärkt.<br />

I nedanstående språkprov citeras två personnamn vilka är så pass ovanliga att de förmodligen<br />

inte skulle väljas till ett redaktionellt språkprov.<br />

Tannström är rasande på Agardh. LILJECRONA Riksd-Kul. 166 1840.<br />

I följande exempel är språkprovet också såpass konkret, genom omnämnandet av en speciell<br />

fågelart, att man på ganska goda grunder kan anta att det är autentiskt.<br />

Den raritet bland fåglar som bär namnet dubbelbeckasin. ROSENIUS Jakt<br />

1: 100 (1912).<br />

Sammanhanget språkprov – källa<br />

Ganska ofta kan man direkt koppla innehållet i ett språkprov till en bestämd författare.<br />

När en person som Sven Dufva figurerar i ett språkprov (i detta fall supplerat) kan man<br />

på ganska goda grunder anta att det är Runeberg som är upphovsman, varvid språkprovet<br />

givetvis är autentiskt.<br />

(Sven Duva) Fick vara dräng, der man höll rast, soldat der striden<br />

brann. RUNEBERG 2: 52 1846.


35<br />

Tveksamma fall<br />

Följande exempel visar på sådana fall då jag varit tvungen att konsultera SAOB för att få<br />

<strong>svar</strong> på vad som är redaktionellt eller inte. Man skulle kunna tänka sig att det autentiska<br />

språkprovet endast består av en källhänvisning efter ett redaktionellt språkprov.<br />

Avregistrerat motorfordon. SFS 1940 s. 1733.<br />

Det raskar mot höst. BLOMBERG Landk. 5 1922.<br />

Glänsande, rasslande siden. BENEDICTSSON FruM 59 1887.<br />

Gemensamt för alla språkproven (som är autentiska) är att de är så knapphändiga och allmänt<br />

hållna att det inte finns något speciellt att identifiera dem med vad beträffar stavning,<br />

innehåll etc.<br />

I exemplet nedan förefaller innehållet i språkprovet vara för modernt jämfört med källhänvisningens<br />

ålder. Visserligen fanns det bomber redan under 1700-talet, med frågan är<br />

om de användes för att bomba städer med. Ortografin förefaller dessutom väl modern för<br />

ett autentiskt 1700-talsexempel, vilket det alltså inte är.<br />

Han begravdes under raset, när bomben träffade huset. BERGMAN Jordkl.<br />

1:220 1773.<br />

Följande exempel är ett redaktionellt exempel där kursiven fattas, men av innehållet att<br />

döma skulle man kunna tro att det var autentiskt eftersom det stämmer väl överens med<br />

källhänvisningen.<br />

Skjuta med revolver. KrigVAT 1852, s. 99.<br />

Sammanfattning<br />

Ovanstående redogörelse visar i mångt och mycket på ett tillvägagångssätt som i stora<br />

stycken kan sägas vara intuitivt. Man har en ”känsla” för vad som är rätt eller fel; en känsla<br />

som arbetats upp genom ett långt arbete med <strong>ordbok</strong>en och som man litar på utan att<br />

djupare reflektera över vari den bottnar. Naturligtvis grundas inte taggningsarbetet på<br />

medarbetarnas oreflekterade intuitioner inför materialet, men var och en som arbetat<br />

länge med ett material får till slut en sådan kännedom om det att man ofta kan avgöra på<br />

förhand vad en viss kategori representerar. Och denna kännedom kan utnyttjas som ett<br />

komplement till de mer teoretiska, rationella metoderna som arbetet huvudsakligen bygger<br />

på.<br />

Just det faktum att man utan konkreta hållpunkter kan avgöra vilka språkprov som är<br />

autentiska och inte i SAOB, visar att urvalet av språkprov i <strong>ordbok</strong>en bygger på välgrundade<br />

kriterier som urskiljer ”verkligt” språk gentemot konstruerade exempel.


37<br />

Sofie Johansson Kokkinakis<br />

Bibliografisk databas<br />

Uppbyggnad och koppling till SAOB<br />

Den bibliografiska databas över källförteckningar i SAOB som finns på Språkdata vid Göteborgs<br />

universitet bygger på den bibliografiska databas som Lars Svensson på Ordboken<br />

i Lund har byggt upp. Detta gjordes genom att sätta ihop material från tre olika källförteckningssamlingar,<br />

”Källförteckning av Sigrid von Greyertz”, ”Källförteckning, supplement<br />

1 av Gulli Starfelt-Brown” och ”Källförteckning, supplement 2 av Lars Svensson”. De<br />

representerar bibliografiskt material från tidsperioderna 1939, 1975 och 1975–1990, respektive.<br />

De två första samlingarna är tryckta och har scannats in och den tredje materialsamlingen<br />

som bygger på excerperade texter finns inte i tryckt format utan endast i<br />

databasform.<br />

Sökning i den bibliografiska databasen<br />

För att kunna söka på viss information i databasen har vi i Göteborg utvecklat utsökningsrutiner<br />

vilka kan användas i ett gränssnitt på World Wide Web (WWW). Sökningar kan<br />

göras med hjälp av ”navigeringsverktyg” (eng. browsers) för WWW, som t.ex. Netscape eller<br />

Mosaic. Dessa sökningar kan för närvarande göras på författarefternamn, källtitel, förkortning<br />

av källtitel och sökord. Nu pågår arbete med att skapa sökningsmöjligheter för<br />

kombinerad sökning, där även sökning på tryckår kommer att ingå. Resultaten i sökningarna<br />

varierar något genom att de ibland ger alternativ på resultat till sökningselementet.<br />

Det innebär att vid vissa sökningar får en användare inte det slutgiltiga sökningsresultatet<br />

omedelbart, utan en vidareutvecklig av sökningen. Detta sker t.ex. vid sökning på en<br />

författare. Användaren ska då ange författarens efternamn och resultatet blir en lista med<br />

alla författare med samma efternamn fast med initialer eller förnamn. På det sättet kan<br />

en användare snabbt och lätt hitta rätt författare utan att veta den exakta stavningen av<br />

förnamn eller initialer i förväg. Det slutliga resultatet består av källtitel, sökord, källreferens<br />

och identifieringsnummer.<br />

Nedan följer en närmare beskrivning av de sökningsrutiner som finns i dag:<br />

Författarefternamn, ger en lista på författare med samma efternamn fast med förnamn<br />

eller initialer, och antal verk angivna, för att underlätta en vidare sökning. Användaren<br />

kan då välja den författare som stämmer med beskrivningarna i listan på efternamn.<br />

Källtitel, ger en lista på verk som antingen börjar på ett visst ord eller har en viss titel.<br />

Förkortning i källtitel, ger en lista av verk som i källtiteln innehåller den sökta förkortningen.<br />

Användaren måste ange exakt stavning av förkortning.<br />

Sökord, ger en lista på författare och verk som innehåller det givna sökordet.<br />

I figur 1 visas gränssnittet på WWW till den bibliografiska databasen.


38<br />

Figur 1: Gränssnittet på WWW till den bibliografiska databasen.<br />

Figur 2 och 3 visar exempel på de resultat man kan få i en sökning på författarefternamn.<br />

I en sökning på ”ANDERSSON” visas först en lista på alla ”ANDERSSON” som finns i databasen,<br />

med initialer och antal verk som ges exempel från i SAOB, se figur 2.<br />

Figur 2: Författarefternamn med initialer och antal verk.<br />

Vid ett val av vidare sökning på ”ANDERSSON [CFG]”, visas en närmare beskrivning av<br />

de verk författaren har skrivit, se figur 3.


39<br />

Figur 3: Beskrivning av författare, verk, tryckort och tryckår.<br />

Implementering<br />

Den ursprungliga databasen som utvecklades av Lars Svensson på <strong>ordbok</strong>ens redaktion i<br />

Lund skapades i FileMaker Pro 2.1 under Macintosh operativsystem. Vidareutvecklingen<br />

av databasen har sedan utförts i Göteborg under operativsystemet Unix med ett gränssnitt<br />

på World Wide Web (WWW).<br />

Den bibliografiska databasen innehåller information om författare, källtitel, tryckort,<br />

tryckår, sortering, källförteckning, sökord plus diverse andra typer av information som<br />

har insamlats vid <strong>ordbok</strong>sarbetet i Lund. All information som lagts in i databasen i Lund<br />

har nu överförts till databasen i Göteborg.<br />

Själva bearbetningen och omarbetningen av materialet sker med hjälp av programmeringsspråk<br />

som Perl (Practical Extraction and Report Language) och sed. Materialet lagras<br />

i en delvis modifierad tabellform. Tabellformen bygger på den ursprungliga, men för<br />

att möjliggöra vissa typer av sökningar och dessutom snabba upp sökningarna har tabellerna<br />

kompletterats med annan information. Diverse utsökningsrutiner har sedan skapats<br />

i databasfrågespråket SQL. Ett gränssnitt i Common Gateway Interface (CGI) har<br />

skapats för att användare ska kunna göra sökningar genom WWW.<br />

Kopplingsmöjligheter<br />

De kopplingsmöjligheter som finns är de mellan befintliga författare och verk i artiklar i<br />

SAOB och deras mot<strong>svar</strong>ighet i databasen. Sammankoppling sker med de ovan beskrivna<br />

sökningsrutinerna och det gemensamma gränssnittet på WWW. I Figur 4 visas en SAOBartikel<br />

i gränssnittet på WWW.


40<br />

Figur 4: Artikel ”ADAGIO” från SAOB på WWW.<br />

En länk från en författare kan antingen ge en beskrivning av de verk författaren har producerat<br />

eller en närmare beskrivning av det verk ett aktuellt uppslagsord förekommer i.<br />

En länk från ett verk kan ge en beskrivning av verket som ett visst uppslagsord förekommer<br />

i.<br />

Den information som tidigare varit tillgänglig om författare och verk är ett kortare utdrag<br />

av exempel på författare, verk, tryckort och tryckår.<br />

Problem<br />

I utvecklingen av den bibliografiska databasen i operativsystemet Unix, uppstod diverse<br />

problem. Det var dels ”konsekvens”, dvs. olika sätt att beskriva t.ex. ”tryckort”, i materialet<br />

från databasen i Macintosh-format och det var dels representation av materialet i en<br />

annan form för att underlätta snabb sökning.<br />

Eftersom databasen i Macintosh inte hade använts för att göra samma typer av sökningar<br />

som nu var aktuellt, hade konsekvens i materialet inte tidigare varit ett problem.<br />

Men för att kunna göra sökningar på t.ex. tryckår, blev det nu viktigt att bestämma hur<br />

tryckårsinformationen skulle representeras. Det fanns ibland med annan information om<br />

diverse upplagor som i och för sig är information som måste finnas med i tryckårsinformationen<br />

men inte kan hanteras i en sökning på t.ex. vilka verk som trycktes mellan 1830<br />

och 1840. Denna typ av information är viktig i sökningen. Den ursprungliga informationen<br />

finns fortfarande kvar och det är fortfarande den information som användaren ser i resultatet<br />

av en sökning.<br />

Komplettering av materialet har utförts i databastabellerna som beskriver författare,<br />

tryckår, källtitel, sökord och förkortningar på källtitel. Liknande kompletteringar kan<br />

komma att behövas om fler sökrutiner för att söka i databasen implementeras.


41<br />

Andra kopplingsmöjligheter<br />

Det är möjligt att använda den bibliografiska databasen för att skapa andra kopplingsmöjligheter<br />

än de beskrivna som länkar från artiklar på WWW.<br />

Andra länkar från SAOB-artiklar på WWW kan t.ex. vara:<br />

• länkar från de autentiska språkexempel som finns i artiklarna i SAOB till de verk de är<br />

tagna ur. Detta kan vara intressant om man vill ha en större kontext till det givna exemplet.<br />

En konkordans av uppslagsordet i ett verk kan vara intressant om man vill studera<br />

en enskild författares bruk av ett ord. Se vidare ”Implementering av koppling mellan<br />

gränssnitt och sökrutiner till <strong>Svenska</strong> <strong>Akademiens</strong> Ordbok och exempelkorpus (S. Johansson<br />

Kokkinakis, 1995)”. Detta är en implementering av länkar från språkprov i SAOB till<br />

Strindbergs ”Tjänstekvinnans son”, dels i form av konkordans av fler förekomster av samma<br />

uppslagsord och dels större kontexter till dessa.<br />

• länkar till andra ordböcker för att ge vidare förklaringar av ett uppslagsord, exempelvis<br />

Söderwalls Ordbok öfver svenska medeltidsspråket.<br />

• länkar till fler förekomster av ett uppslagsord i flera samtida verk. Det kan vara intressant<br />

om man vill jämföra olika författares bruk av ett uppslagsord. Detta förutsätter<br />

många verk i elektroniskt läsbart format.<br />

Bibliografi<br />

Kokkinakis Johansson, S. 1995. Implementering av koppling mellan gränssnitt och<br />

sökrutiner till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> och exempelkorpus. Språkdata,<br />

Institutionen för svenska språket. Göteborgs universitet.<br />

Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />

1893 –. Lund.<br />

Söderwall, K. F. 1884–1918. Ordbok öfver svenska medeltidsspråket. Lund.


43<br />

Lena Rogström<br />

Den ortografiska normen i SAOB<br />

Under den tid som SAOB redigerats har svenska språket utvecklats och förändrats, inte<br />

minst vad gäller ortografi och morfologi. För SAOB:s del har framför allt 1906 års stavningsreform<br />

medfört en del förändringar beträffande stavningen i <strong>ordbok</strong>en, eftersom flera<br />

bokstäver både hann påbörjas och tryckas innan reformen slog igenom.<br />

Det är självfallet besvärligt för utgivningen av en omfattande <strong>ordbok</strong> när själva metaspråket<br />

måste anpassas. De ortografiska förändringarna har också ställt OSA-projektet<br />

inför en del principiella och praktiska problem varför vi valt att ägna ett separat avsnitt<br />

åt just stavningsprinciperna i <strong>ordbok</strong>en och databasen. Redogörelsen för språkdebatten<br />

under 1800-talet blir med nödvändighet mycket knapphändig, men den som vill läsa mer<br />

om dessa frågor kan få upplysningar om utförligare beskrivningar i litteraturlistan.<br />

<strong>Svenska</strong> Akademien och stavningen<br />

<strong>Svenska</strong>n, liksom de flesta skriftspråk, har periodvis varit föremål för intensiva debatter<br />

angående stavning, och för svenskans vidkommande verkar diskussionen ha varit ovanligt<br />

livlig under 1700-talet. Gustav Vasas bibel hade sedan 1500-talet haft stort inflytande<br />

på stavningen, men allt eftersom de språkvetenskapliga disciplinerna utvecklades, samtidigt<br />

som språket förändrades, höjdes röster som förespråkade en ortografi bättre lämpad<br />

för det moderna språket. Man kan urskilja två läger – det ena bestående av dem som förespråkade<br />

en ljudenlig stavning, och det andra bestående av dem som snarare ville lägga<br />

etymologiskt släktskap till grund för stavningsprinciperna.<br />

Under slutet av 1600-talet debatterade Urban Hiärne och Jesper Swedberg med en för<br />

oss smått obegriplig intensitet om stavningsfrågor, och under 1700-talet engagerade sig<br />

oerhört många i debatten. 1741 försökte man t.o.m. få Riksdagen att lagstifta om stavningsfrågor<br />

– ett förslag som visar på allvaret i frågan.<br />

Det är också mot bakgrund av denna debatt om språkriktighet, språkvård och språkvetenskap<br />

man skall se instiftandet av <strong>Svenska</strong> Akademien år 1786. <strong>Svenska</strong> Akademien<br />

har alltid haft stort inflytande på språkfrågorna i vårt land och SAOL har status av en normerande<br />

ordlista för svenska språket. Det var också en av <strong>Akademiens</strong> ledamöter som<br />

gjorde en bestående insats för att stabilisera stavningen av svenskan under början av<br />

1800-talet, nämligen Carl Gustaf af Leopold, som 1801 fick gehör för sina ortografiska<br />

principer. Dessa befästes sedan ytterligare genom att Carl Jonas Love Almqvist lade dem<br />

till grund för sin ”Svensk Rättstafnings-lära” 1829.<br />

1889 utkom den sjätte upplagan av SAOL, i stora drag utformad av Esias Tegnér d.y.,<br />

och denna upplaga innehöll en stor mängd ortografiska förändringar. Året efter beslöts att<br />

SAOL skulle upphöjas till norm i stavningsfrågor.<br />

Den ortografiska debatten fortsatte dock genom hela seklet och resulterade slutligen i<br />

1906 års stavningsreform då svenska språket antog den ortografiska norm som i stort sett<br />

gäller än idag.<br />

1906 års stavningsreform<br />

De viktigaste punkterna i 1906 års stavningsreform omfattar stavningen av v-ljudet, t-ljudet<br />

och ä-ljudet.


44<br />

V-ljudet kunde vid denna tid stavas antingen med f (skref, afstanna), fv (hafva) eller hv<br />

(hvilken). Efter reformen kom v-ljudet att stavas uteslutande med v (skrev, avstanna, hava,<br />

vilken).<br />

En annan besvärlighet i svensk ortografi var stavningen av t-ljudet i vissa verbformer<br />

och adverb. Principen hade vacklat genom tiderna men kan i huvudsak förklaras med att<br />

supinum stavades med t (han har gått) medan perfekt particip i neutrum stavades med dt<br />

(pappret är användt). T-avledda adverb, (slå någon hårdt (av adjektivet hård)), stavades<br />

med dt liksom en del andra ord, t.ex. neutrumformen rödt av röd. 1906 års stavningsreform<br />

förändrade denna stavning till att enbart omfatta tt respektive t (gått, använt, hårt,<br />

rött).<br />

Ytterligare en ortografisk svårighet, som fortfarande kvarstår, var stavningen av ä-ljudet,<br />

som ju i svenskan emellanåt stavas med e (berg) och i andra fall med ä (bälg), trots att<br />

vokalljudet i båda orden uttalas likadant. Den komplicerade stavningen av svenskans ä-<br />

ljud (och å-ljud) kan förklaras med språkhistoriska orsaker och bottnar i att ljud som från<br />

början var olika med tiden föll samman. 1906 års stavningsreform innebar att stavningen<br />

av ä-ljudet i flera fall återgick till att stavas med e i stället för ä som varit fallet i bl.a. 1889<br />

års SAOL.<br />

SAOB och stavningen<br />

När 1906 års stavningsreform genomfördes hade SAOB publicerat bokstaven A och C och<br />

påbörjat ett flertal andra bokstäver, bl.a. den omfattande bokstaven B. För att slippa byta<br />

stavningsprinciper mitt i de påbörjade bokstäverna började man tillämpa nystavningen<br />

först med bokstaven E, 1917. Till viss del bibehölls dock den äldre stavningen t.o.m. 1923<br />

i en del kompletterande häften för äldre bokstäver. Faktum är att man kan hitta vissa ord<br />

stavade på gammalt vis ända fram till bokstaven L (1937) bl.a. hvilka, hvarandra, användt.<br />

Det finns dock inga stickord med initialt hv, och ytterst få med dt, undantaget de<br />

ord som har med hand att göra t.ex. HANDTEL och HANDTVÄRK (tryckt 1930).<br />

Vad beträffar stavningen av kort e- och ä-ljud skiljer sig SAOB från gängse norm genom<br />

att ett flertal ord stavas med ä, där vi skulle vänta oss e. Detta har fått till följd att en del<br />

ord som inleds med kort e- eller ä-ljud och som nu stavas med e ändå inte kommer att behandlas<br />

förrän under Ä. Det mest kända exemplet är väl EGG (knivsegg) som i SAOB stavas<br />

med Ä och därför inte behandlats än. Lundbladh (1992:19) anger också att bärg stavas<br />

med ä, men faktum är att just detta ord med sammansättningar stavas med e, alltså stick<br />

i stäv med de principer som annars används av SAOB i dessa fall.<br />

Principen får också till följd att den redaktionella texten emellanåt verkar ålderdomligare<br />

än språkproven genom sin stavning av e, t.ex. värklighetsskildring (R401), värksamhet<br />

(R401), pängar (R501), rägn (R501).<br />

I artiklarna kan det se ut som i exemplen nedan:<br />

om ngns värksamhet: praktisk. En realistisk verksamhet (dvs. utövande<br />

av boktryckaryrket) nyttig både för hans utveckling såsom man och för<br />

betryggandet af hans timliga bergning. ATTERBOM Minnest. 2: 225 1855.<br />

Det redde väl upp sig (med affärerna), gällde bara att skaffa (pängar)<br />

för tillfället. ÖBERG Makt. 1:82 (1906).<br />

Vad beträffar morfologin är det främst de plurala verbformerna som berörs. SAOB höll<br />

länge fast vid bruket av plurala verbformer och de avskaffades först 1976 i <strong>ordbok</strong>en.<br />

SAOB borde därmed vara den sista mer officiella instansen i Sverige som höll fast vid detta<br />

bruk.


45<br />

Även vad beträffar dessa former kan det hända att den redaktionella texten förefaller<br />

vara ålderdomligare än språkproven.<br />

Salens tre första bänkar äro reserverade för honoratiores<br />

(Redaktionsexempel ”reservera” tryckt 1957)<br />

Implikationer för OSA<br />

För en mänsklig användare är bakgrunden till SAOB:s stavningsprinciper begripliga och<br />

ger på sin höjd ett lite kuriöst intryck. Känner man bara till efter vilka principer <strong>ordbok</strong>en<br />

är redigerad så kan man använda den utan problem. Hittar man inte PENG efter PENE-<br />

TRERA så kan man med lite tålamod slå upp ordet en gång till med ledning av hänvisningen,<br />

och slutligen hitta uppslagsordet PÄNNINGAR efter PÄNNA (!) och PÄNNAL.<br />

För en dator är det inte lika enkelt. I motsats till människan måste den ha exakta besked<br />

om vad den skall leta efter och hittar den inte vad den söker måste man ge nya order.<br />

Den kan inte tänka själv. Eftersom alla artiklar dessutom innehåller ett otal stavningar<br />

av ett och samma ord från skilda tider är det nödvändigt att ha en enhetlig uppslagsform<br />

där stavningen inte varierar över de olika banden.<br />

Detta problem delar vi självfallet med redaktionen i Lund som förr eller senare måste<br />

ta itu med saken, inte minst om en andra upplaga skall påbörjas. För SAOB-redaktionens<br />

del får problemet anstå ett antal år, men för OSA-projektets del är det nödvändigt att försöka<br />

få till stånd någon slags normalisering av metaspråket när databasen skall börja användas<br />

i större skala. En av de stora vinsterna med OSA är just att man skall kunna göra<br />

stora, snabba sökningar i hela <strong>ordbok</strong>en och samtidigt vara säker på att få med alla uppgifter.<br />

Det får man inte om ett och samma ord stavas på minst två olika sätt bara i den<br />

redaktionella texten.<br />

I princip skulle man lätt kunna gå in och normalisera stavningen av primärenheter och<br />

därmed lösa det praktiska problemet, men då har man samtidigt gjort om <strong>ordbok</strong>en till något<br />

annat än vad den är. För OSA-projektets vidkommande är det viktigt att inte göra några<br />

ingrepp i själva <strong>ordbok</strong>ens redaktionella utförande, vi har t.o.m. låtit de få tryckfelen<br />

vara kvar, vilket medför att vi får finna andra lösningar. För närvarande funderar vi på<br />

att ge dubbla upplysningar, d.v.s ha en normerad variant som sökalternativ, samtidigt<br />

som <strong>ordbok</strong>ens ursprungliga stavning också återges. Vår förhoppning är att vi genom detta<br />

förfarande också kan vara redaktionen behjälplig när en andra upplaga skall påbörjas.<br />

Litteratur<br />

Hernlund, H. 1883. Förslag och åtgärder till svenska skriftspråkets reglerande 1691–1739<br />

jämte en inledande öfversigt af svenska språkets ställning under den föregående tiden.<br />

Stockholm.<br />

Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1992. Lund<br />

Johannisson, T., G. Mattsson 1974. <strong>Svenska</strong> <strong>Akademiens</strong> ordlista under 100 år. Skrifter<br />

utgivna av <strong>Svenska</strong> språknämnden. 55. Stockholm.<br />

Santesson, L. 1986. Tryckt hos Salvius. Lundastudier i nordisk språkvetenskap. Ser A 37.<br />

Lund.<br />

Ståhle, C. I. 1970. Det nordiska rättstavningsmötet 1869 och hundra års svensk<br />

rättstavning. I: Skrifter utgivna av Nämnden för svensk språkvård 43. Stockholm.<br />

s. 5–36.


47<br />

Sofie Johansson Kokkinakis<br />

SAOB som hypertext<br />

Hypertextgränssnitt till artiklar i SAOB<br />

Artiklarna från A till Advokat i SAOB finns nu tillgängliga i en sökfunktion med gränssnitt<br />

på World Wide Web (WWW). Det innebär att den som har tillgång till Internet kan<br />

slå upp ord och läsa hela artiklar i SAOB. WWW är ett forum som använder sig av hypertext.<br />

Hypertext innebär representation av textmängder där texten inte nödvändigtvis förekommer<br />

linjärt. Hypertext är länkar som kopplar ihop informationsbitar för att<br />

möjliggöra för en läsare att välja olika vägar i sökning av information.<br />

Bakgrund och beskrivning<br />

Anpassningen till WWW gjordes med början under 1994 först genom att lägga ut artiklarna<br />

i Hypertext Markup Language (HTML)-format. HTML är en Standard Generalized<br />

Markup Language (SGML)-variant som används vid informationsrepresentation på<br />

WWW. Detta innebar att de redan fanns färdiga i HTML-format varje gång det gjordes en<br />

sökning på en artikel. En senare del av utvecklingen av WWW-anpassningen av SAOB<br />

gjordes under 1995 och blev en sökrutin där artiklarna inte fanns färdiga när de skulle tas<br />

fram, utan de genererades från det elektroniska material som SAOB för närvarande redigeras<br />

i. En nackdel med denna metod är att det kan ta något längre tid att ta fram en artikel,<br />

men detta uppvägs å andra sidan av besparingen av utrymme. Det krävs nämligen<br />

väldigt mycket minne för att spara alla artiklar i HTML-format.<br />

Den automatiska sökningen innebär en möjlighet att söka på artiklar som t.ex. ”abborre”.<br />

Se figur 1.<br />

Figur 1: Sökning på artiklar i SAOB med WWW-gränssnitt.<br />

I figur 2 visas artikeln ”abborre” i HTML-format, ungefär som den ser ut i <strong>ordbok</strong>en. Strukturen<br />

skiljer sig dock något. Det är t.ex. typsnittsstorlek och placering av olika informationsdelar<br />

i en artikel som skiljer sig åt. Detta är för att förtydliga strukturen eftersom det är mycket viktigt<br />

hur informationen struktureras i WWW-miljö för att ge bästa möjliga överblick och förståelse.


48<br />

Figur 2: SAOB-artikel i HTML-format.<br />

I artikeln, i figur 2, kan man se vissa ord som är understrukna. De är ord som innehåller<br />

hypertext-länkar. Genom att klicka på ett sådant ord aktiverar man SAOBs bibliografiska<br />

databas, vilken kan ge information om författare, källtitlar och tryckår. Figur 3 och 4 beskriver<br />

vad som händer om man klickar på författaren ”ROTHOF” i HTML-texten i artikeln<br />

”abborre” i figur 2 ovan. Först får man se en lista med de författare som har<br />

efternamnet ”ROTHOF” med efterföljande initialer och antal verk det finns exempel ifrån,<br />

se figur 3.<br />

Figur 3: Lista med författare och antal verk.<br />

<strong>Om</strong> man klickar på författarens namn visas ytterligare information om de verk som författaren<br />

har skrivit. Se figur 4.<br />

Figur 4: Exempel på en författare och ett verk.


49<br />

Sökningen på artiklar innehåller också en möjlighet att söka på delsträngar av ett uppslagsord<br />

eller en sammansättning om man är osäker på stavning. För att ta reda på alla<br />

sammansättningar som finns för ett uppslagsord som ”abborre” söker man på ”abborr.*”<br />

som början av en sträng. Resultatet blir då en lista av alla sammansättningar och eventuella<br />

avledningar eller andra ord som börjar på abborre. Se figur 5.<br />

Figur 5: Sammansättningar som börjar på ”abborre”.<br />

Denna typ av sökning görs för att användaren snabbt kan hitta det aktuella uppslagsordet<br />

eller den sammansättning han letar efter utan att behöva bekymra sig över den exakta<br />

stavningen.<br />

Implementering<br />

Implementeringen av sökningsrutinen på artiklar i SAOB gjordes under en tremånadersperiod.<br />

Det innebar bl.a. undersökning av möjligheterna att hantera svenskt textmaterial<br />

i programmeringsplattformen under operativsystemet Unix. Programmeringsomgivningen<br />

bestod av programmeringsspråket Perl och gränssnittet Common Gateway Interface<br />

(CGI) för WWW med olika sökverktyg.<br />

Utformning och problem<br />

Hanteringsordningen av information gick från det sökverktyg som en användare hade<br />

valt, t.ex. Netscape, Mosaic eller Lynx, genom informationsgränssnittet CGI vidare till<br />

Perl i Unix. Genom att användarmiljöerna kunde variera från PC till Macintosh och Unix<br />

uppstod vissa problem med materialhanteringen.<br />

Ett av de problem som uppstod var hanteringen av svenska tecken, eftersom den omfattande<br />

hanteringen av ord och söksträngar i sökverktyg som Netscape inte alltid fungerade<br />

normalt. Det hände vid vissa sökningar att detta sökverktyg försökte konvertera<br />

tecken och därmed göra ord omöjliga att tolka. Det kunde dock lösas med ersättningar i<br />

programhanteringen av materialet från HTML-representationen så att svenska tecken<br />

inte syntes annat än i gränssnittet till användaren.<br />

Tecken för att representera fonologisk information och andra specialtecken som finns i<br />

SAOB men inte är möjligt att representera i HTML har också ställt till problem. Detta har<br />

tills vidare fått lösas genom att vissa tecken ersätts med bilder av tecknen.


50<br />

Ett annat problem man måste ta hänsyn till i implementeringen av tillämpningar på<br />

WWW är tiden för informationshantering och näthastighet. För att användaren av dessa<br />

tillämpningar inte ska förlora intresset på grund av att tillämpningen fungerar för långsamt<br />

är hastigheten mycket viktig. Snabbhet beror naturligtvis på det avstånd en användare<br />

befinner sig från den server tillämpningen ligger på. Men det beror också på<br />

hanteringshastigheten i programmet som ligger bakom WWW-tillämpningen. Hanteringshastigheten<br />

i programmet är inget problem i fallet med sökrutiner för SAOB-artiklar<br />

på WWW. Perl är ett utmärkt programmeringsspråk för att bearbeta och ersätta strängar<br />

i Unix. Det är möjligt att hantera mycket stora textmängder, vilket är fallet med SAOB,<br />

och ändå få snabba sökningsresultat.


51<br />

Rudolf Rydstedt<br />

SAOB:s täckning<br />

Den som använder en <strong>ordbok</strong> för att slå upp vad okända ord betyder får emellanåt mycket<br />

handfasta problem med brister i <strong>ordbok</strong>ens täckning: det sökta ordet står inte att finna.<br />

Men allt behöver inte vara frid och fröjd bara för att man råkar hitta ett stickord och ett<br />

betydelsemoment som passar. Det kan ju vara en olycklig slump som gör att den riktiga<br />

betydelsen är missad samtidigt som en felaktig verkar stämma in. För praktiskt bruk kan<br />

man dock räkna med att falska <strong>svar</strong> är ganska sällsynta: finns det ett betydelsemoment<br />

som passar så är det nog rimligt att det är det korrekta. Svårigheterna dyker upp när man<br />

vill använda <strong>ordbok</strong>en som en modell av ordförrådet och dess förändringar. Då blir plötsligt<br />

variationer i grad av täckning kritiska. Denna artikel försöker ge en översiktlig bild<br />

av några typer av felkällor som man måste räkna med.<br />

Den kronologiska täckningen<br />

SAOB har som uppgift att ge en rimligt heltäckande bild av det svenska riksspråket från<br />

reformationen och framåt. Gränsen bakåt operationaliseras till 1520. En konsekvens av<br />

det är att förstånd får 1525 som år för första belägg, medan ordet etymologiskt beskrivs<br />

”fsv. forstand, liksom d. forstand av mnt. …”. Den skarpa gränsen bakåt motiveras med<br />

att den ger ett rent snitt mot redovisningen av medeltidsspråket i Söderwalls Ordbok öfver<br />

<strong>Svenska</strong> Medeltids-språket och Schlyters Ordbok till Samlingen af Sveriges Gamla Lagar.<br />

Det arbete, hvars början här framlägges, är afsedt att dels gifva en trogen bild<br />

af det nu lefvande svenska riksspråket, dels äfven uppvisa, huru vårt språk<br />

utvecklats allt ifrån reformationstiden. Ordbokens uppgift är alltså att lämna<br />

en historisk framställning af det nysvenska riksspråket i vidsträckt mening,<br />

och den tager således vid, där de utgifna eller under utgifning varande ordböckerna<br />

öfver vårt medeltidsspråk sluta. (SAOB bd 1:1)<br />

Gränsen framåt har förskjutits gradvis under arbetets gång. Hållpunkter är att bokstaven<br />

A saknar stickord med första belägg senare än 1902, G efter 1939 och R efter 1960. Efter<br />

D kan man räkna med att artiklarna följer ungefär i den ordning som de är skrivna, i början<br />

arbetade man mindre strikt alfabetiskt. Det senare leder till att B har ord med förstabelägg<br />

så sent som 1922 medan C saknar förstabelägg efter 1905. Sett med dagens ögon<br />

innebär dessa siffror att SAOB har ett kronologiskt hål på närmare 1/5 – 1/6 av den tid<br />

som verket skall täcka i början av alfabetet. Det senast publicerade häftet slutar efter stå.<br />

I SAOL och Svensk <strong>ordbok</strong> återfinns det ordet 1/5 från slutet. Det är allstå en betydande<br />

del av det ordförråd som SAOB strävar efter att täcka som inte kommer med därför att det<br />

är för ungt eller kommer för sent i alfabetet (t.ex. knivens ägg – som alltså inte stavades<br />

egg enligt SAOB:s norm när E publicerades).<br />

En förrädisk faktor är att ord med samma egenskaper har en tendens att klumpa ihop<br />

sig vid en alfabetisk sortering. Ett exempel med etymologisk anknytning är att prefixen<br />

be- och för- ger en tysk prägel åt respektive bokstav. Denna heterogenitet gör att interna<br />

variationer i täckningsgrad – t.ex. den nyss nämnda kronologiska – kan få svåröverskådliga<br />

effekter på resultaten vid undersökningar. Det är t.ex. uppenbart att engelskans och<br />

tyskans relativa betydelse som långivande språk har förskjutits till engelskans fördel under<br />

1900-talet. Det intrycket ges också av SAOB, men är det en risk att SAOB ger en felaktig<br />

bild av styrkan i förändringen beroende på att lån från tyska och engelska hamnar<br />

lite olika i en alfabetisk sortering


52<br />

Urvalskriterier<br />

Diskussionen om SAOB präglas ofta av en besvärande svävning i fråga om vad man förväntar<br />

sig att <strong>ordbok</strong>en skall täcka. En viktig fråga är om man vill att den skall spegla texterna<br />

(= la parole) eller språket (= la langue). NFO-serien är en utpräglat textinriktad och<br />

behandlar därför allt som finns i de undersökta texterna och inget annat, Svensk <strong>ordbok</strong><br />

drar ganska tydligt åt det andra hållet.<br />

SAOB kan uppfattas både som språk- och som textbeskrivande, man skulle kunna säga<br />

att <strong>ordbok</strong>en skall beskriva det svenska riksspråket på texternas grund. Det är den givna<br />

utgångspunkten för en större historisk <strong>ordbok</strong>, men den leder obevekligen till två principiella<br />

problem: (1) Även om all bevarad text excerperades perfekt skulle man inte kunna<br />

utgå från att alla rikssvenska ord (ens i rikssvenskt skriftspråk) har kommit med. (2) Att<br />

ett ord står i en uppenbart rikssvensk text gör inte att det är ett rikssvenskt ord. Texterna<br />

innehåller alltså både för mycket och för lite. Trots rykten om motsatsen har SAOB heller<br />

aldrig haft som ambition att redovisa precis alla ord som förekommer i svensk text. Detta<br />

görs klart redan i företalet till bd 1 (s. 2). De principer som ges där stämmer i stort sett<br />

med dem som formuleras av redaktören Sture Hast i början av 80-talet (Hast 1985:187–<br />

190). Han anger att följande grupper behandlas restriktivt:<br />

1. Namn utan användning som appellativer medtas inte.<br />

2. Dialektord medtas i princip inte, vilket inte hindrar att många dialektord kommer med ändå.<br />

3. Lånord behandlas med viss återhållsamhet. Den äldre principen var att ta med skandinaviska<br />

och tyska lånord om de lyckats etablera sig någorlunda i svenskan, men från övriga<br />

språk bara om de fortfarande är levande för de allmänbildade. Det är dock tveksamt om<br />

regeln någonsin efterlevts. Den moderna principen är att ta med alla lånord som har kommit<br />

i någorlunda fast bruk och fått svensk böjning – utan genetiska överväganden. Vidare tas<br />

lånord med om de betecknar en vanlig företeelse som inte har någon annan benämning.<br />

4. Citatord eller citatuttryck medtas sällan, men generositeten har ökat kraftigt genom åren.<br />

5. Fackspråkliga ord tas med om de fått viss spridning i allmänspråket.<br />

6. SAOB är betydligt generösare vid behandlingen av sammansättningar än jämförbara ordböcker,<br />

trots det stryks mellan en tredjedel och hälften av de belagda sammansatta orden.<br />

7. Personliga ord eller ordanvändningar tas i allmänhet inte med. Grundprincipen är att ett ord<br />

eller en ordanvändning eller fras tas med först om den har blivit mera känd och flerfaldigt<br />

citerad i redaktionens belägg.<br />

8. Fula ord (med undantag för svordomar) och slang medtogs tidigare inte. Från ungefär 1930<br />

behandlas fula ord utförligt. Slang behandlas dock fortfarande restriktivt.<br />

9. Ord som betecknar efemära företeelser tas inte med. Exempel är modeföreteelser i kläder<br />

eller danser som försvunnit inom ett par år.<br />

Ett given fråga rör hur pass konsekvent redaktionens principer verkligen har upprätthållits,<br />

men den förbigås här av praktiska skäl – det skulle krävas omfattande och systematiska<br />

omexcerperingar för att klarlägga den saken. Det är problematiskt nog att redan<br />

själva principerna har genomgått vissa förskjutningar, jfr punkt 3 och 4 ovan. En annan<br />

aspekt är om principerna som sådana kan förrycka bilden av t.ex. de etymologiska relationerna<br />

i språket vid olika tider.<br />

Med SAOB:s uttalade princip att beskriva det svenska riksspråket är det inte anmärkningsvärt<br />

att utesluta språkligt material som inte hör till den språkformen. Svårigheten<br />

ligger i att göra avgränsningen. Hur delikat uppgiften är beror till stor del på vad gränsdragningen<br />

skall användas till. Den är ganska liten vid produktionen av en <strong>ordbok</strong> avsedd<br />

att användas på ordinärt sätt: då kan man lova att ha med all riktig svenska – och så lite<br />

till för säkerhets skull. Normalt torde det vara denna attityd som genomsyrar arbetet på<br />

ordböcker. Det är värre när målet är att nå exakt täckning (få med precis allt) eller konsekvent<br />

täckningsgrad (missa konsekvent lika mycket ur samtliga relevanta aspekter).


53<br />

Det är något som är eftersträvandsvärt i t.ex. undersökningar av andelen främmande<br />

språkmaterial i svensk text. På mot<strong>svar</strong>ande sätt kan variationer i generositet mot främmande<br />

material i SAOB påverka den bild <strong>ordbok</strong>en ger av proportionerna mellan ord med<br />

olika ursprung. Det som gör det hela extra problematiskt är att variationen i integreringsgrad<br />

är i det närmaste steglös. Det kan illustreras med ett citat ur ett brev skrivet av<br />

Bengt Oxenstierna år 1682:<br />

Detta allt sker pour se venger de l’Angleterre, och det med rätta efter det genom<br />

sin blâmable conduite causerar Nederlands undergång och Christenhetens olägenhet<br />

och trouble. Utan dissimulation Des trogne och ergifne tjänare. / B. O.<br />

(citerat efter Engwall 1994:53).<br />

Allt kursiverat i citatet har franskt ursprung. Vissa ord har helt bevarad fransk form. Det<br />

kan göra att de känns ointegrerade för en modern läsare – och förmodligen även för Oxenstiernas.<br />

Men hur är det med dissimulation Många uppfattar det nog som minst lika<br />

svenskt som det böjningsmässigt direkt ofranska causerar. SAOB väljer att ta med dissimulation,<br />

som verbalabstrakt till dissimulera. Ordets allmänspråkliga betydelse, den som<br />

finns i citatet ovan, betecknas som numera knappast bruklig (finns även en medicinsk<br />

fackbetydelse). SAOB:s bruklighetsangivelse motsägs inte av Språkbankens material – ordet<br />

förekommer över huvud taget inte i dess baskorpus om 30.000.000 löpord. Men i äldre<br />

tid förekom ordet hos flera författare i den för en franskkunnig genomskinliga betydelsen,<br />

men var det prov på svenska<br />

En möjlighet att åtminstone tillfälligt kringgå svårigheterna med att särskilja de ord<br />

som är integrerade i det abstrakta språksystemet är att utgå från ett kvantitativt kriterium<br />

för vad som är en del av riksspråket. Med den infallssvinkeln blir ord som förekommer<br />

ofta, i många sammanhang och uthålligt mera centrala. Det är den typen av kriterier som<br />

man anar bakom att SAOB är restriktivt vid behandlingen av personliga ord, ord i fackoch<br />

gruppspråk samt efemära ord. Men inte heller kriterier av denna typ undanröjer<br />

gränsdragningsproblemen. Ett skäl till det är att kategorierna i sig är svårbestämda. Poängen<br />

med att tala om gruppspråksord är att dessa ord inte har full hemortsrätt i allmänspråket<br />

– om de hade det skulle de inte vara gruppspråksord. De kan därför uteslutas för<br />

att de är perifera. Men gruppspråksbeteckningar (liksom stil- och bruklighetsbeteckningar<br />

i allmänhet) säger inte nödvändigtvis var ordet förekommer mest frekvent utan kanske<br />

bara var det omtalade fenomenet förväntas höra hemma. Det vore t.ex. en fullt hedervärd<br />

arbetsuppgift för en stilistiker att undersöka i vad mån ord som uppfattas som knutna till<br />

en viss genre eller stil verkligen är mest frekventa i den.<br />

Hur man än gör är det svårt att ge tydliga och lätthanterliga kriterier för vilka ord som<br />

bör komma med i SAOB – och mera generellt i listor över ord i språk vid en viss tid. Detta<br />

gäller även om man bortser från de problem som ligger i att avgränsa vad som rent faktiskt<br />

är ett ord: hur lexikaliserade sammansättningar måste vara för att räknas som fullvärdiga<br />

lexikonenheter; hur mycket betydelsenyanser måste skiljas åt för att det skall<br />

röra sig om två betydelser; om t-avledda adverb och verbalabstrakter är egna ord eller närmast<br />

ett slags finare böjningsformer. Problemen blir inte mindre när målet är att beskriva<br />

språkstadier för vilka vi inte har tillgång till informanter. Vi kan lätt se att skribenter på<br />

1600-talet använde dissimulation i sina texter, men hur vet vi om de uppfattade ordet som<br />

svenskt<br />

Svårigheterna gör att det kan vara lockande att arbeta rent frekvensmässigt, t.ex. genom<br />

att utgå från en baskorpus och ta med alla ord som är belagda med viss frekvens i<br />

visst antal texter från vissa genrer vid vissa tidpunkter. Några fördelar och nackdelar med<br />

ett sådant angreppssätt diskuteras nedan i samband med excerperingen beroende på att<br />

renodlat frekvensorienterat angreppssätt står och faller med hur excerperingen går till.


54<br />

Excerperingen<br />

SAOB:s fundament är samlingen med språkprov. En uppenbar störfaktor när det gäller<br />

den interna balansen i <strong>ordbok</strong>en är att den tidigare utgivna delen av <strong>ordbok</strong>en bygger på<br />

ett betydligt mindre material än de senare. Några hållpunkter för tillväxten är:<br />

Tabell 3: Ungefärligt<br />

antal excerpter i<br />

SAOB:s samlingar a<br />

år<br />

antal<br />

1883 700.000+<br />

1897 1.500.000+<br />

1913 3.000.000<br />

1937 4.800.000<br />

1980 7.000.000+<br />

a.Siffrorna baseras på<br />

uppskattningar refererade<br />

i Hast 1985:171 ff.<br />

Siffrorna över tillväxten ger en allmän uppfattning om skillnaden i materialets storlek,<br />

men det har också en påtaglig heterogenitet. Under perioden 1910–1959 excerperades enbart,<br />

eller nästan enbart, den ännu outgivna delen av alfabetet. En annan störning som<br />

påverkar redan <strong>ordbok</strong>ens första upplaga är att tillväxten väsentligen består i att ständigt<br />

fler verk excerperas, vilket i praktiken får betydelse för den genremässiga balansen (Hast<br />

1993:173–175). Det säger sig t.ex. närmast självt att ordböcker därigenom får en större del<br />

av bevisbördan i början av SAOB än senare. Problemets vidd antyds av tabell 4.<br />

Tabell 4: Antal hänvisningar till några författare a<br />

författare A B M S<br />

Dalin 1111 915 277 210<br />

Serenius 175 116 72 60<br />

Richardson 0 10 5 6<br />

Almqvist 385 572 103 81<br />

Strindberg 16 52 103 103<br />

a.Siffrorna anger antal förekomster av respektive författarnamn de 1000 första<br />

spalterna på respektive bokstav.<br />

Skälet till att ta med de första 1.000 spalterna på både A och B är att den relativa tillväxten<br />

hos excerptsamlingen är extra hög i inledningsskedet. Författarnamnen är valda dels<br />

för att peka ut rätt personer med tillräcklig precision, dels för att ge olika typer av källor.<br />

Bakom Dalin och Serenius döljer sig lexikografer, Dalin från 1800-talet och Serenius från<br />

1700-talet. Richardson skriver om krigsvetenskap på 1700-talet – det är alltså inte den<br />

Richardson som skrev sedelärande romaner. Almqvist och Strindberg är (väsentligen) de<br />

kända skönlitterära författarna. 1


55<br />

Lexikograferna har som förväntat kraftigt fallande frekvens, men det mest anmärkningsvärda<br />

är kanske utgångspunkten: på A har Dalin i medel ett belägg per spalt! Almqvist<br />

kommer upp i halva den frekvensen under B, innan det bär utför. Strindberg<br />

kommer upp i ett belägg per 10 spalter, de låga siffrorna i början kan till stor del förklaras<br />

med att han är en samtida författare i början av alfabetet. Siffrorna för Richardson illustrerar<br />

att facklitteratur är underrepresenterad i korpusen under inledningsskedet. Det intressanta<br />

med siffrorna är att lexikon, facklitteratur och skönlitteratur inte självklart kan<br />

förutsättas ha ordförråd med samma etymologiska struktur. Tvåspråkiga lexikon och lexikon<br />

med utländsk förlaga kan t.ex. misstänkas innehålla ekvivalenter till ord i referensspråket<br />

som aldrig sprids utanför <strong>ordbok</strong>ens eller ordböckernas värld. Aspekter på den<br />

problematiken studeras av Lena Rogström i hennes avhandlingsarbete om lexikografi på<br />

1700-talet, speciellt Serenius ordböcker.<br />

Men det är inte bara den excerperade korpusens sammansättning som är problematisk<br />

utan även excerperingsmetoden. Sture Allén öppnade en debatt i frågan med en artikel i<br />

Nysvenska studier där han frågade: ”Hur djupt går SAOB” (Allén 1980). I korthet var Alléns<br />

slutsats att SAOB inte går djupt nog och att en väsentlig orsak är brist på systematik<br />

i excerperingen. Detta illustrerades i första hand med exempel från Johan Ekeblads brev.<br />

Allén hade inga svårigheter att finna t.ex. ord som SAOB missat helt (s. 122).<br />

Riktlinjer för SAOB:s excerpister finns kodifierade i Anvisningar till insamlande av<br />

språkprov för <strong>Svenska</strong> akademiens <strong>ordbok</strong>sarbete (Anvisningar §§ 33 – 57). Dessa säger i<br />

korthet att vissa speciellt centrala verk skall underkastas en uttömmande excerpering<br />

medan excerpisten i övriga skall inrikta sig på sådant som är speciellt anmärkningsvärt,<br />

t.ex. för tiden ovanligt bruk av en viss betydelse. Problemet är att den typen av instruktioner<br />

förutsätter en närmast allvetande excerpist. Hur vet excerpisten vilka ord som har en<br />

för tiden ovanlig betydelse Han eller hon kan normalt inte ens stödja sin intuition genom<br />

att slå upp i SAOB. Redan att få grepp om instruktionen skall ha varit ett företag i sig:<br />

Anvisningarna var, som antytts, synnerligen utförliga. Få excerpister torde ha<br />

orkat med att sätta sig in i dem och konsekvent nyttja dem. Vana äldre excerpister<br />

kritiserade dem skarpt. … Efter 1924 … torde anvisningarna inte ha<br />

använts längre, utan instruktioner har givits i muntlig form eller medelst personliga<br />

brev o.d. (Hast 1985:165)<br />

En möjlig väg för att garantera bättre styrsel i arbetet är att ge excerpisten bättre överblick.<br />

Den normala SAOB-excerperingen bygger på en extensiv genomläsning av källorna<br />

varvid excerpisten markerar i storleksordningen ett par till tre ord per sida, dock är variationen<br />

stor (Hast 1985:177). Allén framhäver i stället möjligheten till maskinstödd excerpering<br />

i konkordansformat, åtminstone för mera centrala verk:<br />

En tilltalande möjlighet vore att välja ut en serie centrala texter från det aktuella<br />

århundradena, särskilt de tidigare, för behandling. Resultatet kunde skrivas<br />

ut som belägg i kontext med källhänvisning. (Allén 1980:128)<br />

Alléns inlägg uppmärksammades av <strong>ordbok</strong>ens dåvarande chef Hans Jonsson i följande<br />

årgång av Nysvenska studier, denne visade emellertid begränsad entusiasm inför Alléns<br />

förslag (Jonsson 1983). Jonssons väsentliga argument mot är (1) att det skulle riskera att<br />

fördröja arbetet och (2) att det skulle leda till en risk att missa fenomen som är svåra att<br />

identifiera med enbart kriterier på formplanet. Diskussionen om SAOB:s material i Nysvenska<br />

studier fortsätter sedan med den drygt 30-sidig artikel av Sture Hast som refereras<br />

flitigt ovan. I denna summerar Hast den allmänna bilden med:<br />

Vi kan alltså se att SAOB står sig gott i fråga om materialets mängd [jämfört<br />

med andra liknande ordböcker]. Men det är främst materialets kvalité som är<br />

avgörande för om det är bra. Och i det fallet är vårt material av högsta klass.<br />

1.Flera av författarna är företrädda av annan text än deras huvudgenre, men inte i sådan<br />

omfattning eller på sådant sätt att det förrycker resultaten.


56<br />

Oxford<strong>ordbok</strong>ens gamla material t.ex. är till större delen insamlat av frivilliga,<br />

icke instruerade krafter, vilket gör att en stor del av det var undermåligt eller<br />

rentav oanvändbart. (Hast 1985:161)<br />

Hast har säkerligen helt rätt i att SAOB har en mycket god materialsamling jämfört med<br />

andra större ordböcker. Men frågan återstår om SAOB skulle ha stått sig ännu bättre med<br />

en excerpering som ansluter sig närmare till Alléns modell. En viktig faktor därvidlag är<br />

storleken på den korpus som skulle behövas för att den skulle göra nytta: om den skulle<br />

bli ohanterligt stor vore inte mycket vunnet. Det är något som i viss mån kan belysas av<br />

existerande frekvensundersökningar, t.ex. Nusvensk frekvens<strong>ordbok</strong> (Allén et al. 1970).<br />

Resultaten där visar att ordförrådet i faktisk text har en synnerligen ojämlik distribution,<br />

med en liten frekvenstopp vars ord utgör i storleksordningen någon procent vardera av det<br />

totala antalet löpord i en text. I en miljonordskopus måste man räkna med att stora delar<br />

av ordförrådet inte kommer med över huvud taget och att en betydande del av de representerade<br />

orden och ordformerna är enfrekventa. Det hjälper att öka korpusens storlek till<br />

20.000.000 ord och mer, men det är tankeväckande att Språkbankens drygt 30.000.000 ord<br />

från tidningar och romaner inte innehåller en enda ballethoppa men väl balettfetischer,<br />

balettoman och balettvapen.<br />

Den som vill dammsuga språket efter infrekventa fenomen måste kort sagt ha en mycket<br />

stor korpus. Skulle 30.000.000 ord per 50-årsperiod räcka Samtidigt kan man uppenbart<br />

nå intressanta resultat med mindre material. Så kan Gellerstam redovisa en studie<br />

baserad på en delmängd av NFO-materialet (med totalt 1.000.000) där huvuddragen i de<br />

etymologiska proportionerna i nusvenskt språk tecknas (Gellerstam 1994). Sådana studier<br />

kan förvisso inte ersätta SAOB, men de är ändå viktiga i sammanhanget. De ger en<br />

typ av oberoende stöd som är nödvändigt för att avgöra i vad mån SAOB är tillräckligt bra,<br />

inte bara vad som skulle leda till en förbättring.<br />

Litteratur<br />

Allén, S. 1980. Hur djupt går SAOB I: Nysvenska studier. Årg. 59–60. Lund.<br />

Allén, S. 1970. Nusvensk frekvens<strong>ordbok</strong> baserad på tidningstext. I. Graford,<br />

homografkomponenter. Stockholm.<br />

Anvisningar till insamlande av språkprov för <strong>Svenska</strong> akademiens <strong>ordbok</strong>sarbete. 1916. 4.<br />

uppl. Lund.<br />

Engwall, G. 1994. Svenskt och franskt. I: Arv och lån i svenskan : Sju uppsatser om<br />

ordförrådet i kulturströmmarnas perspektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />

Stockholm.<br />

Gellerstam, M. 1994. Ordförrådets härledning. Arv och lån i svenskan : Sju uppsatser om<br />

ordförrådet i kulturströmmarnas perspektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />

Stockholm.<br />

Hast, S. 1985. <strong>Om</strong> SAOB:s material. Nysvenska studier. Årg. 63. 1983. Lund.<br />

Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1904. Utarbetad av Ernst<br />

Kock.<br />

Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1993. Utarbetad av Hans<br />

Jonsson.<br />

Jonsson, H. 1983. Ekeblad och SAOB. Nysvenska studier. Årg. 61. 1981. Lund.<br />

Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. Lund.<br />

Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />

1893 –. Lund.<br />

Schlyter, C. J. 1877. Ordbok till Samlingen af Sveriges Gamla Lagar. (Samling af Sveriges<br />

gamla lagar. 13). Lund.


57<br />

Sigurd, B. 1986. Ordboken, ordlistan och några andra av <strong>Svenska</strong> <strong>Akademiens</strong> språkliga<br />

insatser under 1900-talet. I: Allén, Sture & Loman, Bengt & Sigurd, Bengt 1986.<br />

<strong>Svenska</strong> Akademien och svenska språket : Tre studier. Stockholm.<br />

Svensk <strong>ordbok</strong>. Utarbetad vid Språkdata. Göteborgs universitet. 2 uppl. Solna 1988.<br />

Söderwall, K. F. 1884–1918. Ordbok öfver <strong>Svenska</strong> Medeltids-språket. 1–2. Suppl. 1925–<br />

1973 (<strong>Svenska</strong> Fornskrifts–Sällskapets Samlingar) Lund.


59<br />

Lena Rogström<br />

OSA-databasen i praktiken<br />

OSA-databasen erbjuder en snabb möjlighet till excerpering av SAOB, både för enskilda<br />

belägg och undersökningar av mer systematisk art. Systematiska undersökningar, baserade<br />

på en excerpering av hela SAOB 1 , har tidigare varit mycket tidskrävande men kan<br />

nu genomföras på ytterst kort tid. Att leta rätt på de exempel som skall undersökas tar för<br />

datorn endast några sekunder. Sedan återstår naturligtvis själva analysarbetet, något<br />

man själv får göra.<br />

Detta öppnar självfallet nya möjligheter för lexikal forskning genom att man lättare<br />

kan lägga hela SAOB:s material till grund för pilotundersökningar, något som tidigare tett<br />

sig svårgenomförbart framför allt med tanke på tidsaspekten. OSA-materialet har således<br />

reducerat tidsåtgången för själva excerperingen vilket medför att man i stället kan ägna<br />

merparten av undersökningstiden åt den språkvetenskapliga analysen.<br />

En <strong>ordbok</strong> av SAOB:s storlek, kontinuerligt utgiven under mer än 100 år, kan av naturliga<br />

skäl inte vara helt konsekvent i utförande och redigering. Detta påtalas också i alla<br />

de artiklar som ingår i denna rapport, och även detta avsnitt skall behandla en del problem<br />

som man måste ta hänsyn till vid vissa typer av undersökningar där SAOB använts.<br />

De egenheter som diskuteras här emanerar emellertid inte från förändringar i SAOB:s redaktionella<br />

principer. I stället fokuseras en del av de problem som uppstår genom att metaspråket<br />

i SAOB ofta avviker från språkprovens ortografi och morfologi. Jag pekar också<br />

på några fall där SAOB:s redigeringsprinciper som sådana kan diskuteras.<br />

Redogörelsen bottnar i en undersökning av alla SAOB-belägg som härrör från Jacob Serenius<br />

engelsk–svenska och svensk–engelska ordböcker, utgivna 1734 respektive 1741.<br />

Undersökningen ingår i ett avhandlingsarbete som bl.a. omfattar en lexikalisk analys av<br />

ordförrådet i Serenius ordböcker. Som en del i detta används OSA-materialet i syfte att<br />

fastlägga hur stor del av ordböckerna som excerperats av SAOB som förstabelägg.<br />

Det bör inledningsvis nämnas att undersökningen som refereras här baseras på en äldre,<br />

inte helt fullständig, version av konkordansen över SAOB, men det är av underordnad<br />

betydelse i detta sammanhang. Det antal exempel som används förefaller ändå tillräckligt<br />

stort för att visa problemen.<br />

Undersökningen<br />

Alla belägg ur Serenius ordböcker slogs upp i konkordansen och skrevs sedan in i en separat<br />

datafil, konstruerad på så sätt att ett flertal olika sorteringar är möjliga. Beläggen sorterades<br />

till en början i två huvudfiler, en för varje <strong>ordbok</strong>, och materialet strukturerades<br />

med utgångspunkt i deras respektive placering i SAOB:s artikelstruktur enligt följande:<br />

formbelägg (morfologi, ortografi), betydelsebelägg (placerat som språkprov i betydelseträdet),<br />

ordbildningsbelägg (ssgr, avledn., särsk. förb.). I förekommande fall noterades också<br />

om de belägg som här kallats ordbildningsbelägg hörde hemma i någon betydelsestruktur<br />

i respektive ordbildningsdel. De flesta sammansättningar, avledningar och särskilda förbindelser<br />

har bara ett betydelsemoment i SAOB, varvid belägget har noterats som belägg<br />

på både form och innehåll samtidigt, vilket varit av värde för avhandlingens vidkommande.<br />

I de fall då belägget återfunnits i ett betydelsemoment under en sammansättning etc.<br />

har det räknats som betydelsebelägg.<br />

1.Med ”hela” SAOB menas självfallet den hittills tryckta delen av <strong>ordbok</strong>en.


60<br />

Jag har också noterat de fall då Serenius-belägget varit ett s.k. förstabelägg i SAOB.<br />

Vidare har materialet också hanterats på sådant sätt att det kunnat sorteras efter beläggets<br />

status som källspråksenhet respektive målspråksenhet i ordböckerna.<br />

De belägg ur Serenius ordböcker som återfanns i OSA-materialet visade sig vara fördelade<br />

på följande sätt:<br />

Tabell 5: Belägg ur Serenius ordböcker<br />

1734 (eng>sv) 1741 (sv>eng)<br />

Totalt antal belägg 2 427 1 020<br />

Betydelsemoment 1 111 728<br />

Ssgr 1 043 180<br />

Avledn 189 41<br />

Särsk. förb 84 71<br />

Totalt antal förstabelägg 1 592 408<br />

Betydelsemoment 562 243<br />

Ssgr 826 96<br />

Avledn 157 32<br />

Särsk. förb 47 37<br />

Redan en uppställning av detta slag ger en grov uppfattning om det undersökta materialet.<br />

Som väntat kommer flest belägg från den engelsk-svenska <strong>ordbok</strong>en, troligen för att<br />

denna är äldst och därför excerperats först. Av den anledningen har man inte tagit med<br />

samma exempel en gång till när man excerperat den svensk-engelska, något yngre, <strong>ordbok</strong>en.<br />

Denna är nämligen en vändning av den engelsk-svenska och består därför huvudsakligen<br />

av ett urval av innehållet i den engelsk-svenska <strong>ordbok</strong>en. Det är därför inte<br />

förvånande att den både yngre och mindre svensk-engelska <strong>ordbok</strong>en inte bidragit med en<br />

lika stor andel belägg som den äldre, engelsk-svenska. Lustigt nog bidrar den svensk-engelska<br />

<strong>ordbok</strong>en med en större procentandel särskilda förbindelser i förhållande till de övriga<br />

beläggen, jämfört med vad den engelsk-svenska <strong>ordbok</strong>en gör. Det absoluta antalet<br />

belägg är dock litet för denna kategori.<br />

En enkel uppställning av denna typ tillhandahåller framför allt information om vilka<br />

kategorier i Serenius ordböcker som är värda att undersöka närmare. Förstabeläggen är<br />

då av särskilt intresse och man kan bl.a. notera att dessa i 1734 års <strong>ordbok</strong> till mer än hälften<br />

består av sammansättningar medan 1741 års <strong>ordbok</strong> i stället har hälften av sina förstabelägg<br />

i betydelsedelen av SAOB. (En mer utförlig studie av dessa kategorier utförs i<br />

avhandlingsform).<br />

Uppställningen är enkel, men kan ge värdefull information om vilka kategorier som är<br />

värda att arbeta vidare med i respektive <strong>ordbok</strong>.<br />

Problem<br />

När man använder OSA-materialet för att komma åt innehållet i en viss källa i <strong>ordbok</strong>en<br />

räcker det dessvärre inte med att bara ta fram alla de beläggställen där källan förekommer,<br />

man måste gå vidare till själva källan för att kunna beskriva den utförligt I arbetet<br />

med Serenius-beläggen uppenbarades ett flertal tidsödande irritationsmoment och problem<br />

som till stora delar gick att hänföra till SAOB:s redigeringsprinciper. Några av problemen<br />

går inte att komma runt eftersom de bottnar i en konflikt mellan språkförändring<br />

och ordböckers behov av konsekvens. En <strong>ordbok</strong> måste med nödvändighet ha enhetliga<br />

principer för ortografi, morfologi etc. och redigeringsprinciperna bör självfallet bottna i<br />

den språknorm som används när <strong>ordbok</strong>en redigeras. Att detta innebär problem för nor-


61<br />

maliseringen i OSA-databasen har omtalats i ett tidigare avsnitt. Det problemet är dock<br />

av övergående art, fram till kommande ortografiska reformer.<br />

Värre är det med det faktum att uppslagsformen i SAOB representerar ett flertal former<br />

som ett och samma ord kan ha haft under den tid det existerat i skrift. Emellanåt är<br />

man också benägen att tro att somliga av SAOB:s uppslagsformer representerar former<br />

som ordet inte haft under nämnda tid, något som exemplifieras nedan.<br />

De problem som behandlas kan delas upp i två huvudgrupper. Den ena omfattar de problem<br />

som naturligt uppstår då man i en <strong>ordbok</strong> med nutida ortografi och morfologi skall<br />

beskriva ett äldre språks ordförråd, d.v.s. allmängiltiga problem för alla redaktörer av historiska<br />

ordböcker. Problemen som tas upp här belyses ur ett användarperspektiv och utgörs<br />

huvudsakligen av skillnader i ortografiska, morfologiska och ordbildningsmässiga<br />

principer. I grund och botten berör denna fråga konflikten mellan den innehållsliga och<br />

formella sidan av ett ord i historiskt perspektiv. Båda kategorierna utvecklas under tidens<br />

gång varför det till slut kan vara svårt att avgöra huruvida man har att göra med ett och<br />

samma ord och hur detta skall behandlas lexikografiskt.<br />

Den andra huvudgruppen berör snarast de lexikografiska principer SAOB-redaktionen<br />

använt sig av genom tiderna och vilka konsekvenser dessa kan tänkas ha för den faktiska<br />

beskrivningen av vårt ordförråds historia och utveckling.<br />

Allmängiltiga problem<br />

Som tidigare nämnts iakttas den samtida språkformen vid utformningen av stickord, definitioner,<br />

redaktionella språkprov etc. i SAOB. Normen har ändrats ett flertal gånger under<br />

den tid som <strong>ordbok</strong>en redigerats, men de varianter som använts kan förhållandevis<br />

enkelt undersökas och normaliseras till en enhetlig form.<br />

Att stickorden i SAOB har modern form är självfallet helt naturligt. Tyvärr medför det<br />

en del problem i de fall då man är intresserad av en speciell författares bidrag till SAOB,<br />

eftersom alla belägg från den speciella källan måste sökas i en normaliserad form; en form<br />

som kanske inte existerar i den källa man är intresserad av.<br />

Ett naturligt tillvägagångssätt är då att använda källhänvisningen, t.ex. författarnamnet,<br />

som sökvariabel, ta ut alla belägg i konkordansform och sedan gå vidare till databasen<br />

för att få hela kontexten till språkprovet och se vilken artikel det står i. På det viset får<br />

man upp hela det aktuella språkprovet inklusive källhänvisning och kan notera de uppgifter<br />

som intresserar en. Arbetsmetoden är mödosam såtillvida att man får tillbringa<br />

mycket tid framför en dataskärm, men är betydligt mer effektiv än att leta i den tryckta<br />

utgåvan, spalt för spalt.<br />

I sökningen efter Serenius-belägg användes namnet som sökvariabel och från varje<br />

konkordansrad gick jag vidare till den aktuella kontexten för att därigenom få det fullständiga<br />

språkprovet. Genom detta förfarande fick jag fram aktuell SAOB-artikel med<br />

stickordet i normaliserad form. För att komma åt den ordform som fanns i själva källmaterialet,<br />

Serenius ordböcker, var jag dock tvungen att i flera fall konsultera själva källan.<br />

Orsaken till detta är att SAOB i många fall inte skriver ut hela språkprovet utan bara<br />

anger källhänvisningen. En jämförelse mellan källmaterialet och SAOB visar tydligt på<br />

de skillnader som kan finnas mellan de olika materialen. Vid undersökningen framkom<br />

bl.a. följande skillnader mellan Serenius stavning och SAOB:s normaliserade form.


62<br />

Serenius<br />

servieter<br />

gouverneurska<br />

amalie-färg<br />

klöster<br />

diopterlineal<br />

campecheträ<br />

maill-spel<br />

cotelletter<br />

SAOB<br />

servetter<br />

guvernörska<br />

emaljfärg<br />

kloster<br />

diopterlinjal<br />

kampeschträ<br />

maljspel<br />

kotletter<br />

Förutom klöster som är en äldre svensk form av kloster uppvisar ortografin drag av ordens<br />

utländska, i många fall franska, ursprung. Serenius ordböcker utkom under första hälften<br />

av 1700-talet, en period då franskt inflytande dominerade. Stavningen är därför inte förvånande<br />

i sig, men kan vara intressant att undersöka i förhållande till det förmodade engelska<br />

inflytandet på <strong>ordbok</strong>en. (I fallet amalie-färg kan man dessutom undra om<br />

ortografin också återspeglar ett annorlunda uttal.)<br />

<strong>Om</strong> man fäster vikt inte bara vid beläggens förekomst i SAOB överhuvud taget utan<br />

också vid deras form, är det nödvändigt att gå tillbaka till själva källmaterialet för att få<br />

beläggens ursprungliga ortografi.<br />

Samma resonemang ligger också till grund för andra språkliga fenomen som kan vara<br />

intressanta att undersöka. Nedan visas två exempel på fogemorfem som skiljer sig mellan<br />

Serenius och SAOB. I fallet ihopafattad skiljer sig även det första morfemets form åt mellan<br />

de båda ordböckerna, vilket aktualiserar frågan vad som räknas som ett och samma<br />

ord och vilka redigeringsprinciper SAOB har i dessa fall.<br />

Serenius<br />

apothecare-book<br />

ihopafattad<br />

SAOB<br />

apotekarbok<br />

hopfatta<br />

Problem relaterade till SAOB:s redigeringsprinciper<br />

I den undersökning som refereras och från vilken exemplen är hämtade fokuserades särskilt<br />

sammansättningsbeläggen från Serenius <strong>ordbok</strong> från 1734. I arbetet med dessa aktualiserades<br />

ytterligare problem som snarast hör ihop med hur SAOB redigeras.<br />

<strong>Svenska</strong>ns sätt att bilda sammansättningar kan sägas vara tämligen enastående.Vad<br />

som utmärker en sammansättnings formella sida är att ordleden är hopskrivna, vanligen<br />

utan bindestreck. Bindestreck kan dock användas i vissa fall, särskilt om sammansättningen<br />

räknas som tillfällig. En sammansättning skall också ha s.k. sammansättningsaccent,<br />

ett kriterium som dock inte går att använda här eftersom SAOB, av naturliga skäl,<br />

inte omfattar talat material. Man kan m.a.o. inte veta hur de excerperade orden uttalats<br />

mer än i undantagsfall, då man av en eller annan anledning har mer explicita uppgifter<br />

om somliga ords uttal noterade i samtida litteratur.<br />

Genom tidernas gång har man haft olika praxis för sär- och sammanskrivning av sammansättningar.<br />

Den tendens man idag på många håll oroar sig över, att sammansättningar<br />

oftare skrivs isär, är inget nytt. Denna skiftande praxis tillsammans med det faktum<br />

att man inte vet hur orden uttalas medför ibland att man kan tveka inför somliga belägg<br />

som av SAOB klassificerats som en sammansättning.


63<br />

Följande exempel ur Serenius ordböcker har av SAOB angivits som sammansättningar<br />

trots att de formellt sett inte behöver betraktas som sådana.<br />

Serenius form SAOB:s form Engelsk mot<strong>svar</strong>ighet 1734<br />

Förstabelägg<br />

belätes dyrkan belätesdyrkan imageworship<br />

marknads rättighet marknadsrättighet (ingen engelsk ekvivalent) 1<br />

sinnes benägenhet sinnesbenägenhet affection<br />

sinnes likhet sinneslikhet congeniality or likeness of Genius<br />

sinnes styrka sinnesstyrka strenght of mind<br />

sinnes övning sinnesövning exercise<br />

Inte förstabelägg<br />

hufwud ord huvudord a leading word<br />

mellan liggande mellanliggande interjacent<br />

sinnes föreställning sinnesföreställning idea<br />

sinnes orolighet sinnesorolighet a disturbance of the mind<br />

Serenius har för vana att alltid använda bindestreck mellan ordleden i en sammansättning,<br />

vilket han inte gjort i ovanstående exempel. Möjligheten finns naturligtvis att devisen<br />

fallit bort i trycket just i dessa ord, men det finns också en möjlighet att de inte uttalats<br />

som en sammansättning utan snarare skall ses som en fras.<br />

I Serenius ordböcker finns två sätt att ange sammansättningar – antingen i själva artikeln<br />

eller i en särskild avdelning benämnd composita. I det första fallet brukar sammansättningen<br />

få en ordklassmarkering, men inte i det andra fallet. Då kan man å andra sidan<br />

använda rubriken composita som kriterium på att Serenius uppfattat orden som sammansättningar.<br />

Eftersom beläggen kommer ur en engelsk–svensk <strong>ordbok</strong> går ordklasskriteriet inte att<br />

tillämpa, eftersom alla ordklassmarkeringar hör till de engelska orden. Den svenska ekvivalenten<br />

kan ju vara en sammansättning även om det engelska ordet är ett simplex eller<br />

rentav en fras och vice versa.<br />

Det är således svårt att tillämpa formella kriterier på orden för att avgöra om de är<br />

sammansättningar eller inte. I många fall kan det vara så att devisen utelämnats eller fallit<br />

bort. Det förefaller dock märkligt att ett devisen skulle fattas just på så många belägg<br />

av en sammansättning med förleden ”sinnes-” ur 1734 års <strong>ordbok</strong>. (Bland exemplen ingår<br />

också ”sinnesförbehåll”. I SAOB anges källan till sidan Nn2a i Serenius 1734, men jag har<br />

inte lyckats hitta exemplet och kan således inte se om det också är särskrivet i 1734 års<br />

<strong>ordbok</strong>). Orden är i många fall också förstabelägg, vilket kan tyda på att de inte var helt<br />

etablerade som sammansättningar 1734. De finns heller inte med i 1741 års svensk–engelska<br />

<strong>ordbok</strong>, så man kan inte jämföra med stavningen där. Det finns dock ett annat exempel<br />

i 1741 års <strong>ordbok</strong>, frasen sinnes jemlikhet som återfinns i artikeln SINNE . Här är<br />

belägget uppenbarligen en fras eftersom den inte har någon ordklassmarkering eller står<br />

som composita. Förmodligen gör man klokt i att betrakta även de andra beläggen med<br />

”sinnes-” som fraser.<br />

1.Ordet ingår som del i förklaringen till den engelska sammansättningen ”market-town” = ”stad som<br />

har marknads rättighet”.


64<br />

Av ovanstående fall finns endast ett av beläggen med i 1741 års <strong>ordbok</strong>, nämligen<br />

hufwud-ord, då stavat med divis och placerat under avdelningen composita. Detta kan förmodligen<br />

tas som intäkt för att ett tryckfel förelegat i 1734 års <strong>ordbok</strong> och att ordet därmed<br />

kan betraktas som en riktig sammansättning.<br />

Genom att ange ovanstående belägg som sammansättningar har SAOB också gett en<br />

tidsangivelse för etablerandet av orden i fråga som sammansättningar. Man kan på goda<br />

grunder fråga sig om denna tidsgräns är korrekt, med tanke på vad som visat sig när man<br />

närmare kontrollerar beläggen mot källan. Kanske är det så att SAOB i detta fall satt en<br />

för tidig angivelse, och föregripit den eventuella utvecklingen av sammansättningen.<br />

Exemplen är inte många i detta fall, men sätter ändå fingret på en öm punkt när det<br />

gäller att skildra lexikalisering av vissa typer av begrepp.<br />

Ett mot<strong>svar</strong>ande resonemang ligger också till grund för nästa exempelkategori. I detta<br />

fall förutsätter SAOB att man utifrån en belagd verbform implicit kan belägga även andra<br />

verbformer. Även dessa exempel är tagna från Serenius ordböcker och behandlar s.k. partikelverb.<br />

Partikelverb behandlas i SAOB under rubriken “särskilda förbindelser”. Partikelverb<br />

består av ett verb och en s.k. partikel, vanligen ett adverb. Partikeln kan för vissa verb ha<br />

s.k. lös förbindelse och står då efter verbet, t.ex. följa upp. Vad som skiljer partikelverbet<br />

från den mot<strong>svar</strong>ande regelbundna konstruktionen är bl.a. att partikeln inte kan skiljas<br />

från sitt verb och att betoningen ligger på partikeln. Jämför exemplen Man skall följa upp<br />

projektet och Hon följde honom upp för trappan.<br />

Somliga partikelverb har både lös och s.k. fast förbindelse, d.v.s. de kan ha partikeln<br />

före själva verbet, ihopskrivet med detta: uppfölja. Vanligen innebär detta en stilskillnad<br />

såtillvida att lös förbindelse är mer talspråklig och fast förbindelse högtidligare och mer<br />

skriftspråklig. I vissa fall inträffar också betydelseskillnad (jfr komma ned och nedkomma).<br />

Ytterligare andra verb har bara fast förbindelse. Orsaken till att man ändå kallar dem<br />

partikelverb är främst att de har betoningen på partikeln (t.ex. inträffa).<br />

Kategorin partikelverb är således komplex och omfattar många regler. En av dessa är<br />

att partikelverb som vanligen inte har fast förbindelse i de olika tempusformerna ändå<br />

kan ha detta i perfektparticip, t.ex. verbet äta upp, som normalt inte konstrueras *uppäta.<br />

Det går dock bra att använda den fasta förbindelsen i formen Maten är uppäten, då verbet<br />

står i perfekt particip.<br />

I Serenius ordböcker förekommer ett antal participiella former som han placerat under<br />

respektive huvudverb och kallat adjektiv. SAOB har tagit dessa participiella former hos<br />

Serenius till intäkt för att de existerat även i andra former, och anger Serenius som belägg<br />

till följande partikelverb, angivna i grundform i SAOB. Man har också ändrat partikelns<br />

form, i några fall från ihop till hop, i andra fall tvärtom.<br />

Serenius form<br />

SAOB:s form<br />

hopläkt läka ihop; hopläka 1:a belägg<br />

hopwiken ihopvika 1:a belägg<br />

ihopafattad<br />

hopfatta<br />

ihoparäknad hopräkna 1:a belägg<br />

ihopaskrefven hopskriva 1:a belägg<br />

ihopsläpad hopsläpa 1:a belägg


65<br />

I förordet till Illustrerad Svensk Ordbok (1964, tredje upplagan) säger Bertil Molde att<br />

man sorterar partikelverben under respektive partikel i de fall då ”fast sammansättning<br />

är regel eller kan tänkas ”. Kanske har man tillämpat samma princip i SAOB. Enligt mitt<br />

förmenande bör man dock vara försiktig med detta tillvägagångssätt när det gäller en historisk<br />

<strong>ordbok</strong>. Det är väl känt att partikelverbens konstruktion ändrats genom tiderna och<br />

man kan inte ta för givet att en fast förbindelse i participiell form också alltid finns i<br />

grundform.<br />

I nedanstående tre exempel tas den av Serenius angivna formen till intäkt för att orden<br />

också existerat i andra former samtidigt, ett i och för sig rimligt antagande som dock tål<br />

att tänka på, särskilt i fallet järnwaror. Det är ingen orimlig hypotes att anta att ordet,<br />

som är ett förstabelägg, bildats i enlighet med det engelska ordet och först kommit att användas<br />

i plural. Singularformen förefaller än idag vara dåligt företrädd i faktiskt språkbruk,<br />

även om vi naturligtvis förstår vad ordet betyder. Det ligger i sakens natur att ordet<br />

oftare förekommer i plural.<br />

Serenius<br />

SAOB<br />

ingrafning ingräva 1:a belägg<br />

bond-dansar bonddans 1:a belägg (country-dances)<br />

järn-varor (iron-ware) järnvara 1:a belägg (iron-ware)<br />

Inkonsekvenser i SAOB:s källangivelser<br />

Serenius ordböcker är alla excerperade för SAOB. Källhänvisningarna skiljer sig dock<br />

mellan de olika banden vilket kan vara irriterande när man måste gå tillbaka till källorna<br />

för att slå upp exemplen.<br />

När SAOB citerar den engelsk–svenska <strong>ordbok</strong>en från 1734 brukar man i många fall<br />

ange den engelska källspråksenheten, vilket underlättar sökandet efter den artikel i Serenius<br />

<strong>ordbok</strong> från vilken språkprovet excerperats. Till exemplet sifferskrift anges det engelska<br />

ordet nullity, och hela belägget finns i artikeln NULL som därmed är lätt att hitta.<br />

I följande exempel utgörs SAOB:s språkprov av en svensk sammansättning, tagen ur<br />

Serenius engelsk–svenska <strong>ordbok</strong> från 1734 med angivande av det engelska stickordet i<br />

versaler. Sammansättningen är dock inte ekvivalent till detta stickord utan till en annan<br />

sammansättning i samma artikel. Angivandet av i vilken artikel man hittar belägget underlättar<br />

dock betydligt för läsaren.<br />

Sammansättning i SAOB Engelsk ssgr Engelskt stickord<br />

ciderkrog cider-house HOUSE<br />

grönmångelska herb-woman HERB<br />

gröntorg herb-market HERB<br />

disktvätterska scullion-wench SCULLERY<br />

hörnbord side-board-table SIDE<br />

Emellanåt ger SAOB bara sidhänvisningen till Serenius <strong>ordbok</strong> och ingen engelsk mot<strong>svar</strong>ighet,<br />

t.ex. sjette som har hänvisningen Eee2a. I just detta exempel är det ändå enkelt att<br />

tänka sig i vilken artikel man skall leta efter det fullständiga språkprovet: SIX.


66<br />

Värre är det med exempel som består av fraser, t.ex. sitta i förhand, Hh3a. I dessa fall<br />

kan det vara knepigt att hitta rätt artikel eftersom man kan behöva leta efter en engelsk<br />

mot<strong>svar</strong>ighet till antingen sitta eller förhand. Värst är det när det exempel som SAOB tagit<br />

fasta på inte ingår i själva betydelsebeskrivningen av den engelska enheten, utan står<br />

i någon bruklighetsangivelse som, semantiskt sett, inte har något med artikeln att göra.<br />

Bibelord och bondord är exempel på detta. Bibelord står som kommentar till ordet glantz<br />

och bondord står angivet till ordet fall. I dessa, och flera andra, exempel är det hart när<br />

omöjligt att på kort tid hitta exemplet i Serenius ordböcker eftersom det inte på något sätt<br />

är semantiskt eller logiskt förknippat med den artikel i vilken det förekommer.<br />

Sammanfattning<br />

SAOB bygger på en mångfald skriftliga källor vilket också utgör en av <strong>ordbok</strong>ens starka<br />

sidor. Antalet källor medför emellertid att man inte har möjlighet att undersöka dessa<br />

närmare för att utröna deras speciella egenheter, något som heller inte kan sägas falla på<br />

<strong>ordbok</strong>sredaktionens bord. Dessvärre måste man påpeka att SAOB hade blivit en ännu<br />

bättre <strong>ordbok</strong> om man också haft möjlighet att ta hänsyn till hur källmaterialet i sig var<br />

uppbyggt och vad det vilade på.<br />

Serenius tre ordböcker bygger t.ex. alla på varandra. Den första, engelsk–svenska, är<br />

dessutom en osjälvständig produkt, kalkerad på en engelsk–fransk förlaga. Vad detta betytt<br />

för innehållet i <strong>ordbok</strong>en utreds i mitt pågående avhandlingsarbete, men man kan redan<br />

nu säga att det svenska ordförråd som skildras i Serenius ordböcker till mycket stor<br />

del är beskrivet på engelskans villkor. Man kan förmoda att det förhåller sig på liknande<br />

sätt även med andra, tvåspråkiga ordböcker.<br />

Eftersom SAOB till stor del bygger på annat <strong>ordbok</strong>smaterial, vilket faller sig naturligt,<br />

är det också av stor vikt att detta material undersöks noggrant; en forskningstradition<br />

som dessvärre är försummad i Sverige.<br />

Den typ av exempel som redovisats i denna artikel går naturligtvis att hitta också vid<br />

mindre, manuella sökningar i SAOB. Genom OSA-databasen ökar dock möjligheterna till<br />

större sökningar, varvid också de tveksamma beläggen lättare kommer i dagen. Vad som<br />

redovisats här utgör bara en liten del av en förmodad, större kategori av lexikalt material<br />

som behandlats enligt tveksamma principer i SAOB. Ingen kan emellertid lastas för det<br />

och SAOB är fortfarande en oumbärlig <strong>ordbok</strong> i historisk, lexikalisk forskning. Kanske<br />

kan man säga att den blir ännu bättre när man på detta sätt också kan lära känna bristerna<br />

bättre. Först då kan man till fullo uppskatta dess förtjänster.<br />

Litteratur<br />

Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />

1893 –. Lund.<br />

Serenius, J. 1734. Dictionarium Anglo–Svethico–Latinum. Hamburg.<br />

Serenius, J. 1741. Dictionarium Suethico–Anglo–Latinum. Stockholm.<br />

Serenius, J. 1757. An english and swedish dictionary. 2 ed. Nykoping.


67<br />

Rudolf Rydstedt<br />

Etymologierna<br />

SAOB är inte någon etymologisk <strong>ordbok</strong> i snäv mening, men det är ändå ett av de verk där<br />

mest genomarbetad etymologisk information om ord i svenskan finns samlad. Det är därför<br />

lockande att försöka använda SAOB som en modell av ordförrådet från reformationen<br />

och framåt vid studier av t.ex. vilka inlåningsvägar som har dominerat för ord inom skilda<br />

fackområden under olika tider. Det är dock viktigt att komma ihåg att den tryckta <strong>ordbok</strong>en<br />

är utformad för att användas just som en <strong>ordbok</strong>, inte en maskinellt hanterad lexikalisk<br />

databas. Detta är något som inte bara avspeglas i själva <strong>ordbok</strong>stexten utan även i att<br />

den dokumentation som finns att tillgå är väl knapphändig för att ge ett fullgott stöd vid<br />

mera omfattande maskinella bearbetningar. Trots det är naturligtvis den dokumentation<br />

som verkligen finns tillgänglig värdefull. Några sidor med allmänna principer står att finna<br />

i de publicerade handledningarna (Lundbladh 1992:71–74; Ekbo & Loman 1971:23–<br />

26). Sigurd för en allmännare diskussion i en artikel med anledning av <strong>Akademiens</strong> 200-<br />

årsjubileum (Sigurd 1986:176–179). Den mest preciserade informationen, med t.ex. principer<br />

för vad som skall räknas som medeltidslatin och nylatin, står att finna i redaktionens<br />

interna anvisningar. Det är dock värt att notera att även dessa anvisningar måste användas<br />

med viss försiktighet beroende på att de inte alltid har använts konsekvent i hela <strong>ordbok</strong>en.<br />

Maskinella undersökningar underlättas av att flertalet etymologier är stramt och formelartat<br />

uppbyggda. Många har en komplexitetsnivå som i exemplen:<br />

jfr d. rend, nor. dial. renn; till RÄNNA, v.<br />

efter nylat. motio<br />

Svårigheterna att hantera informationen maskinellt ökar så fort etymologierna utformningsmässigt<br />

närmar sig vanlig löpande text, men det är värt att notera att även små och<br />

enkla etymologier kan ställa till problem, t.ex. genom att information måste hämtas från<br />

andra ställen i texten för att etymologin skall bli hanterlig. Den typ av rent tekniska problem<br />

som måste lösas för att hantera t.ex. ifyllnad av information från andra delar av texten<br />

förbigås dock i det följande för att intresset i stället skall kunna ägnas åt några<br />

aspekter på själva informationsstrukturen i etymologierna:<br />

1. Balansen i den etymologiska informationens omfång. Redan SAOB:s urval av ord kan<br />

emellanåt vara problematiskt när verket skall användas som en modell av svenskans ordförråd<br />

från reformationen och framåt. Variationer i etymologiernas utförlighet minskar inte<br />

svårigheterna.<br />

2. Relationerna mellan enheterna i etymologierna. Etymologier, inte bara i SAOB, är strukturerade<br />

kring skenbart lättbegripliga uttryck som jämför, av, till och efter. En närmare analys<br />

visar emellertid att det ofta inte alls är självklart vad de innebär.<br />

3. Språken i etymologierna. Det är långt ifrån självklart hur språk skall grupperas och avgränsas,<br />

eller ens vad de skall kallas.<br />

Balansen i den etymologiska informationens omfång<br />

Den mest grundläggande faktor som styr balansen i den etymologiska information som<br />

SAOB ger om det svenska ordförrådet är valet av ord som över huvud taget behandlas i<br />

<strong>ordbok</strong>en. Det är ett allmänt problem som gäller vid alla tillämpningar där SAOB i någon<br />

mån skall användas som en modell för svenskans ordförråd och diskuteras därför i ett särskilt<br />

avsnitt (“SAOB:s täckning” på sidan 51). Ett par specifika faktorer som påverkar just


68<br />

den etymologiska informationen är (1) att utförligheten i den etymologiska beskrivningen<br />

har växlat under arbetets gång och (2) att olika delar av ordförrådet behandlas med olika<br />

utförlighet.<br />

Variation i utförlighet är viktig bl.a. genom att den påverkar tendensen för olika språk<br />

att komma med i etymologiska kedjor. <strong>Om</strong> en kortfattad etymologi kan inskränkas till ett<br />

”av fr. xxx.”, kan en utförligare vindla sig ända ner till konstruerade indoeuropeiska former.<br />

På vägen kan latin, grekiska, persiska o.s.v. dyka upp. Variationen kan få mycket<br />

stark inverkan på utfallet hos kvantitativa bearbetningar eftersom dessa har just redovisade<br />

språk som stödjepunkter. Sigurd tecknar det allmänna mönstret för variationen på<br />

följande sätt:<br />

Etymologiernas utförlighet varierar kraftigt mellan de olika banden. De har blivit<br />

mer stringenta i senare band, och där finner man aldrig hänvisningar till<br />

indoeuropeiska rötter. Inte heller finner man i senare band hänvisningar till<br />

etymologiska lexika eller enskilda uppsatser, vilket var vanligt i tidiga band.<br />

I äldre tid kunde en etymologi sträcka sig över en hel spalt (se t.ex. den,<br />

diss). I tidiga etymologier passade redaktören på att ge upplysningar om andra<br />

ord som kan vara av intresse också. Banden B, C, D, E är de mest utförliga i etymologiskt<br />

hänseende … (Sigurd 1986:177)<br />

Beskrivning stämmer väl med det intryck som man får vid en god allmän förtrogenhet med<br />

SAOB. Låt oss därför detaljgranska den på en punkt: hänvisningar till indoeuropeiska rötter.<br />

Vi förutsätter att förekomsten av förkortningen ieur. i en etymologi är en sådan hänvisning<br />

(före M finns det även en handfull fall med indoeur.). Det material som ligger till<br />

grund är en maskinell excerpering av förstaetymologierna i cirka 85 % av SAOB, var spalter<br />

har utelämnats framgår av tabellen nedan. Med förstaetymologi avses den första etymologin<br />

som följer efter ett stickord. Totalt extraherades 36.416 sådana (av Yvonne<br />

Cederholm). Etymologierna har kapats efter 4 radslut i 720 fall, varav 350 i området B–E.<br />

Tabell 6: Vissa fördelningar per bokstav<br />

Bokstav<br />

Antal ieur.<br />

i 1:a etym.<br />

Antal<br />

1:a etym.<br />

Spalter i<br />

boken<br />

Faktiskt<br />

spaltantal a<br />

A 0 4152 2780<br />

B 14 4509 4928<br />

C 0 376 304<br />

D 19 2300 2624<br />

E 2 1250 880<br />

F 3 830 3616 c. 1700<br />

G 25 1669 1764<br />

H 33 1885 2432<br />

I 9 1337 1256<br />

J 5 381 504<br />

K 38 4013 3880<br />

L 31 1438 1972<br />

M 34 2322 2168<br />

N 16 1018 1308<br />

O 11 1037 1776 c. 1400


69<br />

Tabell 6: Vissa fördelningar per bokstav<br />

Bokstav<br />

Antal ieur.<br />

i 1:a etym.<br />

Antal<br />

1:a etym.<br />

Spalter i<br />

boken<br />

Faktiskt<br />

spaltantal a<br />

P 0 554 3132 c. 1000<br />

Q 0 0 4 0<br />

R 21 2556 4632 c. 4200<br />

S 19 4760 13.768 c. 10.600<br />

Där över huvud taget någon etymologisk upplysning ges är det här [i sammansättningar<br />

i ramsa] oftast fråga om översättningslån, … (Ekbo & Loman<br />

1971:25).<br />

Den ojämlika behandlingen av enkla ord och sammansättningar kan ställa till problem om<br />

man vill jämföra just den etymologiska bakgrunden hos ord som har lånats in som sama.<br />

Det antal spalter som har utnyttjats i undersökningen anges enbart om det<br />

avviker från antalet i den tryckta boken.<br />

Mängden ieur. är låg under de två först färdigställda bokstäverna A och C för att stiga under<br />

B och D. Sedan sjunker den abrupt. De låga siffrorna på A och C beror delvis på att<br />

förkortningen ieur. inte hunnit sätta sig ännu. Sänkningen efter D hänger samman med<br />

den uppstramning av <strong>ordbok</strong>ens arbete som skedde under Ebbe Tuneld i början av tjugotalet<br />

(Sigurd 1986:156). Med tiden svänger pendeln från hastighet i publiceringen till utförlighet<br />

igen. Andelen ieur. stiger redan under G för att minska med början på O – och så<br />

stiger den igen under R och S. Även här finns det ett samband med byten av <strong>ordbok</strong>schef:<br />

Pelle Holm avlöser Tuneld under M för att sedan själv avlösas av Sven Ekbo ungefär vid<br />

övergången till R.<br />

Det viktiga med den övergripande variationen i andelen ieur. är att den visar på att förskjutningar<br />

i redaktionell policy kan ställa till besynnerliga ojämnheter i materialet. Tabellen<br />

visar dessutom att inte ens en gammal redaktör som Sigurd (med ronsard som<br />

första och sjastrar som sista artikel) har en säker intuition för hur SAOB är uppbyggd. Det<br />

får försiktiga redaktörer att lite svepande formulera sig i stil med:<br />

SAOB ger i allmänhet inga urgermanska eller urindoeuropeiska konstruerade<br />

former; av den sakförståndige kan dessa former ändå utan svårighet konstrueras.<br />

(Ekbo & Loman 1971:25).<br />

Försiktighet befrämjar nog korrektheten, men knappast tydligheten i bilden av <strong>ordbok</strong>en.<br />

OSA-databasen gör att svårigheten att få grepp om den interna variationen i SAOB minskar<br />

i någon mån, men det är värt att notera att det fortfarande kan vara problematiskt att<br />

utifrån summariska sammanställningar komma fram till vad variationen egentligen beror<br />

på och vad den säger. Den som studerar tabellen ovan utan tillräcklig bakgrundskunskap<br />

kan t.ex. dra slutsatsen att ord som inleds med A, C och E är mindre ”indoeuropeiska”<br />

än de som inleds av andra bokstäver. För en språkvetare är redan bruttosiffrornas storlek<br />

en varning, andelen ord i svenskan med indoeuropeiskt ursprung bör rimligen vara större<br />

än någon procent. Men vilka intuitioner har vi för frekvenser hos t.ex. ord som ytterst<br />

kommer från semitiska språk<br />

Nu varierar inte utförligheten i etymologierna bara med när artiklarna är skrivna. En<br />

minst lika viktig faktor är att olika delar av ordförrådet behandlas på skilda sätt. Ett par<br />

uttalade principer är att ge lånord knappare behandling än arvord och nya lån knappare<br />

än äldre (Ekbo & Loman 1971:25). Rimligtvis är det något som kan göra att 1500-talet kan<br />

få proportionellt sett för höga siffror för lån ytterst från persiska jämfört med 1900-talet.<br />

Även morfologiskt mera komplexa ord tenderar att bli mindre utförligt behandlade. Det<br />

gäller inte minst sammansättningar:


70<br />

mansättningar respektive enkla ord. Därmed inte sagt att det alltid skulle röra sig om<br />

ohanterliga problem. Genom att man kan räkna ut i vilken riktning som felkällorna kommer<br />

att påverka sifforna går det ofta att kompensera för dem. Men det är inte några korrektioner<br />

som utförs automatiskt.<br />

Relationerna mellan enheterna i etymologierna<br />

Den typiska etymologin, i SAOB och annorstädes, är en kortare eller längre kedja där ett<br />

ord knyts samman med en räcka bakomliggande former. I det enklaste fallet innehåller<br />

kedjan bara en länk med information om relation, språk och form enligt mönstret:<br />

av t. xxx<br />

En omedelbar fråga är nu hur det lilla av skall tolkas. Det verkar rimligt att anta att det<br />

indikerar att det ord som etymologin gäller har kommit från det språk som anges:<br />

När ord har lånats från ett visst språk meddelas det ofta med prepositionen av<br />

följd av beteckning för det språk som ordet direkt kan härledas ifrån. Skulle det<br />

i stället stå efter följt av en språkbeteckning och ett ord på detta främmande<br />

språk, innebär det att ordet är bildat efter mönster av det främmande ordet,<br />

t.ex. det döda sprödighet ’sprödhet’ efter tyskans sprödigkeit eller rättfärdig<br />

efter medellågtyska rechtverdich (tyska rechtvertig). När efter används påminner<br />

förhållandet mellan orden ibland om det som råder vid översättningslån,<br />

men vid sådana anförs det ord som är det sannolika ursprunget till det förmodade<br />

översättningslånet ofta efter ett jämför (jfr), t.ex. rörelsefrihet: jfr t. bewegungsfreihet.<br />

(Lundbladh 1992:73)<br />

En liten detalj är att Lundbladh inte säger att av innebär ett starkt hävdande av omedelbart<br />

ursprung. Hellqvist, som Lundbladh ger en allmän hänvisning till (1992:74), går så<br />

långt att han jämställer av med ytterst av och påpekar explicit att av inte innebär ett ställningstagande<br />

till om ordet kommit in direkt eller genom förmedling av ett annat språk –<br />

starkt hävdande av direktlån sker med prepositionen från (Hellqvist 1966:1480). Skälet<br />

till att denna typ av detaljer är av synnerlig vikt i kvantitativt orienterade undersökningar<br />

är att de kan leda till grova snedvridningar i resultaten om de inte beaktas. Ett exempel<br />

på det är etymologier enligt schemat:<br />

avledn. av XXX<br />

Skrivsättet kan inte tas till intäkt för att det rör sig om en inhemsk avledning, även om en<br />

sådan formulering normalt innebär att det åtminstone delvis kan vara det (Ekbo & Loman<br />

1971:25). Vid första anblicken kan SAOB:s princip här verka mer än lovligt lättsinnig,<br />

men det finns allvarliga språkvetenskapliga problem i bakgrunden. När man diskuterar<br />

etymologier sker det ofta med metaforer som inte alltid leder tankarna rätt, något som för<br />

övrigt Ralph har kritiserat (Ralph 1994:72). I metaforsystemet ingår att man tänker sig<br />

språk som avgränsade aktörer som lämnar över ord till varandra. Men i verkligheten finns<br />

det språkbrukare som krånglar till det hela. Det är de som lånar och skapar orden, inte<br />

språken i sig. Det är t.ex. fullt möjligt att vissa ord som ser ut som vanliga lån från tyskan<br />

i själva verket är avledningar som en svensk med kunskaper i tyska har ”lånat in” från sin<br />

egen tyska idiolekt, där ordet finns som en nybildning. <strong>Svenska</strong>n kan därför ha lånat in<br />

ord från tyskan som ingen tysk någonsin vare sig har tänkt, sagt eller skrivit (jfr liknande<br />

fenomen i det äktsvenska freestyle för engelskans walkman). Språkvetenskapligt är detta<br />

egentligen självklart, men det har obehagliga implikationer för den etymologiska forskningen<br />

genom att det gör det svårare att avgöra ordens ursprung.<br />

I det aktuella fallet med etymologier till avledningar motiverar svårigheten att bestämma<br />

hur avledningen egentligen har kommit in i svenskan den undanglidande tolkningen<br />

av avledn. av. Priset för denna försiktighet är dock att av får skilda betydelser i etymologier<br />

med avledn. av jämfört med normalfallet. I normalfallet innebär av ett hävdande av<br />

att det som följer efter har varit inblandat i tillblivelsen, i fallet med avledn. av gör redak-


71<br />

törerna Ekbo och Loman en markering av att av i just det fallet inte innebär ett sådant<br />

hävdande. Vad detta får för praktiska konsekvenser vid maskinella sökningar framgår<br />

tydligare om man drar in de frekventa jfr-etymologierna – av de 36.416 förstaetymologier<br />

som nämns ovan är 16.609 sådana. De används i samband med översättningslån på det<br />

sätt som Lundbladh nämner i citatet ovan, men de används också för att markera t.ex. osäkerhet<br />

om inlåningsväg. Det är lätt att räkna ut att exterritorial kommer ytterst av latinet<br />

eller i varje fall av latinskt material, men svårare att säga om vi har fått ordet via tyskan,<br />

engelskan eller franskan (om det nu inte har kommit via alla vägarna parallellt), vilket<br />

motiverar etymologin:<br />

jfr t., eng., fr. exterritorial, ytterst av ex, ur (se EX-) o. territorium, område (se<br />

TERRITORIUM)<br />

Det torde i många sammanhang vara mera relevant att föra samman avledn. av med jfr<br />

än att gruppera alla etymologier med av i en kategori i kontrast till dem med jfr. Men är<br />

alla jfr jämbördiga, eller måste även den gruppen finfördelas efter vad som skenbart bara<br />

är små detaljer<br />

Språken i etymologierna<br />

Till de bekymmer som man kan vilja befria en användare av SAOB från är variationer i<br />

språkbeteckningar. Dessa är av två slag: (1) rena variationer i uttryckssätt, t.ex. sp. –<br />

span. – spanska och holl. – nl.; (2) variationer i omfång, t.ex. t. – ht. – lt. – mlt. Den senare<br />

typen ställer till mycket svåra problem vid sammanräkningar. När skall t.ex. skånsk dialekt<br />

räknas som en form av svenska <strong>Om</strong> man väljer att räkna äldre skånska ord som har<br />

lånats in i rikssvenskan som danska lån, skall då t.ex. småländska ord som har lånats in<br />

i riksspråket räknas som svenska lån Denna typ av frågor kan inte be<strong>svar</strong>as generellt då<br />

olika tolkningar är relevanta för olika undersökningar. Variationer av den första typen<br />

mellan synonymer är dock lätta att hantera tekniskt, åtminstone i princip. Den allra enklaste<br />

lösningen är att normalisera den redaktionella texten genom att välja ut en av de alternativa<br />

beteckningarna och ändra konsekvent till den, en operation som i praktiken<br />

bara är en förfinad form av den typ av sök- och ändra-operation som alla med erfarenhet<br />

av ordbehandling är bekant med. Det förfinade ligger i att utbytena måste göras starkt<br />

kontextberoende så att språkprov och liknande inte korrumperas. En aningen mer komplicerad<br />

lösning är att lägga in normaliseringar i SGML-taggar (för allmänna aspekter på<br />

taggningen se “SGML-taggning av SAOB” på sidan 15 och framåt.). Det är den senare lösningen<br />

som kommer att användas, inte minst för att många språkbeteckningar i vilket fall<br />

som helst måste specialkodas för att tvetydigheter skall undvikas: fr. kan t.ex. lösas upp<br />

både som franska och som från. Innan några justeringar kan göras ens genom att tilläggsinformation<br />

läggs in i SGML-taggar är det dock nödvändigt att man skaffar sig ett mycket<br />

gott grepp om vilka språkkoder som faktiskt används i texten och om hur de varierar med<br />

varandra. Den existerande dokumentationen hjälper långt men inte riktigt ända fram då<br />

dess huvudsakliga uppgift är att vägleda redaktörerna, inte att redovisa varje egenhet<br />

som har uppstått under ett sekels arbete. Den största svårigheten rent praktiskt är dock<br />

att informationen är spridd i ett antal olika källor, vilket gör det lätt att missa något. Det<br />

är därför nödvändigt att komplettera med rent empiriska undersökningar för att leta reda<br />

på odokumenterade språkkoder och för att kontrollera att den existerande dokumentationen<br />

verkligen stämmer – och inte minst att man har grävt tillräckligt djupt i den. Det kan<br />

illustreras med paren holl. – nl. och lt. – nt.<br />

Man skulle kunna tro holl. var en nl.-dialekt, d.v.s. att beteckningarna är närliggande<br />

men inte synonyma, men i själva verket har den förra beteckningen blivit ersatt med den<br />

senare. Det gör att nl. inte nämns i förkortningslistan i bd 1, däremot noterar Lundbladh<br />

(1992:80) ändringen. I det djupbearbetade materialet finns också en skarp gräns: sista ordet<br />

med anknytning till holl. är skytke och första med en koppling till nl. är slopa. Detta<br />

fall är lyckligt i det att man kan verifiera att dokumentationen och den faktiska texten


72<br />

stämmer med varandra. Det är inte riktigt lika enkelt med nt. och lt. Av dessa nämns formen<br />

nt. varken i Lundbladhs förkortningslista eller i förordet till bd. 1. Däremot finns den<br />

med i redaktionens tryckta men opublicerade Handbok för redigering af <strong>Svenska</strong> <strong>Akademiens</strong><br />

<strong>ordbok</strong> från 1904. I de djupbearbetade etymologierna dyker nt. upp redan i akter och<br />

försvinner efter nidska, där det alltså ersätts av lt.<br />

Den språkhistoriskt bildade som använder SAOB för att slå upp enstaka ord på ordinärt<br />

sätt kan nog räkna ut att nt. är en förkortning av nedertyska, ungefär som mnt är en<br />

förkortning för medelnedertyska. Den som söker maskinellt på lt. och mlt. för att hitta lågtyskt<br />

inflytande anar nog att allt inte står rätt till när inte ett enda belägg dyker upp före<br />

bokstaven O. Den som kan råka illa ut är den som utgår från t.ex. Lundbladh och söker på<br />

de beteckningar som har lågtyska eller nedertyska i sig där (lt., mlt. och mnt.). I en sådan<br />

sökning förrycks resultatet en aning, men inte helt. Det är tillräckligt för att den skall<br />

kunna påverka slutsatser, men tillräckligt liten för att felkällan skall vara svår att märka.<br />

När väl variationen är upptäckt i fall som holl. – nl. och nt – lt. är den ofta lätt att åtgärda<br />

med hjälp av en normalisering eller tilläggsinformation i en SGML-tagg.<br />

Litteratur<br />

Ekbo, S. & Loman, B. [1965] 1971. Vägledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 2 uppl.<br />

Stockholm.<br />

Engwall, G. 1994. Svenskt och franskt. I: Arv och lån i svenskan : Sju uppsatser om<br />

ordförrådet i kulturströmmarnas prespektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />

Stockholm.<br />

Gellerstam, M. 1994. Ordförrådets härledning. Arv och lån i svenskan : Sju uppsatser om<br />

ordförrådet i kulturströmmarnas prespektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />

Stockholm.<br />

Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1904. Utarbetad av Ernst<br />

Kock.<br />

Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1993. Utarbetad av Hans<br />

Jonsson.<br />

Hellqvist, E. 1966. Svensk etymologisk <strong>ordbok</strong>. Bd 2. 3. uppl. Lund.<br />

Jonsson, H. 1983. Ekeblad och SAOB. Nysvenska studier. Årg. 61. 19181. Lund.<br />

Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. Lund.<br />

Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />

1893 –. Lund.<br />

Ralph, B. 1994. Svenskt och nordiskt. Arv och lån i svenskan : Sju uppsatser om<br />

ordförrådet i kulturströmmarnas prespektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />

Stockholm.<br />

Sigurd, B. 1986. Ordboken, ordlistan och några andra av <strong>Svenska</strong> <strong>Akademiens</strong> språkliga<br />

insatser under 1900-talet. I: Allén, Sture & Loman, Bengt & Sigurd, Bengt 1986.<br />

<strong>Svenska</strong> Akademien och svenska språket : Tre studier. Stockholm.


73<br />

Lars Svensson<br />

Att söka i Språkdatas SAOB-konkordans<br />

Artiklarna i SAOB måste självklart följa de redigeringsregler och principer och starkt<br />

formelaktiga språk som tillämpas, så att verket får en enhetlig och likartad form. Trots<br />

manualer och diskussioner och sökande i <strong>ordbok</strong>en, som har lång tradition, kan det emellertid<br />

inte så sällan vara svårt att snabbt finna lämpliga paralleller l. modeller l. likartade<br />

exempel på det formella planet, t. ex. i fråga om ett ords uttal, böjning l. bruklighet l. en<br />

anmärknings placering l. formulering osv. Ibland minns man (delar av) en bra formulering<br />

av en anmärkning l. bruklighetsangivelse o. d. men inte i vilken artikel den står. Därför<br />

hälsar vi på <strong>ordbok</strong>sredaktionen med stor tillfredsställelse att Språkdatas SAOB-konkordans<br />

nu finns tillgänglig på universitetsnätet.<br />

Konkordansen utgörs av en optisk inläsning av de tryckta volymerna. Materialet i konkordansprogrammet<br />

är lagrat som löpande text i form av ett antal delmängder, var och en<br />

– i vårt fall – bestående av en <strong>ordbok</strong>sartikel. Varje delmängd är försedd med uppgift om<br />

beläggställe. Till ett givet ord kan man få en grafordlista, en konkordans och en kontext.<br />

Graforden och konkordanserna kan sorteras initial- och finalalfabetiskt. Man kan även<br />

söka på fras och årtal, men också på brukligheten (†) [= dead]. Man kan bläddra rad för<br />

rad eller sida för sida och växla listningsriktning. Kommandot ”/a” utvidgar kontexten till<br />

en hel spalt. Det går också att göra en utskrift av skärmbilden.<br />

Hur fungerar då SAOB-konkordansen i praktiken Ja, på det hela taget mycket bra.<br />

Med hjälp av SAOB-konkordansen kan man t. ex. kontrollera en källas skrivning eller<br />

förkortning. Detta är värdefullt, om det förekommer flera uppgifter om källans förkortning.<br />

En sökning på källan ger i allmänhet besked direkt. Vid ett tillfälle kunde en kontrollant<br />

inte finna den på excerptlappen angivna källan Buttmann (1825) bland våra<br />

förkortningar eller i den s. k. Grållan – kontrollanternas egen uppslagsbok och "bibel" rörande<br />

källorna – men en sökning i databasen gav besked: FAXE Buttmann (1825) skall<br />

källan heta. (J. Faxe har översatt Buttmanns grekiska grammatik och kommer att stå som<br />

"författare", eftersom det är den svenske översättarens språk som behandlas i SAOB.)<br />

<strong>Om</strong> man skall behandla t. ex. en lek eller titel eller ett oböjligt substantiv, så är det<br />

lämpligt att studera hur sådana artiklar brukar behandlas i <strong>ordbok</strong>en.<br />

Anmärkningar är vanliga i <strong>ordbok</strong>en. I en anmärkning kan man behandla en misstänkt<br />

eller avvikande ordform, en felöversättning, att ordet böjdes med latinska ändelser i äldre<br />

svenska o. d. Självklart har man nytta av att granska några anmärkningar för att se vilka<br />

stilar som används, var anmärkningen skall placeras i artikeln. Osv.<br />

Andra exempel där databasen kan ge hjälp och ledning.<br />

Hur återges stumt tecken i ryska ord i etymologiska parentesen<br />

Hur används t. ex. termen "överförd" i SAOB<br />

Exempel på verb bildade till det svaga avljudsstadiet<br />

Exempel på retrograd ordbildning<br />

Uttalsuppgifter i äldre ordböcker (t.ex. Dalins Ordbok öfver svenska språket (1850–<br />

1855), Westes Svenskt och fransyskt lexicon (1807) anförs vid ord, som är döda. Var skall<br />

dessa uttaluppgifter placeras i <strong>ordbok</strong>sartikeln Vilken stil skall de ha Osv.<br />

En svaghet med databasen är att träffarna avser samtliga förekomster av den sökta<br />

bokstavsförbindelsen. Söker man siffrorna t. ex. 1990 så betecknar siffrorna dels årtal,<br />

dels siduppgift i en källa. Men äv. fall som 19:90 registreras. Söker man på STRINDBERG<br />

– 4.775 träffar i databasen – så redovisas samtliga anträffade STRINDBERG: författaren,


74<br />

titlar innehållande ordet STRINDBERG, citat där STRINDBERG ingår, STRINDBERG<br />

som sammansättningsled osv.<br />

När man söker på mer än ett ord så gäller det att reducera antalet träffar. Söker man<br />

t. ex. på ”sbst. oböjl.” så tar det en stund innan man kommit fram till detta ställe i databasen,<br />

eftersom programmet letar sekvensiellt efter det andra ordet i kontexten. Det innebär<br />

att man först får samtliga fall av ”sbst. + o. d., o. p. adj., o. v.”, och så till slut ”sbst. +<br />

oböjl.” Men i stället för att bläddra sig igenom ramsan till aktuellt ställe, så kan man påskynda<br />

sökningen gm att söka på ”sbst. o. v.”, varefter ”sbst. oböjl.” följer. Och att leta igenom<br />

9.225 träffar ”anmärkningar” är hopplöst men träffarna reduceras betydligt om man<br />

söker på t. ex. sekvensen: ”Anm. I nedanstående källa (språkprov)” eller: ”Anm. I äldre<br />

nysv. (sv., tid)”. På samma sätt kan träffarna för ”ry.” (= ryska) reduceras, om man inte<br />

söker på enbart ”ry.” (374 träffar) utan på ”av ry.” eller ”i ry” eller ”efter ry.”, vilket utesluter<br />

icke-språkliga kontexter.<br />

Det vore således idealet om man så småningom kunde söka på parentes, stil eller avdelning<br />

i artikeln (t. ex. etymologiska parentensen). Trots ovan nämnd ”olägenhet”, så<br />

fungerar dock databasen bra som stöd och hjälpmedel för <strong>ordbok</strong>sredaktionen. Det finns<br />

dessutom möjlighet för oss att av Språkdata få en specialkörning eller specialsökning, om<br />

så skulle behövas. På datornätet finns sedan en tid tillbaka dessutom några mycket nyttiga<br />

ordlistor tillkomna som en frukt av konkordansarbetet. Ordbokens samtliga sammansättningar<br />

är sorterade på efterled, huvudorden och avledningarna finalalfabetiskt<br />

ordnade och de särskilda förbindelserna sorterade på partikeln. Vi i Lund tackar och tar<br />

emot!


75<br />

SAOB på Internet<br />

Följande information finns tillgänglig genom OSA-projektets hemsida på Internet:<br />

Konkordans över SAOB Detta är tillsvidare det enda sättet att söka i hela SAOB. Formatet<br />

är dock svårläst och kräver troligen att man har <strong>ordbok</strong>en vid sidan om.<br />

Ordlistor.<br />

Huvudord (alfabetisk och finalalfabetisk sortering)<br />

sammansättningar (sorterade på efterled)<br />

avledningar (finalalfabetisk sortering)<br />

särskilda förbindelser (sorterade på partikel)<br />

facktermer (kronologiskt sorterade)<br />

Bibliografisk databas Databasen är ursprungligen upplagd av <strong>ordbok</strong>schefen Lars<br />

Svensson. Den innehåller samtliga källor i SAOB t.o.m. 1990, sammanlagt c:a 19 000 referenser.<br />

Vissa justeringar och utökade sökmöjligheter har utförts inom OSA-projektet (se<br />

“Bibliografisk databas” på sidan 37 och framåt).<br />

Hypertextlexikon Vi har bearbetat artiklarna A-advokat för att visa på hur en elektronisk<br />

version av SAOB kan komma att se ut. Det finns också ett enklare söksystem kopplat<br />

till hypertextlexikonet, där man kan söka på huvudord eller del av ett huvudord, t.ex. alla<br />

ord som slutar på ”tion” (se “SAOB som hypertext” på sidan 47 och framåt).<br />

Adresser<br />

Adressen till OSA-projektets hemsida på Internet/World Wide Web är:<br />

http://svenska.gu.se/saob/saobusers.html<br />

Från hemsidan kommer man också åt konkordansprogrammet (Telnet-uppkoppling). Man<br />

kan ta kontakt med systemet direkt via Telnet på följande adress:<br />

svenska.gu.se


77<br />

Ordlista<br />

DTD (Document Type Definition) En dokumenttypsdefinition är en specifikation av<br />

vilka strukturer som får finnas i dokument av den aktuella typen. En <strong>ordbok</strong> kan t.ex.<br />

definieras som en följd av artiklar, som i sin tur har en given följd av byggelement:<br />

först stickord, sedan uttal, former o.s.v. I SGML-sammanhang (jfr SGML) används<br />

DTD:er vid maskinell kontroll av att strukturen i dokumenten är korrekt markerad.<br />

hypertext Text med förgreningar (länkar) som gör det lätt för läsaren att välja sin egen<br />

väg genom texten eller textkomplexet. I en <strong>ordbok</strong> är det naturligt att t.ex. göra länkar<br />

mellan förkortningar i själva <strong>ordbok</strong>stexten och förklaringar till dem. Den koppling av<br />

källhänvisningar i texten till bibliografin som diskuteras av Sofie Kokkinakis<br />

Johansson är ett exempel på hur projektet omvandlar SAOB till en regelrätt hypertext<br />

(sidan 47).<br />

HTML (Hypertext Markup Language) Märkningsspråk (inom ramen för SGML) för<br />

hypertext som används på World Wide Web.<br />

märkningsspråk (markup language) Formellt språk för att märka upp den<br />

innehållsliga strukturen i texter. I SGML-sammanhang definieras märkningsspråket<br />

med en dokumenttypsdefinition (jfr DTD).<br />

OCR (Optical Character Recognition) Datorbaserad överföring av text på papper till<br />

för dator hanterligt format. Maskinen identifierar alltså följden av skrivtecken i<br />

texten. Tekniken fungerar bäst för tryckt eller maskinellt utskriven text.<br />

Perl (Practical Extraction and Report Language) Programmeringsspråk som i första<br />

hand är tänkt att användas dels för systemadministration, men som i stor<br />

utsträckning används för bearbetning av stora texter.<br />

sed (Stream Text Editor) Standardverktyg (editor) inom operativsystemet Unix. Ger<br />

bl.a. en möjlighet att använda reguljära uttryck för att bearbeta texter.<br />

SGML (Standard Generalized Markup Language) SGML är en internationell<br />

standard (ISO 8879) som är till för att göra det lättare att föra över text mellan olika<br />

system. En huvudprincip är att man i första hand skall bekymra sig om vad som är<br />

textens logiska beståndsdelar (vad som är rubriker, framhävd stil, stickord,<br />

etymologier o.s.v.), inte precis om hur de skall se ut.<br />

TEI (Text Encoding Initiative) Internationellt samarbetsprojekt som startades 1987<br />

för att ta fram generella märkningsmodeller för elektroniska texter inom ramen för<br />

SGML. TEI har finansierats av The Association for Computers and the Humanities<br />

(ACH), The Association for Computational Linguistics (ACL) och The Association for<br />

Literary and Linguistic Computing (ALLC). Som ett resultat av projektet publicerades<br />

1994 Guidelines for Electronic Text Encoding and Interchange (TEI P3), redigerad av<br />

C.M. Sperberg-MacQueen och Lou Burnard.<br />

WWW eller web (World Wide Web) Ett världsomspännade informationssystem på<br />

Internet för att länka samman text (hypertext), bilder, video och ljud.


Research Reports from the Department of Swedish, Göteborg University<br />

GU-ISS-96-1<br />

GU-ISS-96-2<br />

GU-ISS-96-3<br />

GU-ISS-96-4<br />

GU-ISS-96-5<br />

GU-ISS-96-6<br />

GU-ISS-96-7<br />

GU-ISS-96-8<br />

GU-ISS-96-9<br />

GU-ISS-96-10<br />

GU-ISS-96-11<br />

Eva Holmqvist, Strukturerad visuell information i en tesaurus för<br />

svenska. Uppsats för licentiatexamen i: Språkvetenskaplig<br />

databehandling med lexikologi<br />

Pernilla Danielsson & Daniel Ridings, PEDANT. Parallel Texts in<br />

Göteborg<br />

Jerker Järborg, Formaliserad lexikologi. Rapport från ett<br />

långtidsprojekt. (Preliminär version)<br />

Sture Allén, Yvonne Cederholm, Sofie Johansson Kokkinakis,<br />

Lena Rogström, Rudolf Rydstedt & Lars Svensson,<br />

<strong>Om</strong> <strong>svar</strong> anhålles. Rapport från projektet OSA.<br />

Sofie Johansson Kokkinakis & Dimitrios Kokkinakis, Rule-Based<br />

Tagging in Språkbanken.<br />

Yvonne Cederholm, A Historical Database of Swedish: The O.S.A<br />

Project. Accepted to EURALEX ’96, Göteborg, August 13-19 1996.<br />

Pernilla Danielsson & Daniel Ridings, Annotating Parallel Texts<br />

with the NSL library.<br />

Pernilla Danielsson & Daniel Ridings, Corpus and Terminology:<br />

Software for the Translation Program at Göteborgs universitet or Getting<br />

students to do the work. Accepted to TALC ’96, Lancaster<br />

Pernilla Danielsson & Daniel Ridings, Terminology in Parallel Texts.<br />

Accepted to TKE ’96, Vienna.<br />

Dimitrios Kokkinakis, A system for semi-automatic tagging of (Greek)<br />

corpora. Experiments, results and evaluation. Accepted to the<br />

2nd International Conference on Greek Linguistics, Salzburg, Öst.<br />

Sept 1995.<br />

Dimitrios Kokkinakis, Towards Automatic Corpus-Based Argument<br />

Identification. Accepted to the Predicative Forms in Natural Language<br />

and Lexical Knowledge Bases Workshop, Toulouse, Fra. 1-2 August 1996.<br />

ISSN-1401-5919

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!