Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
GU-ISS-96-4<br />
Research Reports from<br />
the Department of Swedish,<br />
Göteborg University<br />
ISSN-1401-5919<br />
<strong>Om</strong> <strong>svar</strong> anhålles<br />
Rapport från projeket OSA<br />
(Augusti 1996)<br />
Sture Allén<br />
Yvonne Cederholm<br />
Sofie Johansson Kokkinakis<br />
Lena Rogström<br />
Rudolf Rydstedt<br />
Lars Svensson<br />
Språkdata, Institutionen för svenska språket<br />
Göteborgs universitet, 412 98 Göteborg
Innehåll<br />
Förord . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />
Sture Allén<br />
OSA<br />
Ett datalingvistiskt projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7<br />
Rudolf Rydstedt<br />
Inläsningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
Yvonne Cederholm<br />
SGML-taggning av SAOB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
Lena Rogström<br />
Taggning i praktiken – en personlig reflektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
Sofie Johansson Kokkinakis<br />
Bibliografisk databas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
Lena Rogström<br />
Den ortografiska normen i SAOB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
Sofie Johansson Kokkinakis<br />
SAOB som hypertext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />
Rudolf Rydstedt<br />
SAOB:s täckning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
Lena Rogström<br />
OSA-databasen i praktiken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />
Rudolf Rydstedt<br />
Etymologierna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
Lars Svensson<br />
Att söka i Språkdatas SAOB-konkordans. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
SAOB på Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />
Ordlista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5<br />
Förord<br />
Projektet OSA har som primärt syfte är att omarbeta <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> till en<br />
historisk lexikalisk databas. I första avsnittet av denna rapport ges bakgrunden till projektet<br />
på basis av Sture Alléns framställning till <strong>Svenska</strong> Akademien år 1981. Projektet<br />
leds av professor Sture Allén och i projektgruppen ingår för närvarande också Yvonne<br />
Cederholm, Sofie Johansson Kokkinakis, Maja Lindfors Viklund, Ulla Martinsson, Lena<br />
Rogström och Rudolf Rydstedt.<br />
Denna rapport beskriver hur projektet fortskridit hittills. Arbetet med den optiska inläsningen<br />
av materialet behandlas översiktligt. Övriga avsnitt ägnas huvudsakligen åt<br />
det nuvarande arbetet med att märka upp <strong>ordbok</strong>ens innehållsstruktur i SGML. (På<br />
sidan 77 finns en ordlista där SGML och andra termer förklaras.) Här presenteras taggningsmodellen<br />
och den metod vi använt i taggningsarbetet. Vi går också in på problemen<br />
med variation på olika nivåer i <strong>ordbok</strong>en och vad det får för konsekvenser när man skall<br />
söka i <strong>ordbok</strong>en.<br />
Den största delen av denna rapport handlar om <strong>ordbok</strong>ens interna stuktur. Först i nästa<br />
rapport kommer tyngdpunkten att ligga på själva användningen av databasen. Användarens<br />
perspektiv berörs dock i ett avsnitt av <strong>ordbok</strong>schefen Lars Svensson, där han<br />
skriver om hur konkordansen över SAOB används i <strong>ordbok</strong>sredaktionens arbete. Lena<br />
Rogström skriver också om hur hon använt konkordansen i sitt avhandlingsarbete.<br />
Konkordansen över SAOB finns tillgänglig på Internet (Internetadresser finns på<br />
sidan 75). På Internet finns också finalalfabetiskt ordnade ordlistor och en bibliografisk<br />
databas över SAOB:s källor samt en demoversion av SAOB i hypertextformat. Redan idag<br />
kan man se att det finns ett stort intresse för en Internetversion av SAOB. Projektet OSA:s<br />
hemsidor på Internet besöks idag av ca 300 användare i veckan. Framtida publiceringsplaner<br />
på Internet och/eller CD-ROM diskuteras dock inte i denna rapport.<br />
Göteborg i augusti 1996<br />
Yvonne Cederholm<br />
bitr. projektledare
7<br />
Sture Allén<br />
OSA<br />
Ett datalingvistiskt projekt<br />
Efter framställningen till <strong>Svenska</strong> Akademien i november 1981<br />
Sammanfattning<br />
Projektets titel syftar på forskares och andra användares situation inför ett stort informationsmaterial:<br />
<strong>Om</strong> Svar Anhålles. Många slags frågor med lexikalisk och textuell syftning<br />
kan inte få <strong>svar</strong>, därför att materialet inte är tillgängligt på det sätt som krävs. Syftet med<br />
projektet är att läsa in, lagra, bearbeta, tillhandahålla och undersöka lexikaliskt och textuellt<br />
stoff med datalingvistiska metoder. Avgörande är att detta nu kan ske på basis av<br />
optisk läsning.<br />
Projektet har två faser. I den första fasen läses <strong>Svenska</strong> <strong>Akademiens</strong> historiska <strong>ordbok</strong><br />
(SAOB) in med hjälp av en optisk klartextläsare och lagras som en databas. Ordboken,<br />
som med sina 26 000 sidor representerar minst 2000 årsverken, blir härigenom tillgänglig<br />
på ett mångfasetterat sätt för sökning och forskning. Från denna synpunkt kan OSA också<br />
utläsas Ordbok över <strong>Svenska</strong> Språket utgiven av <strong>Svenska</strong> Akademien.<br />
Inläsningen av SAOB ger öppningar för den historiska lexikologin. För den nuspråkliga<br />
lexikologin förfogar institutionen – Språkdata, Göteborgs universitet – över ordmaterialet<br />
i projektet Lexikalisk databas och i Nusvensk frekvens<strong>ordbok</strong>, vartill kommer den maskinläsbara<br />
versionen av <strong>Svenska</strong> <strong>Akademiens</strong> ordlista (SAOL).<br />
Varje <strong>ordbok</strong> är emellertid ett urval. Det blir därför viktigt att komplettera de lexikaliska<br />
databaserna med texter. Fas 2 ägnas sålunda åt att med den optiska läsarens hjälp<br />
göra en serie texter från reformationen till idag tillgängliga i maskinläsbar form. På dessa<br />
grundas ordindex, som gör det möjligt att öka täckningen av svenskans ordbestånd.<br />
Projektet aktualiserar också centrala datalingvistiska frågor som texters lagringsform,<br />
algoritmisk analys av löpande text och hantering av stavning<strong>svar</strong>iation. Vissa projekt och<br />
förstudier på dessa områden har genomförts vid institutionen.<br />
Bakgrund<br />
Man möter idag en växande insikt om lexikonets centrala roll i perception och produktion<br />
av naturligt språk och i beskrivningen av naturligt språk. Lexikonet ses härvid som ett<br />
dynamiskt system av morfosemantiska enheter på ord-, ordleds- och frasplanet, underkastade<br />
särskilda kombinatoriska regler. Denna inriktning kan sägas profilera europeisk<br />
lingvistik (Calzolari, Lenders, Mel’cuk, Petöfi, Quemada, Rieser, Zampolli m.fl.) visavi<br />
amerikansk. Också på amerikanskt håll kan man emellertid se tecken på en omorientering.<br />
Vid Språkdata har vi sedan mitten av 1960-talet på vårt håll bidragit till denna perspektivförändring<br />
genom att utveckla och tillämpa datalingvistisk metod och teknik för lexikalisk<br />
forskning i mycket vid mening.<br />
Det största hittills genomförda projektet har resulterat i publiceringen av Nusvensk frekvens<strong>ordbok</strong><br />
1–4 (1970–80), som på drygt 4000 sidor presenterar ord, fraser, ordled och betydelser<br />
i ett textmaterial av en miljon ord. I anslutning till frekvens<strong>ordbok</strong>en har en rad<br />
andra ordböcker givits ut från institutionen. Dit hör Tiotusen i topp (Allén), en mindre
8<br />
frekvens<strong>ordbok</strong>. Dit hör Olika lika ord (Berg), ett svenskt homograflexikon. Dit hör också<br />
Svensk baklänges<strong>ordbok</strong> (Allén et al.), en specialbearbetning av materialet i frekvens<strong>ordbok</strong>en<br />
och i <strong>Svenska</strong> <strong>Akademiens</strong> ordlista med orden ordnade ordslutsvis.<br />
På det lexikaliska området kan vidare nämnas Förnamnsboken (Allén & Wåhlin), som ger<br />
uppgifter om de 10 000 vanligaste förnamnen, och Ord och fras i psalmboken (Gellerstam<br />
& Gellerstam). Dessutom ingår i serien Data linguistica en morfolexikalisk beskrivning av<br />
nusvenskan (Hellberg).<br />
Det största nu pågående projektet är Lexikalisk databas, som syftar till att etablera en<br />
välstrukturerad databas med omfattande lexikalisk information om en stor, central del av<br />
den nutida svenskans ordförråd. Från databasen skall bland annat genereras och tryckas<br />
en modern svensk <strong>ordbok</strong>, som på 1000 sidor beskriver och definierar omkring 100 000 ord<br />
(databasen som sådan innehåller för närvarande 150 000 ord). Till databasen är dessutom<br />
knutet ett system av datafiler innehållande fackord på ett stort antal ämnesområden.<br />
Av andra lexikaliska projekt kan nämnas Vokabulärstudier/SAOL, som genomförs med<br />
stöd av <strong>Svenska</strong> Akademien. Inom detta sker nu en uppdatering av 10 upplagan av <strong>Svenska</strong><br />
<strong>Akademiens</strong> ordlista för den kommande 11 upplagan. Vidare har inom projektet Lexikon<br />
för invandrare utarbetats ett särskilt avpassat svenskt underlag i storleksordningen<br />
15 000 ord för översättning till viktiga invandrarspråk. Det kan tillfogas att ordförrådet i<br />
institutionens talspråkliga databas – en halv miljon ord fria samtal – kommer att sammanställas<br />
och göras tillgängligt.<br />
Vid institutionen finns också Logoteket, ett serviceorgan på nationell bas med uppgift att<br />
upprätta en datamaskinell text- och ordbank. Det inrättades 1975 för att möta den ökade<br />
efterfrågan på kvalitativa och kvantitativa data om språket från forskare, myndigheter<br />
och företag.<br />
SAOB i bokform<br />
Det största <strong>ordbok</strong>sverk som gäller svenskan är Ordbok över <strong>Svenska</strong> Språket utgiven av<br />
<strong>Svenska</strong> Akademien (SAOB). Det är en historisk <strong>ordbok</strong> på hög nivå som ger utförlig information<br />
om det svenska skriftspråkets ordförråd från reformationen och framåt. Dess<br />
första häfte kom ut 1893. Det senaste häftet, som kom 1981, går fram till ordet solanin (en<br />
alkaloid).<br />
Ordboksartiklarna är i korthet ordnade på följande sätt. Efter uppslagsordet följer en<br />
uttalsuppgift, en uppgift om ordklass (i förekommande fall genus), en böjningsuppgift, en<br />
uppgift om eventuella sidoformer, en uppgift om variantformer (den s.k. formparentesen)<br />
och en uppgift om uppslagsordets etymologi. Dessa uppgifter bildar artikelns huvud. Efter<br />
detta kommer betydelsebeskrivningen med tillhörande exempel. Här presenteras de olika<br />
urskilda betydelserna jämte uppgifter om bruklighet och äldsta belägg (i vissa fall också<br />
yngsta belägg). Slutligen behandlas sammansättningar, avledningar och i vissa fall särskilda<br />
förbindelser.<br />
SAOB:s hittills utgivna 28 band omfattar c. 26 000 sidor à drygt 8000 tecken, totalt över<br />
200 miljoner tecken. Ett överslag ger vid handen att antalet uppslagsord är av storleksordningen<br />
450 000. Som jämförelse kan nämnas att senaste upplagan av SAOL innehåller<br />
140 000 uppslagsord.<br />
Den arbetsinsats som ligger bakom SAOB – excerpering, redigering, kontroll, administration,<br />
tryckning – kan lågt räknat anges till 2000 årsverken. Detta gör <strong>ordbok</strong>en till det<br />
i särklass största projektet inom i varje fall nordisk språkvetenskap. Uppgiften ger också<br />
en antydan om storleken hos den informationsmängd som ryms mellan pärmarna.
9<br />
SAOB som databas<br />
Till hela denna rikt varierade informationsmängd finns det endast en ingång, den alfabetiska,<br />
och den gäller enbart uppslagsorden. Men <strong>svar</strong>en på en stor mängd grundläggande<br />
frågor låter sig inte utletas via den ingången. Frågorna är tvärtom formulerade i helt andra<br />
kategorier: kronologiska, morfologiska, semantiska, stilistiska, etymologiska m.m.<br />
Hur ser det tidiga 1700-talets ordskatt ut Hur har neutrum plural på -er utvecklats Vilka<br />
ord definieras som hyponymer till tillvägagångssätt Vilka ord anges som tillhörande<br />
det ekonomiska området Vilka lånord från engelskan kom in vid tiden för första världskriget<br />
Osv. Vi vet att <strong>svar</strong>en på sådana frågor finns i de tryckta banden, men de är oåtkomliga<br />
för dem som inte gång efter annan vill excerpera hela den väldiga <strong>ordbok</strong>ssviten.<br />
<strong>Om</strong> <strong>ordbok</strong>en vore tillgänglig i databasform, skulle kategorier som de nämnda bli sökbara.<br />
Man kunde få <strong>svar</strong> på frågorna. Fas 1 i projektet avtecknar sig.<br />
Det finns nu nämligen en apparat med vars hjälp tryckt text kan överföras i datamaskinellt<br />
läsbar form och därigenom göras tillgänglig på ett mycket flexibelt sätt. Det är den<br />
optiska läsaren Kurzweil Data Entry Machine. Den består av en skanner (optisk avsökare),<br />
två minidatorer, en textskärm och ett sekundärminne. Vid användning kalibreras den<br />
först med hänsyn till svärta, sidformat m.m. och tränas sedan att känna igen textens typsnitt.<br />
Därefter kan produktionskörning ske. Läshastigheten är 6–12 gånger högre än en<br />
sekreterares skrivhastighet, beroende på textens typografiska karaktär.<br />
Vid körning visar den sådana tecken på skärmen som har lästs osäkert (på grund av<br />
ojämnhet i svärtan, trasiga typer o.d.). Det kräver att en operatör hela tiden är tillgänglig<br />
för att ange den rätta läsningen på dessa punkter.<br />
Utöver de ingrepp som operatören gör i samband med inläsningen kan texten kontrolleras<br />
med hjälp av olika slags program. Dessa kan t.ex. utföra konsekvenskontroller av typen<br />
moment 1 skall följas av moment 2, vänsterparentes skall mot<strong>svar</strong>as av högerparentes<br />
osv. De kan bland annat också kontrollera bokstavskombinationerna (grafotaxen): insprutning<br />
är ett tillåtligt ord men inte insptutning osv.<br />
Kurzweilläsare är i drift vid t.ex. Library of Congress i Washington, New York Public<br />
Library, Oxford University Computing Service och English Department vid University of<br />
Birmingham. Jag har personlig kontakt med dr Susan Hockey i Oxford och med professor<br />
John Sinclair och hans närmaste medarbetare dr Antoinette Renouf i Birmingham. De<br />
båda senare har f.ö. nyligen gjort ett längre studiebesök vid vår institution. I Oxford håller<br />
man på att lägga upp ett datamaskinellt arkiv med texter på olika språk. I Birmingham<br />
har man börjat läsa in ett stort modernt textmaterial. De nämnda forskarnas erfarenhet<br />
är mycket god.<br />
Genom tillmötesgående från Specialsystem Kinnunen & Co AB, Stockholm, har vi låtit<br />
genomföra ett experiment med Kurzweilläsaren. Hos detta företag finns den enda läsaren<br />
i landet. Man har där bland annat läst in den norska lagboken.<br />
Experimentet, som gjordes i april 1980, gick till så, att vi sände ett par sidor av SAOB<br />
(avsnittet serval – servare) till företaget för inläsning. Efter mycket kort träning av systemet<br />
skedde läsningen. Trots att SAOB i själva verket utnyttjar åtta olika stilar, framstod<br />
resultatet som mycket tillfredsställande.<br />
För att SAOB skall kunna lagras på ett sådant sätt att de olika kategorierna av information<br />
blir sökbara fordras en analys av <strong>ordbok</strong>sartiklarnas logiska och typografiska<br />
struktur. Den fasthet som präglar redaktionens arbete är härvid en stor tillgång. Som presentationen<br />
ovan visade är artiklarna uppbyggda enligt ett bestämt mönster.<br />
En struktur- och systemanalys av det erforderliga slaget har jag tidigare utfört. Det<br />
gällde den gången det maskinskrivna manuskriptet till den 1980 publicerade Stora engelsk-svenska<br />
<strong>ordbok</strong>en (Esselte Studium; 1100 sidor, 120 000 uppslagsord). Analysen ledde<br />
till att <strong>ordbok</strong>en datasattes och lagrades i en sådan form, att kategorier som
10<br />
uppslagsord, uttal, ordklassuppgift, översättning och fraseologi är sökbara. Materialet är<br />
också tillgängligt för forskningsändamål.<br />
Uppläggningen av SAOB i mot<strong>svar</strong>ande form kräver självfallet en programmeringsinsats.<br />
Härvid kan institutionen utnyttja erfarenheten från uppbyggnaden av de system<br />
som nu är i drift, främst Lexikalisk databas.<br />
Det faktum att SAOB inte täcker hela alfabetet kan inte betraktas som något hinder.<br />
Partiet fram t.o.m. solanin innehåller som framgått en myckenhet upplysningar. Det blir<br />
inte heller fråga om något systematiskt bortfall med avseende på de sökkategorier som<br />
nämnts tidigare. Det rådande förhållandet aktualiserar emellertid efterhand också frågan<br />
om SAOB:s tekniska produktionssätt. Den rationaliseringsmöjlighet som i första hand anmäler<br />
sig är inkodning och korrigering av redaktörernas lappmanuskript på textskärm.<br />
Detta innebär samtidigt "sättning" och ger sålunda direkt underlag för tryckning. Eftersom<br />
materialet på detta sätt skulle bli tillgängligt i maskinläsbar form, kunde det också<br />
successivt infogas i databasen.<br />
Som databas kan SAOB användas för flera nya syften. Den kan för det första hållas tillgänglig<br />
för forskningen inom olika områden – nationellt och internationellt – för att ge<br />
<strong>svar</strong> på frågor av många olika slag enligt ovan. Varje sökbar kategori kan betraktas som<br />
en ny ingång.<br />
Den kan för det andra tillhandahållas som (kommersiellt tillgänglig) databas för sökning<br />
via terminal på företag eller hos myndigheter respektive via hem-TV genom de nya<br />
medier som nu utvecklas. Att abonnera på databasen kan för många te sig mer lockande<br />
än att köpa boksviten.<br />
För det tredje kan nya publikationer presenteras. Exempel på sådana kan vara en kronologiskt<br />
ordnad <strong>ordbok</strong> med äldsta belägg som sorteringsgrund, ett index över en periods<br />
ordskatt, t.ex. 1600-talets, och en sammanställning av lånord med långivande språk som<br />
indelningsprincip.<br />
För det fjärde kan bearbetningar göras som främjar det fortsatta arbetet vid <strong>ordbok</strong>sredaktionen.<br />
Ett exempel är en baklängeslista över uppslagsorden. Ordbokschefen har förklarat<br />
sig intresserad av en sådan.<br />
För det femte är databasen ett utomordentligt fängslande objekt för lingvistisk forskning.<br />
Undersökningar kan göras av såväl formella som innehållsliga kategorier liksom av<br />
kombinationer av kategorier. I synnerhet vill jag trycka på möjligheten att studera den<br />
svenska vokabulärens semantiska struktur. Som underlag för sådana studier kan olika<br />
slags bearbetningar utföras. En är helt enkelt en framtagning av en konkordans över de<br />
ord i betydelseförklaringarna som inte är formord. En annan, mer avancerad, är algoritmisk<br />
syntaktisk analys av betydelseförklaringarna i syfte att bestämma huvudorden (genus<br />
proximum). Över huvud taget är det viktigt att den utförliga semantiska<br />
informationen i SAOB görs lätt tillgänglig för forskningen.<br />
<strong>Svenska</strong> texter<br />
Ingen <strong>ordbok</strong> över ett levande språk kan täcka dess vokabulär fullständigt. Också SAOB<br />
och Lexikalisk databas är urval. För att få ett ännu fastare grepp om ordbeståndet och för<br />
att skapa underlag för många textuellt inriktade forskningsuppgifter är det därför av stor<br />
vikt att med utrustningens hjälp läsa in texter från den nysvenska epoken (tiden från reformationen<br />
till nu). Detta är fas 2 i projektet.<br />
Avsikten är att läsa in såväl skönlitterära som andra texter enligt en fyllig plan som<br />
senare specificeras. Till texterna utarbetas ordindex. Dessa registrerar samtliga ord i materialen<br />
med källhänvisningar. Vid den närmare utformningen av ordindexen beaktar<br />
man att de 200 vanligaste orden i ett textmaterial <strong>svar</strong>ar för hälften av alla beläggen i texten.<br />
Genom sampling kan den datamängd som gäller formorden således reduceras på olika<br />
sätt vid presentationen av ordindexen. Grundtanken bibehålls: de lexikaliska databaser-
11<br />
na kompletteras med fullständiga index över ordbeståndet i ett stort textmaterial. Också<br />
konkordanser av olika slag kan utarbetas. Svaren på en rad frågor får härigenom ökad säkerhet.<br />
De inlästa texterna låter sig på ett naturligt sätt infogas i Logotekets text- och ordbank.<br />
Detta serviceorgan vid institutionen har kortfattat beskrivits i det föregående.<br />
Den optiska textinläsningen ger så stora material, att vissa datalingvistiska forskningsuppgifter<br />
särskilt framhävs. Det finns anledning att antyda tre av dessa. En av dem<br />
gäller utveckling av metodiken för effektiv lagring av text.<br />
Texten kan naturligtvis lagras sekventiellt, ord för ord i den ordning inläsningen ger.<br />
En sådan lagringsform är användbar för åtskilliga syften. Den kan modifieras genom olika<br />
slag av komprimering, vilket dock fordrar uppackning vid vissa tillämpningar.<br />
Ett fascinerande alternativ är att lagra texten i form av ett länkat nätverk. I detta fall<br />
lagras varje förekommande ordform endast en gång. Genom pekare anges orden i kontexten,<br />
föregående och efterföljande ord i alfabetisk ordning och i frekvensordning m.m.<br />
Nätverket innehåller alltså samtidigt texten själv, alfabetiskt ordindex, konkordans, frekvenslista<br />
m.m. Ändringar i texten medför automatiskt ändringar i ordindex, konkordans<br />
osv.<br />
En annan forskningsuppgift som blir av stor betydelse är algoritmisk analys av löpande<br />
text. Olika slag av syntaktisk analys (s.k. parsing) har prövats på många håll med varierande<br />
resultat. Den nyss nämnda formen för lagring av text synes öppna nya möjligheter.<br />
<strong>Om</strong> textanalysen baseras på ett länkat nätverk, har programmet samtidigt tillgång till<br />
syntagmatisk (kontextuell) och paradigmatisk (gällande alla belägg på samma ordform)<br />
information. Detta i kombination med de kraftfulla lexikaliska databaserna ger den algoritmiska<br />
textanalysen mycket intressanta förutsättningar.<br />
Den sista av de tre forskningsuppgifter jag vill peka på gäller stavning<strong>svar</strong>iationen i<br />
texterna. Den är ju stor i tidigare århundradens texter. Den rymmer emellertid en hel del<br />
regulariteter som kan utnyttjas för att bland annat sammanföra ordformer i ordindexen.<br />
Också detta kräver naturligtvis ett utvecklingsarbete.<br />
* * *<br />
<strong>Svenska</strong> Akademien beslöt att <strong>svar</strong>a för personalkostnaderna, och medel till inköp av läsutrustningen<br />
ställdes till förfogande av Knut och Alice Wallenbergs Stiftelse.
13<br />
Rudolf Rydstedt<br />
Inläsningen<br />
En av de bärande tankarna bakom OSA-projektet var att introduktionen av optisk läsning<br />
(OCR-teknik) gjorde det realistiskt att göra om SAOB till en lexikalisk databas (jämför<br />
“OSA Ett datalingvistiskt projekt” på sidan 7). Det som gjorde den optiska läsningen tilltalande<br />
var att den framstod som ett ekonomiskt mycket fördelaktigt alternativ till manuell<br />
inkodning. De praktiska prov som utfördes i samband med upphandlingen av läsare var<br />
också lovande: maskinen markerade osäker läsning en gång per 200 tecken och korrigering<br />
behövdes en gång per 2.000 tecken. Läshastigheten var 20 tecken per sekund. År 1982<br />
omfattade SAOB närmare 200.000.000 tecken. Med 25 timmars effektiv drift per vecka<br />
skulle därmed inläsningen totalt kräva 111 veckors arbete, i storleksordningen tre år. Det<br />
praktiska arbetet kom igång våren 1983, men inläsningen tog inte slut 1986 utan tio år<br />
senare, i januari 1996. Utan några jämförelser i övrigt, är det lätt att notera en förlängning<br />
med ungefär samma faktor som den framställandet av själva <strong>ordbok</strong>en har genomgått.<br />
Den yttersta orsaken till att inläsningen kom att ta betydligt längre tid än förväntat<br />
var att utrustningen fungerade sämre än vad proven före upphandlingen hade givit anledning<br />
att förmoda. Det visade sig snart vara nödvändigt med ett omfattande korrekturarbete<br />
för att det inlästa materialet skulle kunna användas som underlag för vidare<br />
bearbetningar. Till en början utfördes både inläsning och korrektur internt inom projektet.<br />
Med tiden skedde dock en övergång till att utnyttja externa leverantörer i stället.<br />
Dessa åtog sig nämligen att leverera materialet till mycket låg kostnad mot att de kunde<br />
använda SAOB som en s.k. ”strumpsticka”, ett lägre prioriterat arbete som används för<br />
att jämna ut beläggningen. Fördelen för projektets del var att kostnaden blev lägre än om<br />
inläsning och korrektur hade skett i egen regi. Nackdelen var att möjligheterna att förutse<br />
precis när det inlästa materialet skulle komma att levereras minskade. Det som gjorde att<br />
en inläsning med låg intensitet under längre tid var rimlig var att det inledande arbetet<br />
med att fånga SAOB:s struktur (diskuteras i “SGML-taggning av SAOB” på sidan 15 och<br />
framåt) utfördes med en så begränsad personalinsats (under tre heltidsekvivalenter) att<br />
ett lägre tempot i materialleverenserna aldrig behövde bli en faktiskt begränsande faktor.<br />
En naturlig fråga är vilka implikationer som erfarenheterna från OSA-projektet har för<br />
datafångsten i andra projekt. En viktig erfarenhet är att det inte går att ge ett enkelt och<br />
generellt giltigt <strong>svar</strong> på frågan om det lönar sig med optisk läsning eller inte. Till en del<br />
beror det på att den allmänna tekniska utvecklingen gör att den optiska läsningen med<br />
tiden har blivit billigare och säkrare. Den största skillnaden mellan idag och början av 80-<br />
talet ligger dock i sänkta kostnader för utrustningen, inte i höjd läskvalitetet. Detta är<br />
olyckligt med tanke på projekt där stora mängder text skall fångas då kostnaden för utrustning<br />
spelar ganska liten roll för totalkostnaden i dessa jämfört med läskvaliteten och<br />
den därav beroende kostnaden för efterkorrigeringar. Däremot är naturligtvis låg initialkostnad<br />
väsentlig i projekt där små textmängder skall fångas. En tumregel kan vara att<br />
man bör ha starka skäl för att inte undersöka hur väl optisk läsning fungerar om den text<br />
som skall fångas är mer än något dussin sidor lång. Men det är inte bara den optiska läsningen<br />
som har utvecklats sedan 80-talets början. En väsentlig faktor är att även verktygen<br />
för manuell inkodning har genomgått en betydande utveckling. Det är tankeväckande<br />
att persondatorn var ny och föga spridd när OSA-projektet inleddes. En indirekt konsekvens<br />
av det var att inkodning i tredje världen inte förekom i nämnvärd omfattning vid<br />
den tiden. Idag är manuell inkodning i låglöneländer en viktig konkurrent till optisk inläsning.
14<br />
Nu skall inte skillnanden mellan optisk läsning och manuell inkodning övervärderas.<br />
Oberoende av hur texten fångas så måste den genomgå en efterföljande bearbetning för<br />
att nå acceptabel kvalitet: både optiska läsare och mänskliga inkodare gör fel. Detta leder<br />
t.ex. till att det ofta är mindre viktigt hur många fel det finns i den fångade texten jämfört<br />
med hur lätta dessa fel är att identifiera och rätta till. Det finns naturligtvis ett samband<br />
i det att en text med mycket fel normalt kräver mer arbete för att bli rimligt korrekt än en<br />
med få fel, men det finns många subtila faktorer som påverkar hur tung korrekturprocessen<br />
blir. Så är en text som i väsentlig grad består av fasta formler betydligt mera tillgänglig<br />
för maskinella korrektioner än en mera varierad. I fallet med SAOB råder det mycket<br />
stora skillnader mellan olika delar av texten. Bruklighetsangivelserna är t.ex. normalt<br />
rena formler. Detta gör det lätt att säkert göra rättelser rent maskinellt: står det ”rnindrc<br />
br.” är det lätt att ändra till ”mindre br.” Motsatt förhållande gäller för språkproven. Dessa<br />
har en variation inte minst i fråga om stavningen som gör att det endast undantagsvis går<br />
att utföra korrektioner säkert maskinellt. En poäng är dock att det även här är de typiska<br />
felen vid optisk läsning som är lättast att justera säkert maskinellt: en människa som skriver<br />
av ”accijsen” fel skriver kanske ”accisen”, maskinen skriver snarare ”accij8en”. Det senare<br />
ser värre ut, men det är lätt att lägga märke till.<br />
För att summera: OSA-projektets erfarenheter av optisk inläsning är inte entydligt positiva,<br />
men de är tillräckligt goda för att optisk inläsning skall framstå som ett alternativ<br />
värt att överväga även vid arbete med tekniskt mindre lätthanterlig text. Inte minst har<br />
det visat sig att de typiska fel som optiska läsare gör ofta är betydligt lättare att rätta till<br />
under det efterföljande korrekturarbetet än de fel som en mänsklig inkodare skulle göra i<br />
mot<strong>svar</strong>ande situation.
15<br />
Yvonne Cederholm<br />
SGML-taggning av SAOB<br />
I detta avsnitt beskrivs hur den optiskt inlästa texten översätts till SGML-format 1 , där<br />
<strong>ordbok</strong>ens innehållsliga struktur taggas. Målet är att SAOB efter taggningsarbetet skall<br />
kunna användas som en lexikalisk databas, där man kan göra komplexa sökningar som<br />
t.ex. "vilka ord lånades in från engelskan under perioden 1700–1750".<br />
Taggningen gör tolkningen av texten explicit. Den implicita information, som i den<br />
tryckta <strong>ordbok</strong>en signaleras med hjälp av typografin och lätt kan tolkas av en mänsklig<br />
användare, blir genom taggningen också maskinellt sökbar. SGML-taggarna kommer naturligtvis<br />
inte att visas för den mänsklige läsaren, utan varje informationskategori associeras<br />
då med en viss typografi. Typografin behöver inte fastställas en gång för alla. Man<br />
kan välja utformning beroende på vilken läsare man riktar sig till och exempelvis ge <strong>ordbok</strong>en<br />
en mer pedagogisk utformning med utförliga förklaringar, eftersom man inte behöver<br />
ta hänsyn till utrymmet på samma sätt som i tryckta media. Detta avsnitt beskriver<br />
dock endast SGML-taggningen.<br />
Följande exempel får belysa taggningsarbetet. Enligt en vanlig lexikografisk konvention<br />
markeras lexikonartiklars betydelseindelning med siffror. Siffrorna står oftast också<br />
i fetstil för att indelningen skall framgå tydligt. Här följer ett utsnitt ut SAOB-artikeln<br />
champagne, som beskriver sammansättningen champagneglas. Vi ser att i den första versionen<br />
är sammansättningens två betydelser markerade med siffror i fetstil som i en<br />
tryckt <strong>ordbok</strong>. I den andra har vi istället satt in taggen .<br />
— -GLAS -2 1) för drickande av champagne särsk.<br />
afsedt vinglas; vanl. antingen högt o. smalt l.<br />
lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade<br />
champagneglasen äro de bästa. HAG-<br />
DAL Kok. 1130 (1879). LUNDIN G. Sthm 147 (1880).<br />
KALLSTENIUS Hush. 184 (1896). 2) (i sht best., föga<br />
br.) med champagne fylldt glas. Det är med den första<br />
— -GLAS -2 för drickande av champagne särsk.<br />
afsedt vinglas; vanl. antingen högt o. smalt l.<br />
lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade<br />
champagneglasen äro de bästa. HAG-<br />
DAL Kok. 1130 (1879). LUNDIN G. Sthm 147 (1880).<br />
KALLSTENIUS Hush. 184 (1896). (i sht best., föga<br />
br.) med champagne fylldt glas. Det är med den första<br />
Den första versionen kan enkelt tolkas av en mänsklig användare. Ett dator som skall<br />
söka i <strong>ordbok</strong>en kan däremot inte "förstå" att just dessa siffror i fetstil markerar en betydelseindelning.<br />
För att programmet skall kunna skilja på dessa siffror och andra siffror i<br />
fetstil i <strong>ordbok</strong>en, måste man lägga till information i form av taggar som gör att programmet<br />
tolkar det som en betydelseindelning. I exemplet ovan lade vi till taggen <br />
1.SGML är en internationell standard som finns beskriven i ISO 8879: Information processing – Text and<br />
office systems – Standard Generalized Markup Language (SGML), Geneva 1986. De som inte är bekanta med<br />
SGML rekommenderas att läsa t.ex An introduction to SGML av Benoît Marchal som finns tillgänglig på<br />
Internet under adressen http://www.brainlink.com/~ben/sgml/ eller kapitel 2 i Burnard &<br />
Sperberg-McQueen Guidelines for Electronic Text Encoding and Interchange (TEI P3) som också ger<br />
en allmän introduktion till SGML.
16<br />
som inleder betydelsemoment. Taggen har ett också ett attribut n, som anger betydelsens<br />
ordningsnummer. På samma sätt markeras alla andra informationskategorier i <strong>ordbok</strong>en.<br />
Bakgrund och förutsättningar för taggningsarbetet<br />
SAOB i sin tryckta version är satt i åtta olika stilar, men OCR-programmet känner endast<br />
igen normalstil, fetstil och kursiv. (Alla exempel från OSA-materialet i denna rapport återges<br />
också med dessa tre stilar.)<br />
Normalstil, fetstil och kursiv och andra typografiska markörer, som exempelvis parenteser,<br />
komman och punkter, utgör de viktigaste hållpunkterna när man skall hitta gränserna<br />
mellan de olika informationskategorierna. Huvuddelen av taggningen görs<br />
automatiskt med efterföljande manuella kontroller. Viss svåridentifierad information<br />
måste dock taggas helt manuellt. Eftersom taggningsarbetet ännu inte är slutfört redovisar<br />
vi här också en del problem som vi ännu inte har tagit ställning till.<br />
Taggningsarbetet grundas på de beskrivningar av artikelstrukturen som finns i litteraturen<br />
om SAOB. Främst på de två handledningar som har utarbetats för redaktörerna<br />
(Kock 1904; Jonsson 1993), men också på annan litteratur om SAOB (Ekbo 1971; Lundbladh<br />
1992 etc.). All variation i SAOB:s artikelstruktur är naturligtvis inte dokumenterad<br />
i dessa beskrivningar, eftersom de haft andra syften – handledningarna utgör riktlinjer<br />
för redaktörernas arbete och den övriga litteraturen har i första hand ett pedagogiskt syfte.<br />
Taggningsarbetet har därför till stor del haft karaktären av ett utgrävningsarbete där<br />
vi undan för undan frilagt olika strukturella lager i SAOB.<br />
Ordböcker har generellt en mycket komplex struktur som text betraktat och SAOB är<br />
naturligtvis ett extremfall bland ordböcker. Artiklarnas längd varierar mellan några få rader<br />
och upp emot hundra spalter. En artikel kan omfatta hundratals olika betydelsenyanser<br />
och varje betydelse kan exemplifieras med flera språkprov. Den enorma<br />
detaljrikedomen gör strukturen mycket svåröverskådlig och det är omöjligt att på förhand<br />
definiera en grammatik som beskriver hela SAOB:s struktur i detalj. Själva struktureringsarbetet<br />
blir ett sätt att ta fram denna okända grammatik. Kazman (1986, s. 16–17)<br />
som arbetat med struktureringen av The Oxford English Dictionary säger att uppgiften<br />
att strukturera en sådan stor <strong>ordbok</strong> liknar det problem som inom mönsterigenkänningsområdet<br />
kallats "The Grammatical Inference Problem". Problemet beskriver han enligt<br />
följande. Input består av en mängd strängar som antingen accepteras eller förkastas av en<br />
okänd grammatik. Man tillämpar någon slags procedur för skilja acceptabla strängar från<br />
icke-acceptabla och genom detta får man gradvis kunskap om hur den okända grammatiken<br />
ser ut. Ett liknande uppgift, skriver Kazman, är att försöka skriva en grammatik för<br />
ett dött språk.<br />
Då de första delarna av <strong>ordbok</strong>en publicerades var principerna för <strong>ordbok</strong>ens struktur<br />
inte fastlagda. En handledning för redaktörerna, som redigerades av Ernst Kock, färdigställdes<br />
först år 1904. Då hade hela bokstaven A och stora delar av C redan publicerats.<br />
Det innebär att det finns många strukturella avvikelser i de första delarna jämfört med de<br />
senare delarna. Exempelvis finns inga avledningsramsor på bokstaven A, utan avledningarna<br />
utgör där egna huvudartiklar. Även i de senare delarna förekommer det avvikelser i<br />
strukturen, vilka – även om de inte innebär någon större svårighet för en mänsklig läsare<br />
– komplicerar struktureringsarbetet inom projektet. SAOB anses dock ha en relativt sett<br />
stringent struktur och genomförd typografi. Sture Hast (Svensson et al. 1993, s. 55–84)<br />
har gjort en jämförelse mellan de fyra stora germanska ordböckerna, The Oxford English<br />
Dictionary (OED), Grimms Deutsches Wörterbuch, Woordenboek der Nederlandsche Taal<br />
(WNT) och SAOB. Han kommer fram till att OED och SAOB har en mera stringent och<br />
lingvistisk uppläggning än de andra två. OED är dock, enligt Sture Hast, den mest enhetligt<br />
utformade <strong>ordbok</strong>en eftersom det i SAOB finns stora diskrepanser i framställningen<br />
mellan olika redaktörer och tidsperioder. Att OED är den mest enhetligt utformade ordbo-
17<br />
ken beror antagligen på att James Murray själv skrev eller an<strong>svar</strong>ade för nästan hälften<br />
av alla artiklar i <strong>ordbok</strong>en.<br />
Det finns naturligtvis ingen möjlighet att arbeta om strukturen i de första delarna inom<br />
ramen för OSA-projektet. Den lexikaliska modell vi utarbetar måste vara generös och tilllåta<br />
en stor variation i såväl makrostruktur som mikrostruktur. Den måste bygga på den<br />
stramare strukturen i de senare banden, men samtidigt rymma de första bandens fria artikelstruktur.<br />
En ovan användare måste kunna söka i hela <strong>ordbok</strong>en utan att känna till<br />
några detaljer om variationen i artikelstrukturen, eftersom det främsta syftet med projektet<br />
ändå är att göra <strong>ordbok</strong>en mer lättillgänglig.<br />
Uppläggning av taggningsarbetet<br />
Vi har delat in taggningsarbetet i olika faser. Den första fasen är en identifieringsfas där<br />
gränserna mellan de olika informationskategorierna lokaliseras och de typografiska koderna<br />
översätts till SGML-taggar. Det är i denna fas vi nu befinner oss och det är huvudsakligen<br />
identifieringsfasen som beskrivs i detta avsnitt. Denna fas är också den mest<br />
arbetskrävande i projektet.<br />
I nästa fas byggs de enskilda elementen samman till en komplex SGML-struktur och<br />
grammatiken över <strong>ordbok</strong>ens struktur fastställs i en s.k. document type definition (DTD).<br />
Våra planer är att så långt som möjligt följa den DTD för tryckta lexikon som rekommenderas<br />
av Text Encoding Initiative (TEI P3 1984: 321–370). I TEI P3 pekar man på den stora<br />
strukturella variation som finns i ordböcker. På grund av detta har man valt att<br />
definiera två modeller. En modell med en fast struktur vilken skall täcka in de vanligaste<br />
typerna av ordböcker samt en alternativ modell som utgår från samma element, men som<br />
medger att man kan kombinera alla element relativt fritt.<br />
... because the structure of dictionary entries varies widely both among and within<br />
dictionaries, the simplest way for an encoding scheme to accommodate the entire range<br />
of structures actually encountered is to allow virtually any element to appear virtually<br />
anywhere in a dictionary entry.<br />
(TEI P3 1994, s. 321)<br />
Vi bör kunna använda oss av den friare modellen som utgångspunkt, men vissa omfattande<br />
tillägg måste ändå göras för att DTD:n skall täcka SAOB:s komplexa struktur. Några<br />
av komplikationerna nämns nedan.<br />
I den sista fasen av taggningsarbetet kommer vi att lägga till viss information till texten.<br />
Vi kommer att normalisera stavningen av uppslagsorden. Källhänvisningarna kommer<br />
också att normaliseras så att de kan länkas till en bibliografisk databas. Vi kommer<br />
att undvika att ändra i själva texten och istället lägga de normaliserade formerna i SGMLtaggarna.<br />
Alla korsreferenser och hänvisningar till de behandlade orden skall också formaliseras<br />
i denna fas, så att man kan kontrollera hela systemet av korsreferenser automatiskt.<br />
Vi kommer inte att här diskutera vilket sökspråk eller söksystem som skall användas<br />
för SAOB när taggningsarbetet är avslutat. PAT, det system som används för att söka i<br />
OED (se t.ex. Salminen 1994), kan hantera sökningar i stora SGML-strukturerade dokument<br />
och verkar vara det bästa systemet i dagsläget. Tyvärr finns inte idag något fullständigt<br />
frågespråk som kan hantera SGML. Detta beror på att SGML från början inte alls var<br />
tänkt att vara ett databasformat, utan utformades för att fungera som ett utbytesformat<br />
mellan olika ordbehandlingsformat. Eftersom antalet SGML-kodade dokument ökat kraftigt<br />
de senaste åren har det uppstått ett behov av att kunna söka i och uppdatera dessa<br />
dokument. Det finns flera forskningsprojekt som arbetar på att ta fram en väldefinierad<br />
semantik för SGML och att utveckla ett fullständigt frågespråk som innebär att man kan<br />
söka i och ändra i dokumenten på ett väldefinierat sätt. Raymond och Tompa (1995) ger
18<br />
en översikt av problemställningarna i From Data Representation to Data Model: Meta-Semantic<br />
Issues in the Evolution of SGML. En modell som Blake et al. (1994) har arbetat på<br />
är att utvidga SQL till att också kunna hantera SGML.<br />
Vi valde till en början att låta elementens namn ligga nära SAOB:s egen terminologi.<br />
Efter att TEI P3 publicerades 1994 har vi dock lånat många elementnamn därifrån, speciellt<br />
för de formella informationskategorierna. Elementnamnen utgör därför för närvarande<br />
en oskön blandning av svenska och engelska, men vi har valt att låta det vara så<br />
tills vi börjar med nästa fas av taggningsarbetet.<br />
Taggningsarbetet beskrivs nedan med utgångspunkt från respektive informationskategori.<br />
Den allmänna beskrivningen av informationskategorierna bygger på Lundbladhs<br />
Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> från 1992 och jag har också försökt hålla<br />
mig till den terminologi som Lundbladh använder.<br />
Primärstrukturen – SAOB:s skelett<br />
Vi har valt att skilja på två typer av informationskategorier. Den ena typen är de lexikaliska<br />
enheterna i artiklarna, nämligen uppslagsord, sammansättningar, avledningar, särskilda<br />
förbindelser samt betydelsemoment. Den andra typen är information som är knuten<br />
till dessa lexikaliska enheter, antingen på den formella eller semantiska nivån, t.ex. uttal,<br />
ordklass, böjning, etymologi, definitioner och språkprov.<br />
Vår strategi var att först bygga ett strukturellt skelett av de lexikaliska enheterna. Skelettet<br />
kallar vi för primärstrukturen och det utgörs för närvarande av ca 800 000 lexikaliska<br />
enheter. Här ingår också en del taggar som markerar grupperingar av de lexikaliska<br />
enheterna, t.ex. ramsor.<br />
Förutsättningen för att etablera det strukturella skelettet var att man relativt enkelt<br />
kunde isolera de lexikaliska enheterna maskinellt. Programmen måste sålla ut dessa enheter<br />
och inget annat i texten, enbart på grundval av den typografiska informationen. Svårigheten<br />
var att hitta de mönster som beskrev exakt de lexikaliska enheterna och inget<br />
annat. Den typografiska information som OCR-programmet känner igen var en relativt<br />
mager utgångspunkt för struktureringsarbetet. Mönstren utgjordes av koderna som angav<br />
stilbyte mellan brödstil, kursiv och fetstil, samt andra typografiska markörer som t.ex.<br />
parenteser av olika slag, kolon, semikolon och indrag. Mönstren, som utgör reguljära uttryck,<br />
översattes sedan till SGML-taggar. Implementeringen gjordes i sed och Perl.<br />
Tabell 1: tagguppsättning för primärstrukturen<br />
starttagg sluttagg beskrivning<br />
— artikel<br />
— hänvisning<br />
huvudord (lemma)<br />
— sammansättningsramsa<br />
— sammansättningsartikel<br />
förled i sammansättning<br />
efterled i sammansättning<br />
— avledningsramsa<br />
— avledningsartikel
19<br />
Tabell 1: tagguppsättning för primärstrukturen<br />
starttagg sluttagg beskrivning<br />
avledning<br />
— ramsa med särskilda förbindelser<br />
— artikel för särskild förbindelse<br />
särskild förbindelse – grundord<br />
särskild förbindelse – partikel<br />
— betydelsemoment på 1:a nivån (huvudmoment,<br />
anges i tryck med arabiska siffror)<br />
— betydelsemoment på 2:a nivån (anges i<br />
tryck med gemener)<br />
— betydelsemoment på 3:e nivån (anges i<br />
tryck med grekiska bokstäver)<br />
— betydelsemoment på 4:e nivån (anges i<br />
tryck med grekiska bokstäver kombinerat<br />
med prim-tecken)<br />
— betydelsemoment på 5:e nivån (anges i<br />
tryck med grekiska bokstäver kombinerat<br />
med bis-tecken)<br />
— momentgruppering (syntaktiska kriterier;<br />
anges i tryck med romerska siffror)<br />
— momentgruppering (icke-syntaktiska kriterier;<br />
anges i tryck med versaler)<br />
Det har varit nödvändigt att göra omfattande sorteringar av materialet för att hitta dessa<br />
mönster. För att exemplifiera hur detta kan gå till kan vi återknyta till exemplet med betydelseindelningen<br />
i artikeln champagne ovan. I detta fall skulle man först sortera kontexten<br />
för alla siffror i fetstil i SAOB. Man gör sedan en bedömning om alla siffror är<br />
ordningsnummer i betydelseindelningen. I så fall byter man ut dem mot taggen , o.s.v., som i exemplet ovan. Detta är ett naturligtvis ett starkt förenklat<br />
exempel eftersom det finns miljontals siffror i fetstil i SAOB, vilka förekommer i en<br />
mängd olika funktioner. Mönstren som vi definierar är mycket mer komplicerade, men exemplet<br />
visar på själva tillvägagångssättet. Vi gör omfattande provtaggningar på små partier<br />
från olika delar av <strong>ordbok</strong>en – på grund av den strukturella variationen – innan vi<br />
slutligen taggar hela materialet. Man måste acceptera en viss felprocent på grund av svårigheten<br />
att överblicka strukturen, men den får inte vara större än att felen går att korrigera<br />
manuellt i efterhand. <strong>Om</strong> man taggar 300 000 enheter maskinellt och får med 5 000<br />
andra enheter av misstag, så tar detta lång tid att korrigerera manuellt. Detta kan tyckas<br />
vara en trivial upplysning, men jag vill trycka på att det är <strong>ordbok</strong>ens storlek som karaktäriserar<br />
hela detta projekt och då speciellt svårigheten att överblicka hela materialet.<br />
Makrostrukturen<br />
Det är relativt lätt att hitta gränserna mellan huvudartiklarna i SAOB, eftersom de markeras<br />
typografiskt med ny rad och indrag. Det finns dock en annan typ av artiklar som är<br />
svårare att hitta eftersom uppslagsordet kan stå var som helst på raden, endast åtskilt
20<br />
med ett streck. Uppslagsordet är då besläktat med föregående uppslagsord, se t.ex. piemontesare.<br />
Sammanlagt har cirka 45 000 huvudartiklar identifierats. Artikelgränsen taggas:<br />
<br />
Sammansättningar, avledningar och särskilda förbindelser behandlas normalt i de s.k.<br />
ramsorna. Vissa sammansättningar, avledningar och särskilda förbindelser behandlas<br />
dock av olika skäl i egna huvudartiklar. Det finns då en hänvisning från ordets alfabetiska<br />
plats i ramsan till huvudordet. Förhållandet mellan huvudorden och orden i ramsorna är<br />
komplicerat. Vissa ramsor är exceptionellt långa och ramsan bryts då av andra artiklar. I<br />
artikeln o- bryts sammansättningsramsan odaterad, odaterbar av artikeln odds. Denna<br />
artikel har i sin tur en sammansättningsramsa: oddssiffra, oddstal. Upplagsordet o- återkommer<br />
sedan och sammansättningsramsan fortsätter med odebiterad, odechiffrerad etc.<br />
Ramsan i artikeln o- är sammanflätad med övriga artiklar på detta sätt genom hela bokstaven<br />
O. Denna uppbrutna artikelstruktur har också t.ex. artiklarna för-, före-, i, in, inne,<br />
kring, med, miss-, mot, ned, om, på, re-, sam-, samman och sam-. Den diskontinuerliga artikelstrukturen<br />
är ett bra exempel på SAOB:s strukturella egenheter och varför de standardmodeller<br />
som används inom TEI måste byggas ut.<br />
Artiklarna förses med unika identifierare, för att man skall kunna hantera alla korsreferenser<br />
automatiskt. Identifieraren utgörs oftast enbart av uppslagsordet, som exempelvis:<br />
<br />
<strong>Om</strong> det finns homografer till uppslagsordet utgörs identifieraren av uppslagsordet samt<br />
ordklass och homografnummer, t.ex:<br />
<br />
Vi har dessutom diskuterat olika möjligher att lägga till ınformation om artiklarnas tillkomst.<br />
Man skulle kunna förse artiklarna med de tryckningsdatum, som finns angivna på<br />
varje ark i <strong>ordbok</strong>en. Detta datum är viktigt t.ex. för att precisera vissa bruklighetsangivelser.<br />
Bruklighetsuppgifter, som t.ex. numera mindre brukligt, är helt beroende av när<br />
artikeln skrevs. Vi har också diskuterat möjligheten att förse varje artikel med uppgift om<br />
artikelförfattare, i de fall det är känt. Från och med häfte 52 i band IV anges artikelförfattarna<br />
på pärmarnas insida. Lars Svensson (Svensson et al. 1993, s. 172–194) har dessutom<br />
försökt kartlägga vilka som skrev de osignerade artiklarna i de tidigare banden.<br />
Huvudord<br />
Alla behandlade ord markeras med versaler i fetstil i SAOB. Detta var helt avgörande för<br />
att vi skulle kunna hitta huvudorden, sammansättningarna, avledningarna och de särskilda<br />
förbindelserna.<br />
<strong>Om</strong>kring 40 500 huvudord har identifierats hittills. Huvudorden taggas som exemplet<br />
nedan.<br />
AFSTÅ<br />
Efter att huvudorden taggats gjorde vi en automatisk kontroll av att huvudorden kommer<br />
i alfabetisk ordning. Denna kontroll gjordes för att fånga upp kvarvarande fel från den optiska<br />
inläsningen. I denna kontroll upptäckte vi emellertid också fel i den tryckta <strong>ordbok</strong>en.<br />
1<br />
Stavningen av vissa uppslagsord måste normaliseras, t.ex. stavningen med f istället för<br />
v i ord som af, afstå, afgöra och stavningen med ä istället för e i ord som rägn (se "Den ortografiska<br />
normen i SAOB" på sidan 43 och framåt.). När man normaliserar stavningen av
21<br />
huvudorden bör man enligt min mening undvika att ändra i själva texten, för att minska<br />
risken att förlora väsentlig information. Den normaliserade formen ges istället som ett attribut<br />
till elementet, som i exemplet:<br />
AFSTÅ<br />
Avstavade huvudord är ett annat problem. De måste gås igenom manuellt för att man<br />
skall kunna avgöra vilka som egentligen skall innehålla bindestreck.<br />
Vi har genererat en ordlista över alla huvudord i SAOB. Ordlistan är tillgänglig genom<br />
World Wide Web på Internet. Adressen är http://svenska.gu.se/saob/saobusers.html.<br />
Där finns också en baklängessorterad variant av ordlistan.<br />
Hänvisningar på artikelnivå<br />
Med hänvisningar menas här de uppslagsord som hänvisar till andra huvudartiklar eller<br />
ramsor. Ca 19 000 hänvisningar av denna typ har taggats hittills. Uppslagsorden i hänvisningarna<br />
taggas liksom uppslagsorden i huvudartiklarna med . Hela hänvisningen<br />
taggas som i exemplet:<br />
CZAR, se TSAR.<br />
---<br />
CZAR, se TSAR<br />
Värdet på attributet target mot<strong>svar</strong>as av en identifierare i en huvudartikel. I exemplet<br />
ovan hänvisas till artikeln tsar, som inte är skriven än. Hela härledningssystemet i SAOB<br />
kommer naturligtvis inte att hänga ihop förrän hela <strong>ordbok</strong>en är tryckt. Man bör dock<br />
kunna kontrollera delar av systemet automatiskt. Då kan man också automatiskt generera<br />
listor över hänvisningar till de delar som inte ännu är tryckta. Detta bör underlätta <strong>ordbok</strong>sredaktionens<br />
manuella arbete med hänvisningsregistret.<br />
Betydelsemoment<br />
Den hierarkiska strukturen i betydelsebeskrivningen omfattar fem nivåer. Dessutom<br />
finns två typer av grupperingar på en högre nivå. Momentbeteckningarna anges med versala<br />
bokstäver, romerska siffror, arabiska siffror, gemener, grekiska bokstäver, samt grekiska<br />
bokstäver kombinerat med prim- och bis-tecken. Ungefär 300 000<br />
momentbeteckningar har identifierats hittills och utgör betydelsebeskrivningens skelett.<br />
Taggarna i betydelseträdet redovisas i tabell 1. Det första betydelsemomentet på översta<br />
nivån taggas exempelvis:<br />
<br />
Även betydelsemomenten måste förses med identifierare för att hänvisningssystemet<br />
skall fungera. I SAOB finns exempelvis hänvisningar till betydelsemomenten från sammansättningsramsorna.<br />
De anger till vilken betydelse sammansättningens förled hör.<br />
Man kan här följa samma namngivningsprincip som för uppslagsordens identifierare, med<br />
tillägg för ordningsnummer i betydelseträdet. Identifieraren nedan skall utläsas som uppslagsordet<br />
kram, sbst 1 , betydelsemoment 2.b.<br />
<br />
1.Vid genomgången fann vi en handfull uppslagsord på varje bokstav som inte följde<br />
alfabetiseringen, se t.ex. gejser som placerats före geisha. Vi upptäckte också ett märkligt tryckfel.<br />
Uppslagsordet kläder (spalt K 1476) är feltryckt, men endast i vissa exemplar där det står klader.<br />
Alla exemplar är dock tryckta samma datum.
22<br />
När taggningsarbetet är klart kommer man att kunna ta fram intressant statistik över betydelsehierarkiernas<br />
djup och omfång, vilket bör visa på hur betydelseanalyserna har varierat<br />
genom åren. Enligt Sigurd (Allén et al. 1986, s. 183) finns det fler betydelsevarianter<br />
i de senare banden.<br />
Sammansättningar<br />
Sammansättningar behandlas i s.k. sammansättningsramsor. Ramsorna består av underordnade<br />
artiklar, som i stort sett har samma struktur som huvudartiklarna men som oftast<br />
innehåller mycket mindre information. Sammansättningarna kan dock i vissa fall ha<br />
väldigt omfattande betydelseanalyser, se t.ex. ramsorna under artiklarna o- och re. Sammansättningar<br />
med omfattande betydelseanalyser kan i vissa fall stå som egna huvudartiklar.<br />
Det finns då en hänvisning från deras alfabetiska plats i ramsan till huvudordet.<br />
Det är tydligt att kriterierna för huruvida en lexikaliserad sammansättning skall utgöra<br />
en egen huvudartikel eller inte varierar kraftigt genom åren. Ca 14 200 sammansättningsramsor<br />
har taggats hittills. Sammansättningsramsans början taggas:<br />
<br />
Ca 360 000 sammansättningsartiklar har taggats hittills. Sammansättningsartiklarnas<br />
början taggas:<br />
<br />
Sammansättningarnas förled redovisas endast i den första sammansättningsartikeln i<br />
ramsan. Förleden taggas:<br />
SIDEN-<br />
Efterleden i respektive sammansättningsartikel taggas:<br />
-TYG<br />
För att man skall kunna söka på sammansättningarna måste efterleden förses med en expanderad<br />
form, där både förled och efterled finns med:<br />
-TYG<br />
Varianter i sammansättningsfogen redovisas på två olika sätt i SAOB, vilket får konsekvenser<br />
för sökningen. Det ena sättet är att redovisa varianterna i åtskilda sammansättningramsor.<br />
I varje ramsa finns då ett förled och ett antal efterled. Under artikeln salt<br />
finns följande ramsor.<br />
A: SALT-ACCIS, -AG,..., -ÖVERDRAG<br />
B: SALTE-BALJA, -BLOMMA,...,-TUNNA<br />
C: SALTO-LÖSA<br />
Enligt det andra sättet redovisas variationen i samma ramsa. Det finns då flera förled vid<br />
den första sammansättningen i ramsan. Under artikeln saltsyra finns varianterna<br />
saltsyre- och saltsyra-.<br />
SALTSYRE- äv. (i fackspråk) SALTSYRA-AVSÖNDRING<br />
Varje sammansättningsartikel måste då förses med två expanderade former.<br />
<br />
-FABRIK
23<br />
Beskrivningen av sammansättningsramsorna kompliceras av att sammansättningsartiklarna<br />
i sig också kan innehålla sammansättningsramsor. Dessa kallas sekundära sammansättningar,<br />
som t.ex. gängskärningsmaskin som bildats till sammansättningen<br />
gängskärning. Sammansättningsartiklar kan också innehålla avledningsramsor. Det omvända<br />
förhållandet gäller också, d.v.s. avledningsartiklar kan innehålla sammansättningsramsor.<br />
Beskrivningen i ramsorna är alltså också hierarkisk även om vi inte har<br />
belägg för fler än två nivåer.<br />
Vi har tagit fram ordlistor över alla sammansättningar i SAOB och lagt ut dem på Internet.<br />
Sammansättningarna är sorterade på efterled och för varje sammansättning ges<br />
en spalthänvisning.<br />
Särskilda förbindelser<br />
I artiklar som behandlar verb finns ramsor med s.k. särskilda förbindelser, vilket i de flesta<br />
fall är detsamma som partikelverb. Ca 2000 ramsor med särskilda förbindelser har taggats<br />
hittills och ca 9 400 artiklar med särskilda förbindelser.<br />
Ramsans början taggas:<br />
<br />
Varje förbindelseartikel inleds med:<br />
<br />
De särskilda förbindelserna kan omfatta former med upp till tre partiklar, som t.ex. raska<br />
sig i väg eller danka af och an. Grundordet och partiklarna taggas som i exemplet:<br />
KLÄMMA IHOP<br />
DANKA AF OCH AN<br />
Det är mycket vanligt med variantformer av partiklarna, t.ex. klämma ihop l. tillhop l.<br />
hop. Strukturen kan bli ganska snårig eftersom annan information, t.ex. uttals- eller bruklighetsuppgifter,<br />
kan vara insprängd mellan varianterna. Förbindelseartiklar med variantformer<br />
måste förses med expanderade former av samtliga varianter för att man skall<br />
kunna söka på dem, t.ex.<br />
<br />
Carl-Erik Lundbladh (1992) skriver i sin handledning att det finns ett 60-tal olika verbpartiklar<br />
med variantformer, som redovisas i de särskilda förbindelserna. Vi har hittat<br />
sammanlagt drygt 150 olika partiklar i de särskilda förbindelserna. Många av dessa är<br />
dock stavning<strong>svar</strong>ianter. Vi har också hittat belägg på partiklar som enligt Lundbladh<br />
inte skall finnas med i ramsorna. 1<br />
En ordlista över alla särskilda förbindelser finns också tillgänglig på Internet. Förbindelserna<br />
är sorterade på den första partikeln i förbindelsen.<br />
Avledningar<br />
Avledningarna behandlas också i ramsor. Drygt 9 000 avledningsartiklar har identifierats.<br />
Under bokstaven A och C som skrevs innan principerna var fastlagda, finns inga avledningsramsor.<br />
Avledningarna behandlas då i huvudartiklar.<br />
1.dansa baklänges, gå baklänges, rida baklänges, rusa baklänges, rygga baklänges, gripa fatt, hinna<br />
fatt, hitta fatt, hugga fatt, nappa fatt, rida fatt, befalla hem, dimittera hem, eskortera hem, följa hem,<br />
föra hem, gå hem, hitta hem, kalla hem, komma hem, ledsaga hem, runka hem, giva hit, räcka hit
24<br />
Avledningsramsans början taggas:<br />
<br />
Varje avledningsartikel taggas:<br />
<br />
Själva avledningen taggas:<br />
RÄVAKTIG<br />
Synen på vad som utgör sammansättning eller avledning har varierat under åren. Under<br />
bokstäverna A–D behandlas -aktig som efterled i sammansättning, t.ex. buffelaktig. Under<br />
E–P vacklar synen på -aktig. Vissa ord behandlas som avledningar, t.ex. gåsaktig,<br />
medan andra behandlas som sammansättningar, t.ex. hönsaktig. Fr. o.m. bokstaven R behandlas<br />
-aktig konsekvent som avledningsändelse. Vi har inte studerat variationen mer<br />
ingående, men variationen verkar inte vara relaterad till olika betydelser hos -aktig, utan<br />
är möjligen beroende av vilken redaktör som behandlat ordet. 1 När man utarbetar sökrutiner<br />
för SAOB måste man ta hänsyn till den bristande konsekvensen i <strong>ordbok</strong>en och göra<br />
det möjligt att söka bland samtliga behandlade ord. Exemplen ovan torde visa på att det<br />
inte alltid är lätt att avgöra om man skall leta efter ett visst ord bland huvudorden, sammansättningarna<br />
eller avledningarna.<br />
Vi har tagit fram finalalfabetiskt sorterade listor över alla avledningar i SAOB. För varje<br />
avledning anges under vilket huvudord och i vilken spalt den står.<br />
Sekundärstrukturen – kött på benen<br />
Efter att primärstrukturen var etablerad, återstod arbetet med att identifiera de resterande<br />
informationskategorierna och knyta dem till det strukturella skelettet. Med hjälp av<br />
olika sorteringsverktyg kunde högerkontexten för de lexikaliska enheterna analyseras. De<br />
typografiska mönster som var särskilt frekventa framträdde i sorteringen. Mönstren beskrevs<br />
som reguljära uttryck och implementerades i Perl. Vi använde oss i detta läge av<br />
kontextuell information, både av en större kontext och den omedelbara vänsterkontexten.<br />
Den större kontexten utgjordes av en teknisk uppdelning av artiklarna.<br />
• Huvudet (den formella delen) – all text emellan ett huvudord och det första betydelsemomentet<br />
• Betydelsbeskrivningar (den semantiska delen) – all text emellan ett visst betydelsemoment<br />
och nästa betydelsemoment<br />
• Underartiklar – all text emellan en sammansättning, avledning eller särskild förbindelse<br />
och nästa sammansättning, avledning eller särskild förbindelse.<br />
Vissa informationskategorier, som t.ex. definitioner och språkprov, förekommer endast i<br />
betydelsebeskrivningarna eller i underartiklarna, medan andra endast förekommer i huvudet.<br />
Huvudet är den del av SAOB som är svårast att tagga automatiskt. Det är också den<br />
del av artiklarna som är mest obearbetad hittills. De informationskategorier som endast<br />
ingår i huvudet behandlas därför relativt översiktligt här. För en automatisk analys ter<br />
sig huvudet som en härva av enstaka bokstäver, punkter, komman och stilkoder. Huvudet<br />
1.Detta framkom vid tillfället för en disputation i nordiska språk vid Uppsala universitet (Gunvor<br />
Nilsson. Aktig-ord förr och nu. En historisk–semantisk studie av aktig-avledningar i svenskan,<br />
Uppsala univ. 1993), då en sökning gjordes på begäran av opponenten Martin Gellerstam. I grova<br />
drag överensstämde resultatet av sökningen med respondentens manuella excerpering, men vi fann<br />
ett antal ord som inte kommit med i den manuella excerperingen. På grund av vissa tekniska<br />
komplikationer saknades också några aktig-ord i sökningsresultatet, vilka å andra sidan fanns med<br />
i den manuella excerperingen.
25<br />
innehåller uppgifter om uttal, genus, ordklass, böjning, formvarianter och etymologi. Uttalsuppgift<br />
är obligatorisk, såvida inte ordet är dött. Genusuppgift är obligatorisk för substantiv<br />
och ordklassuppgift är obligatorisk för alla andra ordklasser. Formvarianter i den<br />
s.k. formparentesen är optionella uppgifter. De etymologiska uppgifterna är obligatoriska.<br />
För verb ges också information om verbalsubstantiv i huvudet.<br />
Vi började med att tagga betydelsebeskrivningarna och underartiklarna. De är idag relativt<br />
genomarbetade. Enligt vår bedömning är flertalet bruklighetsuppgifter, definitioner<br />
och språkprov i betydelsebeskrivningarna och underartiklarna idag identifierade.<br />
Tabell 2: tagguppsättning för sekundärstrukturen<br />
starttagg sluttagg beskrivning<br />
uttal<br />
genus<br />
ordklass<br />
böjning och formvarianter<br />
etymologi<br />
bruklighet<br />
definition<br />
språkprov<br />
citat<br />
källuppgift – författare<br />
källuppgift – verk<br />
källuppgift – beläggställe<br />
källuppgift – årtal<br />
källuppgift – tidsintervall<br />
källuppgift – kommentar<br />
Uttal<br />
Uttalsuppgifter finns både i huvudet och i betydelsebeskrivningen. I huvudet kommer uttalsuppgifterna<br />
alltid direkt efter uppslagsordet, om inte ordet är dött. Det kan också förekomma<br />
i andra delar av huvudet, vid uppgifter om genus, böjning eller formvarianter. I<br />
betydelsebeskrivningen förekommer uttal endast om uttalet för en viss betydelse avviker<br />
från uttalsuppgiften i huvudet. I ramsorna består uttalsuppgiften endast av siffror som<br />
anger tryck. Uttalsuppgifterna taggas exempelvis:<br />
Mak1iaväl4isk<br />
04<br />
Uttalsinformationen är svårtaggad. Det beror främst på att den innehåller många fel från<br />
den optiska inläsningen – det är många svåra tecken och upphöjda siffror som skall tolkas.<br />
Det är också svårt att korrekturläsa uttalsuppgifterna. Sammanlagt har ca 70 600 uttalsuppgifter<br />
taggats.
26<br />
Artiklar av typen piemontesare (se sidan 19) är komplicerade vad gäller uttalet. Där<br />
kan uttalsuppgiften bygga på föregående artikels uttalsuppgifter, så att endast en del av<br />
uttalet redovisas, se t.ex. regulation och regulativ. Det har sannolikt gjorts för att spara<br />
plats.<br />
Genus<br />
Genusuppgifterna är tämligen svåra att identifiera. De är väldigt komprimerade och kan<br />
lätt förväxlas med andra typer av information. Enstaka bokstäver varvas med punkter och<br />
komma, t.ex. m., f., r., n. och ig., och även med källuppgifter och bruklighetsuppgifter. Vid<br />
taggningsarbetet har vi utgått från de listor över genusförkortningar som finns i handledningarna.<br />
Ca 19 600 genusuppgifter har taggats hittills. Här återstår alltså en hel del arbete.<br />
Ordklass<br />
Ordklassuppgifterna består oftast enbart av en förkortning, t.ex. v., adj., adv., interj.<br />
Förkortningarna finns listade i handledningarna. Det är svårt att tagga ordklassuppgifterna<br />
eftersom de lätt förväxlas med samma förkortningar i andra positioner, t.ex. i korshänvisningar<br />
som se BACKA v. För substantiv ges ordklassuppgift endast om det finns<br />
homografer. Då står förkortningen tillsammans med ett homografnummer, som exempelvis<br />
sbst. 1 , sbst. 2 . Ca 13 900 ordklassuppgifter har taggats, enligt nedanstående modell:<br />
adj.<br />
Böjning<br />
Böjninguppgifterna är obligatoriska. De har oftast en relativt stringent form och är därför<br />
lätta att identifiera. I större artiklar finns emellertid källuppgifter och bruklighetsuppgifter<br />
som bryter mönstren. Ca 19 900 böjningsuppgifter har taggats.<br />
best. -en pl. -ar.<br />
Formparentesen<br />
I formparentesen redovisas vissa stavning<strong>svar</strong>ianter och andra formvarianter. Formparentesens<br />
början taggas:<br />
<br />
Exemplet nedan är hämtat från artikeln demolera. Här anges att demoliera är en variantform<br />
till huvudordet och att varianten är belagd i RP och i Sahlstedt 1769 (se källförteckningarna).<br />
demoliera RP, SAHLSTEDT 1769<br />
Källuppgifter i formparentesen är vanligare i de första banden av SAOB. I de senare banden<br />
anges för det mesta endast tidsintervall för beläggen, som i exemplet hämtat från artikeln<br />
rasenhet.<br />
rass- 1619–1698
27<br />
Etymologi<br />
Etymologin utgör slutet på huvudet och är obligatorisk där. Den kan också förekomma i<br />
betydelsebeskrivningen och underartiklarna om dessas etymologi avviker från den i huvudet.<br />
De etymologiska uppgifterna är lätta att identifiera, eftersom de står inom klamrar. I<br />
citaten förekommer också klamrar vid emendation, men de är lätta att skilja ut eftersom<br />
emendationerna endast innehåller enstaka tecken. Etymologierna taggas:<br />
jfr t. magisterschaft<br />
Sammanlagt ca 101 000 etymologier har taggats. Ambitionen är att också tagga språk och<br />
utländska ord i etymologierna, enligt följande exempel.<br />
jfr t. magisterschaft<br />
Rudolf Rydstedt diskuterar etymologierna i SAOB på sidan 67 och framåt.<br />
Bruklighet<br />
Bruklighetsuppgifter kan förekomma nästan var som helst i artikelstrukturen. De är vanligast<br />
i betydelsebeskrivningen, där de kommer omedelbart efter momentbeteckningen.<br />
Vissa bruklighetsuppgifter anges inom parentes, nämligen uppgifter om ordet i fråga har<br />
inskränkt bruklighet i det allmänna språket eller en speciell stilprägel. <strong>Om</strong> ordet är fackspråkligt<br />
anges däremot detta i kursiv. <strong>Om</strong> båda typerna av bruklighetsuppgifter förekommer<br />
samtidigt så kommer fackbeteckningen sist.<br />
Vi har använt oss av listor över vanliga bruklighetsbeteckningar, som har hämtats från<br />
handledningarna. Den ena listan omfattar ett hundratal vanliga stilangivelser och uppgifter<br />
om inskränkt bruklighet i det allmänna språket, exempelvis †, numera mindre br. och<br />
i högre stil.<br />
Dessa bruklighetsangivelser står alla inom parentes i texten. Den andra listan omfattar<br />
över tvåhundra olika fackbeteckningar som också hämtats från handledningarna, t.ex.<br />
adm. (=administrativ term), ekon. (= ekonomisk term), skom. (= skomakarterm). Vi har<br />
dessutom kompletterat denna lista med några ämnesbeteckningar som vi hittat i SAOB,<br />
men som inte finns med i förteckningarna. 1 Bland fackbeteckningarna finns stavning<strong>svar</strong>ianter,<br />
t.ex. väfn. och vävn. (= vävnadsterm). Det finns också andra varianter, som t.ex.<br />
paleont. och paleontol. (= paleontologisk term). Dessa varianter bör så småningom normaliseras.<br />
Vissa fackbeteckningar som inte används längre, t.ex. tonk. (= termer inom tonkonsten),<br />
bör bytas ut mot den nuspråkliga beteckningen, i detta fall mus. (= musikterm).<br />
Sammanlagt har ca 167 000 bruklighetsuppgifter taggats. Av dessa är knappt 40 000<br />
fackbeteckningar. Fackbeteckningarna taggas:<br />
ekon.<br />
Övriga bruklighetsuppgifter taggas:<br />
(numera mindre br.)<br />
Vi har tagit fram listor över alla facktermer. Termerna är sorterade kronologiskt inom respektive<br />
ämnesområde. Även dessa finns tillgängliga på Internet.<br />
1.Ämnesbeteckningar som inte finns med i förteckningarna: bärgv., fyrv., jordbr., kirurg., kyrkl.,<br />
min., repsl., sjökrigsv., smed. och stil.
28<br />
Definitioner<br />
I SAOB läggs stor vikt vid betydelsebeskrivningarna. De är mycket utförliga och det är<br />
inte ovanligt att de omfattar 10 till 20 rader. De består oftast av flera delar, med olika typer<br />
av definitioner och synonymer. Det finns ingen möjlighet att inom projektets ram göra<br />
en analys av definitionerna, utan ambitionen har varit att avgränsa dem mot omedelbart<br />
föregående och efterföljade information. Här följer två exempel på taggade definitioner<br />
hämtade från artiklarna labiolog respektive demimonde.<br />
person som är kunnig l. fackman i labiologi.<br />
benämning på den af urspårade l. komprometterade individer i en<br />
storstad bestående klass af (i sht) kvinnor som söker efterlikna<br />
’societetens’ seder o. uppträdande; numera vanl. (med försämrad klang)<br />
om de fallna (l. åtm. moraliskt tvifvelaktiga) kvinnornas klass,<br />
försåvidt de söka bevara skenet af fint o. elegant uppträdande; stundom<br />
allmännare: de prostituerades klass öfverhufvud; jfr HALF-VÄRLD.<br />
Den stora svårigheten här var att hitta gränsen mellan definitionen och efterföljande information,<br />
d.v.s det första språkprovet. Den optiska inläsningen skiljer inte på de två stilarna<br />
som används för definitioner respektive språkprov. Gränsen mot första språkprovet<br />
har därför taggats manuellt, vilket naturligtvis krävde en stor arbetsinsats.<br />
Språkprov<br />
Språkproven består oftast av ett citat och en källhänvisning. Första belägg anges ofta bara<br />
med en källhänvisning. Detsamma gäller språkprov i ramsorna. Källhänvisningen består<br />
i sin tur av författarnamn eller översättares namn; boktitel eller liknande i förkortad form,<br />
sidangivelse eller annan precisering av textställe; uppgift om vilket år verket är tryckt,<br />
skrivet eller utgivet. När det står två årtal anger det sista årtalet källans utgivningsår och<br />
det första daterar verkets tillkomst så nära som möjligt. Här följer två typiska modeller<br />
för språkproven. De är hämtade från artiklarna räkna och boman.<br />
Hvems lott blef det väl att få räkna blott glada dagar RUNEBERG ESkr.<br />
2: 303 (1852).<br />
Bomans flickor trådde dansen på det punschfläckade bordet. Tidn. f. idr.<br />
1897, s. 352.<br />
Vi var tvungna att skapa ytterligare stödjepunkter för att tagga språkproven. Efter många<br />
provtaggningar hittade vi en relativt säker utgångspunkt. Årtalen i språkprovens källangivelser<br />
står ofta inom parentes, se t.ex. det första språkprovet ovan, vilket gör att man<br />
kan skilja dem från källuppgifter i huvudet.<br />
Först taggades årtalen. Som årtal betraktades alla följder av fyra siffror, där den första<br />
var en etta, den andra en siffra mellan 5 och 9; och den tredje och fjärde en siffra mellan<br />
0 och 9. Vi fick visserligen med en del sifferkombinationer som inte var årtal, t.ex. spaltnummer<br />
mellan 1500 och 1999 i uppslagsverk. Detta kunde dock korrigeras i ett senare<br />
skede. Ca 1 160 600 årtal är taggade hittills. De enkla årtalen taggas:<br />
1521<br />
Det finns många andra typer av tidsangivelser i SAOB, men de beskrivs inte här eftersom<br />
vi följer TEI:s rekommendationer för att tagga datum. En vanlig typ kan nämnas, nämligen<br />
tidsintervall:<br />
1855–1856
29<br />
Efter att vi taggat årtalsupgifterna lade vi in en temporär tagg som markerade en sannolik<br />
gräns mellan två språkprov. Med utgångspunkt från årtalet sökte vi oss så baklänges i<br />
språkproven för att identifiera textställe, titel och författare. Det var relativt enkelt att<br />
särskilja dem eftersom de har olika typografisk karaktär. Ca 634 600 författarnamn har<br />
taggats enligt nedanstående exempel:<br />
STRINDBERG<br />
Ca 457 700 titlar (förkortningar) har taggats enligt nedanstående mönster. Förkortningen<br />
SD(A) i exemplet står för Stockholms dagblad.<br />
SD(A)<br />
Ca 527 100 sidhänvisningar och andra hänvisningar till textställen har taggats. Exempel:<br />
2: 19<br />
nr. 5, s. 89<br />
Övriga tillägg och upplysningar i källhänvisningen taggas:<br />
Bib. 1917: de stilla i landet<br />
skolpojksuttryck fr. Uppsala<br />
Allt text mellan gränstaggen och påföljande källhänvisning betraktas som citat och taggas<br />
(språkprov från artikeln malm):<br />
Pröffue edher sielffue, och grant tilsee hwadh Malm j ären,<br />
fördömda Syndare ären j. PHRYGIUS (1615)<br />
De förklarande tilläggen (redaktionell text) i citaten taggas som exemplet nedan<br />
(från artikeln mallig).<br />
Nu har prästen blivit mallig i pipen, sade.. (målargesällerna)<br />
på sitt språk. WÄGNER (1921)<br />
Vi har vid några tillfällen gjort specialundersökningar på uppdrag av olika forskare och<br />
tagit fram språkprov från individuella författare, t.ex. Hedvig Charlotta Nordenflycht och<br />
Andreas Arvidi, och från enskilda verk som t.ex. Serenius ordböcker (se "OSA-databasen<br />
i praktiken" på sidan 59 och framåt.). Resultaten av dessa undersökningar visar klart på<br />
att det finns en stor variation i källhänvisningarna och att man måste normalisera både<br />
författarnamn och titlar för att kunna söka på dem.Författarnamn kan variera. Laurentius<br />
Petri skrivs i de första delarna L. PETRI, men senare sammanskrivet LPETRI. Det är<br />
också mycket vanligt med varianter på titlarnas förkortningar. Exempelvis förkortas August<br />
Strindbergs Bland franska bönder både som FrBönd., vilket överensstämmer med<br />
källförteckningen och som Franska bönd. Detta är naturligtvis trivialt för en mänsklig läsare,<br />
men ställer till problem vid sökningen. För att komma undan sådana problem bygger<br />
vi upp en biografisk databas över varianter. Databasen bygger på SAOB-redaktionens bibliografiska<br />
databas. Uppbyggaden av databasen beskrivs mer utförligt av Sofie Johansson<br />
Kokkinakis i denna rapport (se “Bibliografisk databas” på sidan 37 och framåt.). Hittills<br />
har vi endast använt databasen för att ta fram listor över författarnamn, vilka har använts<br />
vid den automatiska taggningen. Vi kommer relativt snart att börja kontrollera alla källangivelser<br />
automatiskt mot informationen i databasen. Fördelarna med en sådan kontroll<br />
är följande.<br />
• Man kan göra en automatisk korrekturläsning av titlar och namn på författare.<br />
• Man kan identifiera variantformer av titlarna och författarnas namn. Databasen<br />
uppdateras allt efter som man hittar nya varianter.<br />
• Man kan avgöra om osäkra avstavningar i författarnamn och titlar skall tas bort el-
30<br />
ler inte. Bindestrecket skall t.ex. behållas i STURZEN-BECKER (Sturzen-Becker),<br />
medan det skall tas bort i STURZEN-BECHER (en annan författare vid namn<br />
Sturzenbecher).<br />
• Man kan göra en automatisk korrekturläsning av årtalen i källhänvisningarna. Här<br />
finns dock många stötestenar.<br />
• Man kan tillföra ytterligare information om källorna, eftersom det finns uppgifter<br />
om t.ex. genre och kön i den bibliografiska databasen. Detta kan utnyttjas i sökningen,<br />
så att man t.ex. kan söka efter språkprov från 1750–1800 från enbart kvinnliga författare.<br />
Normaliseringen av titlarna kan göras på olika sätt. Som nämnts ovan anser jag att man<br />
absolut bör undvika att ändra i själva texten. Ett bättre sätt är att lägga den normaliserade<br />
formen i ett attribut, t.ex. enligt nedan. Ett annat alternativ är att först söka i den<br />
bibliografiska databasen, för att sedan söka i själva SAOB-databasen.<br />
Franska bönd.<br />
FrBönd.<br />
Statistik över språkproven<br />
För att visa på vilken typ av undersökningar som blir möjliga när materialet är färdigstrukturerat<br />
gjorde vi en liten undersökning av språkprovens fördelning över tiden. Underlaget<br />
hämtades från bokstaven K och omfattade språkprov från ca 19 000<br />
betydelsemoment. Alla bokstäver i SAOB har dock sina speciella egenskaper och man kan<br />
säkerligen inte dra några långtgående slutsatser utifrån denna delundersökning.<br />
Vi skapade emellertid en databas över detta material, men tog endast med språkprovens<br />
årtal. Vi kunde sedan ta fram ett antal diagram som visade på hur språkproven fördelas<br />
över tiden. Figur 1 visar språkproven fördelade på 25-årsperioder. Här kan man t.ex.<br />
se att antalet språkprov från perioden 1525–1549 är mer än dubbelt så många som under<br />
perioden 1550–1574. Ett påpekande måste göras angående stapeln 1925–1949. Eftersom<br />
de sista delarna av bokstaven K trycktes 1939 så representerar den endast språkprov mellan<br />
1925 och 1939. Stapeln 1950–1974 måste också kommenteras. Då undersökningen<br />
gjordes för några år sedan fanns det fortfarande en del uppgifter som felaktigt taggats som<br />
årtal, t.ex. spaltnummer i uppslagsböcker. Detta har nu rättats till.<br />
Figur 1. Språkprovens fördelning på 25-årsperioder
31<br />
Figur 2 visar ett diagram över hur språkproven från perioden 1900–1924 fördelas på enskilda<br />
år. Här är det möjligt att se hur excerperingen av källor från vissa år dominerar,<br />
t.ex. år 1917. Det är möjligen 1917 års bibelöversättning som ger detta genomslag. Antalet<br />
källor från år 1917 är ca 200, enligt sökningen i den bibliografiska databasen. Som en jämförelse<br />
kan nämnas att det finns 180 källor från 1916 och 234 från 1918. Det verkar alltså<br />
inte finnas något direkt samband mellan antalet språkprov och antalet källor.<br />
Litteratur<br />
Figur 2: Språkprov 1900–1924<br />
Allén, S., Loman, B. & Sigurd, B. 1986. <strong>Svenska</strong> Akademien och svenska språket.<br />
Stockholm.<br />
Berg, D.L., Gonnet, G.H. & Tompa, F.W. 1988. The New Oxford English Dictionary Project<br />
at the University of Waterloo. UW Centre for the New Oxford English Dictionary,<br />
OED-88-01.<br />
Blake, G.E., Consens, M.P., Kilpeläinen, P., Larson P.-Å., Snider, T. & Tompa, F.W. 1994.<br />
Text/Relational Database Management Systems: Harmonizing SQL and SGML. I<br />
Applications of Databases Proc. (ADB-94), Vadstena. pp.<br />
Burnard, L. & Speerberg-MacQueen. C.M. 1994. Guidelines for Electronic Text Encoding<br />
and Interchange (TEI P3).<br />
Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1904. Utarbetad av Ernst<br />
Kock.<br />
Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1993. Utarbetad av Hans<br />
Jonsson.<br />
Kazman, R. 1986. Structuring the text of the Oxford English Dictionary through finite state<br />
transduction, Master Thesis, CS-86-20, University of Waterloo.<br />
Kreyt, J. G. & van der Voort van der Kleij, J. J. 1992–93.Towards a Computerised<br />
Historical Dictionary of Dutch. In Acta Linguistica Hungarica, Vol. 41.<br />
Kring en <strong>ordbok</strong>. Festskrift till Sven Ekbo. Stockholm (1975; Sv. Ak. handl.: Norstedts)<br />
Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. Lund.
32<br />
Malmgren, S.-G. 1988. The O.S.A project: Computerization of the Dictionary of the<br />
Swedish Academy. In Literary and Linguistic Computing 3: 166–8.<br />
Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />
1893 –. Lund.<br />
The Oxford English Dictionary. (OED). 1888–. Oxford.<br />
Rydstedt. R., Creating a Lexical Database from a Dictionary. 1988. In Studies in<br />
Computer-Aided Lexicology. Göteborg.<br />
Salminen, A. & Tompa, F.W. 1994. PAT expressions: an algebra for text search. I Acta<br />
Linguistica Hungarica 41, 1–4 1994, 277–306.<br />
<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> (SAOB). 1896–. Lund.<br />
Svensson, L., Hansson, I. & Ruthström, B. (red.) 1993. Ord och lexikon. Festskrift till Hans<br />
Jonsson. Lund 1993.
33<br />
Lena Rogström<br />
Taggning i praktiken – en personlig reflektion<br />
Efter att i många år ha arbetat med olika delar av OSA-databasens struktur, huvudsakligen<br />
manuellt, har jag haft anledning att reflektera över <strong>ordbok</strong>ens brister och förtjänster.<br />
Den intressanta sidan med att tagga material manuellt är just att man kommer <strong>ordbok</strong>en<br />
så ”in på livet”. När man suttit och korrekturläst, taggat och kontrollerat artiklar i ett<br />
oändligt antal timmar har man skaffat sig ett livslångt förhållande av högst personlig art<br />
till materialet; ett förhållande som oftast givit många insikter av såväl språkvetenskaplig<br />
som allmänbildande karaktär. Emellanåt får man också anledning att fundera över redaktionens<br />
humoristiska ådra när man betänker valet av språkprov. Följande två exempel får<br />
tala för sig själva:<br />
Wårt språk (är) så regelbundit, och så faststelt, at thet kan.. biuda<br />
alla språk..foten. SWEDBERG SabbRo 2: Föret. s. 15 (1712).<br />
Ungdomliga lärjungar inbilla sig .. gärna, att språksvårigheterna lätttare<br />
övervinnas med större ordböcker. PedT. 1943 s. 226<br />
Dessa sidor innehåller en del av de reflektioner jag gjort under taggningen av delar av<br />
OSA-materialet. De är kanske inte alla av vetenskaplig art, men säger förhoppningsvis en<br />
del om hur arbetet går till och en del om SAOB:s kvaliteter.<br />
I OSA-databasen markeras de olika innehållskategorierna unikt för att datorn skall<br />
kunna hitta dem. Till stor del kan detta göras maskinellt (se “SGML-taggning av SAOB”<br />
på sidan 15 och framåt.i denna skrift) men vissa partier måste taggas manuellt. Ett sådant<br />
fall är taggningen av förstabeläggen i språkproven. Dessa är av stort intresse för <strong>ordbok</strong>sanvändaren<br />
och det är väsentligt att de markeras korrekt.<br />
Tyvärr kan de vara svåra att urskilja maskinellt eftersom inläsningsprogrammet inte<br />
gjort någon åtskillnad på stilen och textstorleken för brödtext och autentisk språkprovstext.<br />
I den tryckta texten ser man tydligt vad som är definitioner, redaktionella exempel<br />
och autentiska språkprov, men i den maskinläsbara versionen är detta inte lika<br />
tydligt. Skillnaderna mellan stilarna syns inte direkt på skärmen utan markeras endast<br />
med taggar, dessutom ganska ofta felaktiga sådana. Vid inläsningen har datorn haft problem<br />
med att avgöra var definitioner och redaktionella språkprov slutar och autentiska<br />
språkprov börjar. Av den anledningen måste man gå in och utföra den delen av taggningen<br />
manuellt.<br />
I arbetet med förstabeläggen har jag haft anledning att reflektera över <strong>ordbok</strong>ens<br />
språkprov, som ju utgör själva grundvalen för hela arbetet. Det kan ju tyckas som ett enahanda,<br />
tidskrävande arbete att kontrollera vad som är ett förstabelägg eller inte, inte<br />
minst för att man antas behöva jämföra med den tryckta <strong>ordbok</strong>en varje gång. Så är dock<br />
inte fallet.<br />
Faktum är att när man sitter och taggar förstabeläggen manuellt övar man snabbt upp<br />
en känsla för vad som är ett autentiskt språkprov och vad som är redaktionella exempel<br />
respektive en del av definitionen. Det är ytterst sällan man behöver konsultera den tryckta<br />
texten för att kontrollera sina intuitioner, något som borde borga för <strong>ordbok</strong>ens goda<br />
kvalitet och omdömesgilla urval av typiska språkprov. Sett ur en ”taggares” synvinkel är<br />
det framför allt en fördel att arbetet går snabbare om man främst behöver bry sig om databasens<br />
text.<br />
Vid de tillfällen då man inte kan använda stilen för att avgöra vad som är vad i databasen<br />
kan man ändå på ett förhållandevis enkelt sätt avgöra var det första autentiska beläg-
34<br />
get finns. Är man någorlunda kunnig i svenskans språkliga historia kan man ofta på rent<br />
kronologiska grunder avgöra om ett språkprov är äldre än den redaktionella texten eller<br />
inte, framför allt vad beträffar stavning.<br />
Den språkliga formen<br />
Bokstaven R började tryckas 1956 och har redaktionell text som stavas enligt moderna<br />
principer. Därför är det enkelt att avgöra att följande exempel måste vara autentiskt enbart<br />
på grundval av stavningen.<br />
Man kan döma hvad tillopp och vördnad han vann .., när han, oaktadt<br />
penningars rarhet den tiden, för en enda messa fick siuttio marker ..<br />
silfver. DALIN Hist. 2: 13 (1750).<br />
I belägget förekommer dels stavning med initialt hv för v-ljudet, en stavning som är sällsynt<br />
förekommande i SAOB:s redaktionella text. Principen att stava neutrala perfekt particip<br />
med slutljudande d som dt hade också frångåtts 1956, och stavningen messa för det<br />
moderna mässa hjälper också till att urskilja språkprovet på rent åldersmässiga grunder.<br />
Trooheet bland Legehion är en stoor raritet.GRUBB 121 1665.<br />
I citatet från Grubb används bl.a. dubbeltecknad vokal för långt vokalljud, en stavningsprincip<br />
som försvann redan under 1700-talet. Även stavningen av j-ljudet (hion) är ålderdomlig<br />
och tyder på att texten kommer från 1600–1700-talet.<br />
Innehållet i språkproven<br />
Ofta har man också stor hjälp av själva innehållet i språkproven. Man kan relativt säkert<br />
avgöra vilka språkprov som är autentiska enbart på innehåll och ordval, om de formella<br />
kriterierna inte hjälper till. Följande exempel får illustrera påståendet:<br />
Hans hustru är en riktig raring, med ljust hår och smilgropar.<br />
ÅKERHIELM Webster Fiende 98 1927.<br />
I princip skulle man kanske kunna tänka sig att någon skrev ovanstående citat i akt och<br />
mening att ha det som redaktionellt språkprov i SAOB. Något i ordvalet säger oss dock att<br />
en modern <strong>ordbok</strong>sredaktion förmodligen skulle tveka inför beslutet att använda det som<br />
redaktionell text. Som autentiskt språkprov är det dock utmärkt.<br />
I nedanstående språkprov citeras två personnamn vilka är så pass ovanliga att de förmodligen<br />
inte skulle väljas till ett redaktionellt språkprov.<br />
Tannström är rasande på Agardh. LILJECRONA Riksd-Kul. 166 1840.<br />
I följande exempel är språkprovet också såpass konkret, genom omnämnandet av en speciell<br />
fågelart, att man på ganska goda grunder kan anta att det är autentiskt.<br />
Den raritet bland fåglar som bär namnet dubbelbeckasin. ROSENIUS Jakt<br />
1: 100 (1912).<br />
Sammanhanget språkprov – källa<br />
Ganska ofta kan man direkt koppla innehållet i ett språkprov till en bestämd författare.<br />
När en person som Sven Dufva figurerar i ett språkprov (i detta fall supplerat) kan man<br />
på ganska goda grunder anta att det är Runeberg som är upphovsman, varvid språkprovet<br />
givetvis är autentiskt.<br />
(Sven Duva) Fick vara dräng, der man höll rast, soldat der striden<br />
brann. RUNEBERG 2: 52 1846.
35<br />
Tveksamma fall<br />
Följande exempel visar på sådana fall då jag varit tvungen att konsultera SAOB för att få<br />
<strong>svar</strong> på vad som är redaktionellt eller inte. Man skulle kunna tänka sig att det autentiska<br />
språkprovet endast består av en källhänvisning efter ett redaktionellt språkprov.<br />
Avregistrerat motorfordon. SFS 1940 s. 1733.<br />
Det raskar mot höst. BLOMBERG Landk. 5 1922.<br />
Glänsande, rasslande siden. BENEDICTSSON FruM 59 1887.<br />
Gemensamt för alla språkproven (som är autentiska) är att de är så knapphändiga och allmänt<br />
hållna att det inte finns något speciellt att identifiera dem med vad beträffar stavning,<br />
innehåll etc.<br />
I exemplet nedan förefaller innehållet i språkprovet vara för modernt jämfört med källhänvisningens<br />
ålder. Visserligen fanns det bomber redan under 1700-talet, med frågan är<br />
om de användes för att bomba städer med. Ortografin förefaller dessutom väl modern för<br />
ett autentiskt 1700-talsexempel, vilket det alltså inte är.<br />
Han begravdes under raset, när bomben träffade huset. BERGMAN Jordkl.<br />
1:220 1773.<br />
Följande exempel är ett redaktionellt exempel där kursiven fattas, men av innehållet att<br />
döma skulle man kunna tro att det var autentiskt eftersom det stämmer väl överens med<br />
källhänvisningen.<br />
Skjuta med revolver. KrigVAT 1852, s. 99.<br />
Sammanfattning<br />
Ovanstående redogörelse visar i mångt och mycket på ett tillvägagångssätt som i stora<br />
stycken kan sägas vara intuitivt. Man har en ”känsla” för vad som är rätt eller fel; en känsla<br />
som arbetats upp genom ett långt arbete med <strong>ordbok</strong>en och som man litar på utan att<br />
djupare reflektera över vari den bottnar. Naturligtvis grundas inte taggningsarbetet på<br />
medarbetarnas oreflekterade intuitioner inför materialet, men var och en som arbetat<br />
länge med ett material får till slut en sådan kännedom om det att man ofta kan avgöra på<br />
förhand vad en viss kategori representerar. Och denna kännedom kan utnyttjas som ett<br />
komplement till de mer teoretiska, rationella metoderna som arbetet huvudsakligen bygger<br />
på.<br />
Just det faktum att man utan konkreta hållpunkter kan avgöra vilka språkprov som är<br />
autentiska och inte i SAOB, visar att urvalet av språkprov i <strong>ordbok</strong>en bygger på välgrundade<br />
kriterier som urskiljer ”verkligt” språk gentemot konstruerade exempel.
37<br />
Sofie Johansson Kokkinakis<br />
Bibliografisk databas<br />
Uppbyggnad och koppling till SAOB<br />
Den bibliografiska databas över källförteckningar i SAOB som finns på Språkdata vid Göteborgs<br />
universitet bygger på den bibliografiska databas som Lars Svensson på Ordboken<br />
i Lund har byggt upp. Detta gjordes genom att sätta ihop material från tre olika källförteckningssamlingar,<br />
”Källförteckning av Sigrid von Greyertz”, ”Källförteckning, supplement<br />
1 av Gulli Starfelt-Brown” och ”Källförteckning, supplement 2 av Lars Svensson”. De<br />
representerar bibliografiskt material från tidsperioderna 1939, 1975 och 1975–1990, respektive.<br />
De två första samlingarna är tryckta och har scannats in och den tredje materialsamlingen<br />
som bygger på excerperade texter finns inte i tryckt format utan endast i<br />
databasform.<br />
Sökning i den bibliografiska databasen<br />
För att kunna söka på viss information i databasen har vi i Göteborg utvecklat utsökningsrutiner<br />
vilka kan användas i ett gränssnitt på World Wide Web (WWW). Sökningar kan<br />
göras med hjälp av ”navigeringsverktyg” (eng. browsers) för WWW, som t.ex. Netscape eller<br />
Mosaic. Dessa sökningar kan för närvarande göras på författarefternamn, källtitel, förkortning<br />
av källtitel och sökord. Nu pågår arbete med att skapa sökningsmöjligheter för<br />
kombinerad sökning, där även sökning på tryckår kommer att ingå. Resultaten i sökningarna<br />
varierar något genom att de ibland ger alternativ på resultat till sökningselementet.<br />
Det innebär att vid vissa sökningar får en användare inte det slutgiltiga sökningsresultatet<br />
omedelbart, utan en vidareutvecklig av sökningen. Detta sker t.ex. vid sökning på en<br />
författare. Användaren ska då ange författarens efternamn och resultatet blir en lista med<br />
alla författare med samma efternamn fast med initialer eller förnamn. På det sättet kan<br />
en användare snabbt och lätt hitta rätt författare utan att veta den exakta stavningen av<br />
förnamn eller initialer i förväg. Det slutliga resultatet består av källtitel, sökord, källreferens<br />
och identifieringsnummer.<br />
Nedan följer en närmare beskrivning av de sökningsrutiner som finns i dag:<br />
Författarefternamn, ger en lista på författare med samma efternamn fast med förnamn<br />
eller initialer, och antal verk angivna, för att underlätta en vidare sökning. Användaren<br />
kan då välja den författare som stämmer med beskrivningarna i listan på efternamn.<br />
Källtitel, ger en lista på verk som antingen börjar på ett visst ord eller har en viss titel.<br />
Förkortning i källtitel, ger en lista av verk som i källtiteln innehåller den sökta förkortningen.<br />
Användaren måste ange exakt stavning av förkortning.<br />
Sökord, ger en lista på författare och verk som innehåller det givna sökordet.<br />
I figur 1 visas gränssnittet på WWW till den bibliografiska databasen.
38<br />
Figur 1: Gränssnittet på WWW till den bibliografiska databasen.<br />
Figur 2 och 3 visar exempel på de resultat man kan få i en sökning på författarefternamn.<br />
I en sökning på ”ANDERSSON” visas först en lista på alla ”ANDERSSON” som finns i databasen,<br />
med initialer och antal verk som ges exempel från i SAOB, se figur 2.<br />
Figur 2: Författarefternamn med initialer och antal verk.<br />
Vid ett val av vidare sökning på ”ANDERSSON [CFG]”, visas en närmare beskrivning av<br />
de verk författaren har skrivit, se figur 3.
39<br />
Figur 3: Beskrivning av författare, verk, tryckort och tryckår.<br />
Implementering<br />
Den ursprungliga databasen som utvecklades av Lars Svensson på <strong>ordbok</strong>ens redaktion i<br />
Lund skapades i FileMaker Pro 2.1 under Macintosh operativsystem. Vidareutvecklingen<br />
av databasen har sedan utförts i Göteborg under operativsystemet Unix med ett gränssnitt<br />
på World Wide Web (WWW).<br />
Den bibliografiska databasen innehåller information om författare, källtitel, tryckort,<br />
tryckår, sortering, källförteckning, sökord plus diverse andra typer av information som<br />
har insamlats vid <strong>ordbok</strong>sarbetet i Lund. All information som lagts in i databasen i Lund<br />
har nu överförts till databasen i Göteborg.<br />
Själva bearbetningen och omarbetningen av materialet sker med hjälp av programmeringsspråk<br />
som Perl (Practical Extraction and Report Language) och sed. Materialet lagras<br />
i en delvis modifierad tabellform. Tabellformen bygger på den ursprungliga, men för<br />
att möjliggöra vissa typer av sökningar och dessutom snabba upp sökningarna har tabellerna<br />
kompletterats med annan information. Diverse utsökningsrutiner har sedan skapats<br />
i databasfrågespråket SQL. Ett gränssnitt i Common Gateway Interface (CGI) har<br />
skapats för att användare ska kunna göra sökningar genom WWW.<br />
Kopplingsmöjligheter<br />
De kopplingsmöjligheter som finns är de mellan befintliga författare och verk i artiklar i<br />
SAOB och deras mot<strong>svar</strong>ighet i databasen. Sammankoppling sker med de ovan beskrivna<br />
sökningsrutinerna och det gemensamma gränssnittet på WWW. I Figur 4 visas en SAOBartikel<br />
i gränssnittet på WWW.
40<br />
Figur 4: Artikel ”ADAGIO” från SAOB på WWW.<br />
En länk från en författare kan antingen ge en beskrivning av de verk författaren har producerat<br />
eller en närmare beskrivning av det verk ett aktuellt uppslagsord förekommer i.<br />
En länk från ett verk kan ge en beskrivning av verket som ett visst uppslagsord förekommer<br />
i.<br />
Den information som tidigare varit tillgänglig om författare och verk är ett kortare utdrag<br />
av exempel på författare, verk, tryckort och tryckår.<br />
Problem<br />
I utvecklingen av den bibliografiska databasen i operativsystemet Unix, uppstod diverse<br />
problem. Det var dels ”konsekvens”, dvs. olika sätt att beskriva t.ex. ”tryckort”, i materialet<br />
från databasen i Macintosh-format och det var dels representation av materialet i en<br />
annan form för att underlätta snabb sökning.<br />
Eftersom databasen i Macintosh inte hade använts för att göra samma typer av sökningar<br />
som nu var aktuellt, hade konsekvens i materialet inte tidigare varit ett problem.<br />
Men för att kunna göra sökningar på t.ex. tryckår, blev det nu viktigt att bestämma hur<br />
tryckårsinformationen skulle representeras. Det fanns ibland med annan information om<br />
diverse upplagor som i och för sig är information som måste finnas med i tryckårsinformationen<br />
men inte kan hanteras i en sökning på t.ex. vilka verk som trycktes mellan 1830<br />
och 1840. Denna typ av information är viktig i sökningen. Den ursprungliga informationen<br />
finns fortfarande kvar och det är fortfarande den information som användaren ser i resultatet<br />
av en sökning.<br />
Komplettering av materialet har utförts i databastabellerna som beskriver författare,<br />
tryckår, källtitel, sökord och förkortningar på källtitel. Liknande kompletteringar kan<br />
komma att behövas om fler sökrutiner för att söka i databasen implementeras.
41<br />
Andra kopplingsmöjligheter<br />
Det är möjligt att använda den bibliografiska databasen för att skapa andra kopplingsmöjligheter<br />
än de beskrivna som länkar från artiklar på WWW.<br />
Andra länkar från SAOB-artiklar på WWW kan t.ex. vara:<br />
• länkar från de autentiska språkexempel som finns i artiklarna i SAOB till de verk de är<br />
tagna ur. Detta kan vara intressant om man vill ha en större kontext till det givna exemplet.<br />
En konkordans av uppslagsordet i ett verk kan vara intressant om man vill studera<br />
en enskild författares bruk av ett ord. Se vidare ”Implementering av koppling mellan<br />
gränssnitt och sökrutiner till <strong>Svenska</strong> <strong>Akademiens</strong> Ordbok och exempelkorpus (S. Johansson<br />
Kokkinakis, 1995)”. Detta är en implementering av länkar från språkprov i SAOB till<br />
Strindbergs ”Tjänstekvinnans son”, dels i form av konkordans av fler förekomster av samma<br />
uppslagsord och dels större kontexter till dessa.<br />
• länkar till andra ordböcker för att ge vidare förklaringar av ett uppslagsord, exempelvis<br />
Söderwalls Ordbok öfver svenska medeltidsspråket.<br />
• länkar till fler förekomster av ett uppslagsord i flera samtida verk. Det kan vara intressant<br />
om man vill jämföra olika författares bruk av ett uppslagsord. Detta förutsätter<br />
många verk i elektroniskt läsbart format.<br />
Bibliografi<br />
Kokkinakis Johansson, S. 1995. Implementering av koppling mellan gränssnitt och<br />
sökrutiner till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> och exempelkorpus. Språkdata,<br />
Institutionen för svenska språket. Göteborgs universitet.<br />
Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />
1893 –. Lund.<br />
Söderwall, K. F. 1884–1918. Ordbok öfver svenska medeltidsspråket. Lund.
43<br />
Lena Rogström<br />
Den ortografiska normen i SAOB<br />
Under den tid som SAOB redigerats har svenska språket utvecklats och förändrats, inte<br />
minst vad gäller ortografi och morfologi. För SAOB:s del har framför allt 1906 års stavningsreform<br />
medfört en del förändringar beträffande stavningen i <strong>ordbok</strong>en, eftersom flera<br />
bokstäver både hann påbörjas och tryckas innan reformen slog igenom.<br />
Det är självfallet besvärligt för utgivningen av en omfattande <strong>ordbok</strong> när själva metaspråket<br />
måste anpassas. De ortografiska förändringarna har också ställt OSA-projektet<br />
inför en del principiella och praktiska problem varför vi valt att ägna ett separat avsnitt<br />
åt just stavningsprinciperna i <strong>ordbok</strong>en och databasen. Redogörelsen för språkdebatten<br />
under 1800-talet blir med nödvändighet mycket knapphändig, men den som vill läsa mer<br />
om dessa frågor kan få upplysningar om utförligare beskrivningar i litteraturlistan.<br />
<strong>Svenska</strong> Akademien och stavningen<br />
<strong>Svenska</strong>n, liksom de flesta skriftspråk, har periodvis varit föremål för intensiva debatter<br />
angående stavning, och för svenskans vidkommande verkar diskussionen ha varit ovanligt<br />
livlig under 1700-talet. Gustav Vasas bibel hade sedan 1500-talet haft stort inflytande<br />
på stavningen, men allt eftersom de språkvetenskapliga disciplinerna utvecklades, samtidigt<br />
som språket förändrades, höjdes röster som förespråkade en ortografi bättre lämpad<br />
för det moderna språket. Man kan urskilja två läger – det ena bestående av dem som förespråkade<br />
en ljudenlig stavning, och det andra bestående av dem som snarare ville lägga<br />
etymologiskt släktskap till grund för stavningsprinciperna.<br />
Under slutet av 1600-talet debatterade Urban Hiärne och Jesper Swedberg med en för<br />
oss smått obegriplig intensitet om stavningsfrågor, och under 1700-talet engagerade sig<br />
oerhört många i debatten. 1741 försökte man t.o.m. få Riksdagen att lagstifta om stavningsfrågor<br />
– ett förslag som visar på allvaret i frågan.<br />
Det är också mot bakgrund av denna debatt om språkriktighet, språkvård och språkvetenskap<br />
man skall se instiftandet av <strong>Svenska</strong> Akademien år 1786. <strong>Svenska</strong> Akademien<br />
har alltid haft stort inflytande på språkfrågorna i vårt land och SAOL har status av en normerande<br />
ordlista för svenska språket. Det var också en av <strong>Akademiens</strong> ledamöter som<br />
gjorde en bestående insats för att stabilisera stavningen av svenskan under början av<br />
1800-talet, nämligen Carl Gustaf af Leopold, som 1801 fick gehör för sina ortografiska<br />
principer. Dessa befästes sedan ytterligare genom att Carl Jonas Love Almqvist lade dem<br />
till grund för sin ”Svensk Rättstafnings-lära” 1829.<br />
1889 utkom den sjätte upplagan av SAOL, i stora drag utformad av Esias Tegnér d.y.,<br />
och denna upplaga innehöll en stor mängd ortografiska förändringar. Året efter beslöts att<br />
SAOL skulle upphöjas till norm i stavningsfrågor.<br />
Den ortografiska debatten fortsatte dock genom hela seklet och resulterade slutligen i<br />
1906 års stavningsreform då svenska språket antog den ortografiska norm som i stort sett<br />
gäller än idag.<br />
1906 års stavningsreform<br />
De viktigaste punkterna i 1906 års stavningsreform omfattar stavningen av v-ljudet, t-ljudet<br />
och ä-ljudet.
44<br />
V-ljudet kunde vid denna tid stavas antingen med f (skref, afstanna), fv (hafva) eller hv<br />
(hvilken). Efter reformen kom v-ljudet att stavas uteslutande med v (skrev, avstanna, hava,<br />
vilken).<br />
En annan besvärlighet i svensk ortografi var stavningen av t-ljudet i vissa verbformer<br />
och adverb. Principen hade vacklat genom tiderna men kan i huvudsak förklaras med att<br />
supinum stavades med t (han har gått) medan perfekt particip i neutrum stavades med dt<br />
(pappret är användt). T-avledda adverb, (slå någon hårdt (av adjektivet hård)), stavades<br />
med dt liksom en del andra ord, t.ex. neutrumformen rödt av röd. 1906 års stavningsreform<br />
förändrade denna stavning till att enbart omfatta tt respektive t (gått, använt, hårt,<br />
rött).<br />
Ytterligare en ortografisk svårighet, som fortfarande kvarstår, var stavningen av ä-ljudet,<br />
som ju i svenskan emellanåt stavas med e (berg) och i andra fall med ä (bälg), trots att<br />
vokalljudet i båda orden uttalas likadant. Den komplicerade stavningen av svenskans ä-<br />
ljud (och å-ljud) kan förklaras med språkhistoriska orsaker och bottnar i att ljud som från<br />
början var olika med tiden föll samman. 1906 års stavningsreform innebar att stavningen<br />
av ä-ljudet i flera fall återgick till att stavas med e i stället för ä som varit fallet i bl.a. 1889<br />
års SAOL.<br />
SAOB och stavningen<br />
När 1906 års stavningsreform genomfördes hade SAOB publicerat bokstaven A och C och<br />
påbörjat ett flertal andra bokstäver, bl.a. den omfattande bokstaven B. För att slippa byta<br />
stavningsprinciper mitt i de påbörjade bokstäverna började man tillämpa nystavningen<br />
först med bokstaven E, 1917. Till viss del bibehölls dock den äldre stavningen t.o.m. 1923<br />
i en del kompletterande häften för äldre bokstäver. Faktum är att man kan hitta vissa ord<br />
stavade på gammalt vis ända fram till bokstaven L (1937) bl.a. hvilka, hvarandra, användt.<br />
Det finns dock inga stickord med initialt hv, och ytterst få med dt, undantaget de<br />
ord som har med hand att göra t.ex. HANDTEL och HANDTVÄRK (tryckt 1930).<br />
Vad beträffar stavningen av kort e- och ä-ljud skiljer sig SAOB från gängse norm genom<br />
att ett flertal ord stavas med ä, där vi skulle vänta oss e. Detta har fått till följd att en del<br />
ord som inleds med kort e- eller ä-ljud och som nu stavas med e ändå inte kommer att behandlas<br />
förrän under Ä. Det mest kända exemplet är väl EGG (knivsegg) som i SAOB stavas<br />
med Ä och därför inte behandlats än. Lundbladh (1992:19) anger också att bärg stavas<br />
med ä, men faktum är att just detta ord med sammansättningar stavas med e, alltså stick<br />
i stäv med de principer som annars används av SAOB i dessa fall.<br />
Principen får också till följd att den redaktionella texten emellanåt verkar ålderdomligare<br />
än språkproven genom sin stavning av e, t.ex. värklighetsskildring (R401), värksamhet<br />
(R401), pängar (R501), rägn (R501).<br />
I artiklarna kan det se ut som i exemplen nedan:<br />
om ngns värksamhet: praktisk. En realistisk verksamhet (dvs. utövande<br />
av boktryckaryrket) nyttig både för hans utveckling såsom man och för<br />
betryggandet af hans timliga bergning. ATTERBOM Minnest. 2: 225 1855.<br />
Det redde väl upp sig (med affärerna), gällde bara att skaffa (pängar)<br />
för tillfället. ÖBERG Makt. 1:82 (1906).<br />
Vad beträffar morfologin är det främst de plurala verbformerna som berörs. SAOB höll<br />
länge fast vid bruket av plurala verbformer och de avskaffades först 1976 i <strong>ordbok</strong>en.<br />
SAOB borde därmed vara den sista mer officiella instansen i Sverige som höll fast vid detta<br />
bruk.
45<br />
Även vad beträffar dessa former kan det hända att den redaktionella texten förefaller<br />
vara ålderdomligare än språkproven.<br />
Salens tre första bänkar äro reserverade för honoratiores<br />
(Redaktionsexempel ”reservera” tryckt 1957)<br />
Implikationer för OSA<br />
För en mänsklig användare är bakgrunden till SAOB:s stavningsprinciper begripliga och<br />
ger på sin höjd ett lite kuriöst intryck. Känner man bara till efter vilka principer <strong>ordbok</strong>en<br />
är redigerad så kan man använda den utan problem. Hittar man inte PENG efter PENE-<br />
TRERA så kan man med lite tålamod slå upp ordet en gång till med ledning av hänvisningen,<br />
och slutligen hitta uppslagsordet PÄNNINGAR efter PÄNNA (!) och PÄNNAL.<br />
För en dator är det inte lika enkelt. I motsats till människan måste den ha exakta besked<br />
om vad den skall leta efter och hittar den inte vad den söker måste man ge nya order.<br />
Den kan inte tänka själv. Eftersom alla artiklar dessutom innehåller ett otal stavningar<br />
av ett och samma ord från skilda tider är det nödvändigt att ha en enhetlig uppslagsform<br />
där stavningen inte varierar över de olika banden.<br />
Detta problem delar vi självfallet med redaktionen i Lund som förr eller senare måste<br />
ta itu med saken, inte minst om en andra upplaga skall påbörjas. För SAOB-redaktionens<br />
del får problemet anstå ett antal år, men för OSA-projektets del är det nödvändigt att försöka<br />
få till stånd någon slags normalisering av metaspråket när databasen skall börja användas<br />
i större skala. En av de stora vinsterna med OSA är just att man skall kunna göra<br />
stora, snabba sökningar i hela <strong>ordbok</strong>en och samtidigt vara säker på att få med alla uppgifter.<br />
Det får man inte om ett och samma ord stavas på minst två olika sätt bara i den<br />
redaktionella texten.<br />
I princip skulle man lätt kunna gå in och normalisera stavningen av primärenheter och<br />
därmed lösa det praktiska problemet, men då har man samtidigt gjort om <strong>ordbok</strong>en till något<br />
annat än vad den är. För OSA-projektets vidkommande är det viktigt att inte göra några<br />
ingrepp i själva <strong>ordbok</strong>ens redaktionella utförande, vi har t.o.m. låtit de få tryckfelen<br />
vara kvar, vilket medför att vi får finna andra lösningar. För närvarande funderar vi på<br />
att ge dubbla upplysningar, d.v.s ha en normerad variant som sökalternativ, samtidigt<br />
som <strong>ordbok</strong>ens ursprungliga stavning också återges. Vår förhoppning är att vi genom detta<br />
förfarande också kan vara redaktionen behjälplig när en andra upplaga skall påbörjas.<br />
Litteratur<br />
Hernlund, H. 1883. Förslag och åtgärder till svenska skriftspråkets reglerande 1691–1739<br />
jämte en inledande öfversigt af svenska språkets ställning under den föregående tiden.<br />
Stockholm.<br />
Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1992. Lund<br />
Johannisson, T., G. Mattsson 1974. <strong>Svenska</strong> <strong>Akademiens</strong> ordlista under 100 år. Skrifter<br />
utgivna av <strong>Svenska</strong> språknämnden. 55. Stockholm.<br />
Santesson, L. 1986. Tryckt hos Salvius. Lundastudier i nordisk språkvetenskap. Ser A 37.<br />
Lund.<br />
Ståhle, C. I. 1970. Det nordiska rättstavningsmötet 1869 och hundra års svensk<br />
rättstavning. I: Skrifter utgivna av Nämnden för svensk språkvård 43. Stockholm.<br />
s. 5–36.
47<br />
Sofie Johansson Kokkinakis<br />
SAOB som hypertext<br />
Hypertextgränssnitt till artiklar i SAOB<br />
Artiklarna från A till Advokat i SAOB finns nu tillgängliga i en sökfunktion med gränssnitt<br />
på World Wide Web (WWW). Det innebär att den som har tillgång till Internet kan<br />
slå upp ord och läsa hela artiklar i SAOB. WWW är ett forum som använder sig av hypertext.<br />
Hypertext innebär representation av textmängder där texten inte nödvändigtvis förekommer<br />
linjärt. Hypertext är länkar som kopplar ihop informationsbitar för att<br />
möjliggöra för en läsare att välja olika vägar i sökning av information.<br />
Bakgrund och beskrivning<br />
Anpassningen till WWW gjordes med början under 1994 först genom att lägga ut artiklarna<br />
i Hypertext Markup Language (HTML)-format. HTML är en Standard Generalized<br />
Markup Language (SGML)-variant som används vid informationsrepresentation på<br />
WWW. Detta innebar att de redan fanns färdiga i HTML-format varje gång det gjordes en<br />
sökning på en artikel. En senare del av utvecklingen av WWW-anpassningen av SAOB<br />
gjordes under 1995 och blev en sökrutin där artiklarna inte fanns färdiga när de skulle tas<br />
fram, utan de genererades från det elektroniska material som SAOB för närvarande redigeras<br />
i. En nackdel med denna metod är att det kan ta något längre tid att ta fram en artikel,<br />
men detta uppvägs å andra sidan av besparingen av utrymme. Det krävs nämligen<br />
väldigt mycket minne för att spara alla artiklar i HTML-format.<br />
Den automatiska sökningen innebär en möjlighet att söka på artiklar som t.ex. ”abborre”.<br />
Se figur 1.<br />
Figur 1: Sökning på artiklar i SAOB med WWW-gränssnitt.<br />
I figur 2 visas artikeln ”abborre” i HTML-format, ungefär som den ser ut i <strong>ordbok</strong>en. Strukturen<br />
skiljer sig dock något. Det är t.ex. typsnittsstorlek och placering av olika informationsdelar<br />
i en artikel som skiljer sig åt. Detta är för att förtydliga strukturen eftersom det är mycket viktigt<br />
hur informationen struktureras i WWW-miljö för att ge bästa möjliga överblick och förståelse.
48<br />
Figur 2: SAOB-artikel i HTML-format.<br />
I artikeln, i figur 2, kan man se vissa ord som är understrukna. De är ord som innehåller<br />
hypertext-länkar. Genom att klicka på ett sådant ord aktiverar man SAOBs bibliografiska<br />
databas, vilken kan ge information om författare, källtitlar och tryckår. Figur 3 och 4 beskriver<br />
vad som händer om man klickar på författaren ”ROTHOF” i HTML-texten i artikeln<br />
”abborre” i figur 2 ovan. Först får man se en lista med de författare som har<br />
efternamnet ”ROTHOF” med efterföljande initialer och antal verk det finns exempel ifrån,<br />
se figur 3.<br />
Figur 3: Lista med författare och antal verk.<br />
<strong>Om</strong> man klickar på författarens namn visas ytterligare information om de verk som författaren<br />
har skrivit. Se figur 4.<br />
Figur 4: Exempel på en författare och ett verk.
49<br />
Sökningen på artiklar innehåller också en möjlighet att söka på delsträngar av ett uppslagsord<br />
eller en sammansättning om man är osäker på stavning. För att ta reda på alla<br />
sammansättningar som finns för ett uppslagsord som ”abborre” söker man på ”abborr.*”<br />
som början av en sträng. Resultatet blir då en lista av alla sammansättningar och eventuella<br />
avledningar eller andra ord som börjar på abborre. Se figur 5.<br />
Figur 5: Sammansättningar som börjar på ”abborre”.<br />
Denna typ av sökning görs för att användaren snabbt kan hitta det aktuella uppslagsordet<br />
eller den sammansättning han letar efter utan att behöva bekymra sig över den exakta<br />
stavningen.<br />
Implementering<br />
Implementeringen av sökningsrutinen på artiklar i SAOB gjordes under en tremånadersperiod.<br />
Det innebar bl.a. undersökning av möjligheterna att hantera svenskt textmaterial<br />
i programmeringsplattformen under operativsystemet Unix. Programmeringsomgivningen<br />
bestod av programmeringsspråket Perl och gränssnittet Common Gateway Interface<br />
(CGI) för WWW med olika sökverktyg.<br />
Utformning och problem<br />
Hanteringsordningen av information gick från det sökverktyg som en användare hade<br />
valt, t.ex. Netscape, Mosaic eller Lynx, genom informationsgränssnittet CGI vidare till<br />
Perl i Unix. Genom att användarmiljöerna kunde variera från PC till Macintosh och Unix<br />
uppstod vissa problem med materialhanteringen.<br />
Ett av de problem som uppstod var hanteringen av svenska tecken, eftersom den omfattande<br />
hanteringen av ord och söksträngar i sökverktyg som Netscape inte alltid fungerade<br />
normalt. Det hände vid vissa sökningar att detta sökverktyg försökte konvertera<br />
tecken och därmed göra ord omöjliga att tolka. Det kunde dock lösas med ersättningar i<br />
programhanteringen av materialet från HTML-representationen så att svenska tecken<br />
inte syntes annat än i gränssnittet till användaren.<br />
Tecken för att representera fonologisk information och andra specialtecken som finns i<br />
SAOB men inte är möjligt att representera i HTML har också ställt till problem. Detta har<br />
tills vidare fått lösas genom att vissa tecken ersätts med bilder av tecknen.
50<br />
Ett annat problem man måste ta hänsyn till i implementeringen av tillämpningar på<br />
WWW är tiden för informationshantering och näthastighet. För att användaren av dessa<br />
tillämpningar inte ska förlora intresset på grund av att tillämpningen fungerar för långsamt<br />
är hastigheten mycket viktig. Snabbhet beror naturligtvis på det avstånd en användare<br />
befinner sig från den server tillämpningen ligger på. Men det beror också på<br />
hanteringshastigheten i programmet som ligger bakom WWW-tillämpningen. Hanteringshastigheten<br />
i programmet är inget problem i fallet med sökrutiner för SAOB-artiklar<br />
på WWW. Perl är ett utmärkt programmeringsspråk för att bearbeta och ersätta strängar<br />
i Unix. Det är möjligt att hantera mycket stora textmängder, vilket är fallet med SAOB,<br />
och ändå få snabba sökningsresultat.
51<br />
Rudolf Rydstedt<br />
SAOB:s täckning<br />
Den som använder en <strong>ordbok</strong> för att slå upp vad okända ord betyder får emellanåt mycket<br />
handfasta problem med brister i <strong>ordbok</strong>ens täckning: det sökta ordet står inte att finna.<br />
Men allt behöver inte vara frid och fröjd bara för att man råkar hitta ett stickord och ett<br />
betydelsemoment som passar. Det kan ju vara en olycklig slump som gör att den riktiga<br />
betydelsen är missad samtidigt som en felaktig verkar stämma in. För praktiskt bruk kan<br />
man dock räkna med att falska <strong>svar</strong> är ganska sällsynta: finns det ett betydelsemoment<br />
som passar så är det nog rimligt att det är det korrekta. Svårigheterna dyker upp när man<br />
vill använda <strong>ordbok</strong>en som en modell av ordförrådet och dess förändringar. Då blir plötsligt<br />
variationer i grad av täckning kritiska. Denna artikel försöker ge en översiktlig bild<br />
av några typer av felkällor som man måste räkna med.<br />
Den kronologiska täckningen<br />
SAOB har som uppgift att ge en rimligt heltäckande bild av det svenska riksspråket från<br />
reformationen och framåt. Gränsen bakåt operationaliseras till 1520. En konsekvens av<br />
det är att förstånd får 1525 som år för första belägg, medan ordet etymologiskt beskrivs<br />
”fsv. forstand, liksom d. forstand av mnt. …”. Den skarpa gränsen bakåt motiveras med<br />
att den ger ett rent snitt mot redovisningen av medeltidsspråket i Söderwalls Ordbok öfver<br />
<strong>Svenska</strong> Medeltids-språket och Schlyters Ordbok till Samlingen af Sveriges Gamla Lagar.<br />
Det arbete, hvars början här framlägges, är afsedt att dels gifva en trogen bild<br />
af det nu lefvande svenska riksspråket, dels äfven uppvisa, huru vårt språk<br />
utvecklats allt ifrån reformationstiden. Ordbokens uppgift är alltså att lämna<br />
en historisk framställning af det nysvenska riksspråket i vidsträckt mening,<br />
och den tager således vid, där de utgifna eller under utgifning varande ordböckerna<br />
öfver vårt medeltidsspråk sluta. (SAOB bd 1:1)<br />
Gränsen framåt har förskjutits gradvis under arbetets gång. Hållpunkter är att bokstaven<br />
A saknar stickord med första belägg senare än 1902, G efter 1939 och R efter 1960. Efter<br />
D kan man räkna med att artiklarna följer ungefär i den ordning som de är skrivna, i början<br />
arbetade man mindre strikt alfabetiskt. Det senare leder till att B har ord med förstabelägg<br />
så sent som 1922 medan C saknar förstabelägg efter 1905. Sett med dagens ögon<br />
innebär dessa siffror att SAOB har ett kronologiskt hål på närmare 1/5 – 1/6 av den tid<br />
som verket skall täcka i början av alfabetet. Det senast publicerade häftet slutar efter stå.<br />
I SAOL och Svensk <strong>ordbok</strong> återfinns det ordet 1/5 från slutet. Det är allstå en betydande<br />
del av det ordförråd som SAOB strävar efter att täcka som inte kommer med därför att det<br />
är för ungt eller kommer för sent i alfabetet (t.ex. knivens ägg – som alltså inte stavades<br />
egg enligt SAOB:s norm när E publicerades).<br />
En förrädisk faktor är att ord med samma egenskaper har en tendens att klumpa ihop<br />
sig vid en alfabetisk sortering. Ett exempel med etymologisk anknytning är att prefixen<br />
be- och för- ger en tysk prägel åt respektive bokstav. Denna heterogenitet gör att interna<br />
variationer i täckningsgrad – t.ex. den nyss nämnda kronologiska – kan få svåröverskådliga<br />
effekter på resultaten vid undersökningar. Det är t.ex. uppenbart att engelskans och<br />
tyskans relativa betydelse som långivande språk har förskjutits till engelskans fördel under<br />
1900-talet. Det intrycket ges också av SAOB, men är det en risk att SAOB ger en felaktig<br />
bild av styrkan i förändringen beroende på att lån från tyska och engelska hamnar<br />
lite olika i en alfabetisk sortering
52<br />
Urvalskriterier<br />
Diskussionen om SAOB präglas ofta av en besvärande svävning i fråga om vad man förväntar<br />
sig att <strong>ordbok</strong>en skall täcka. En viktig fråga är om man vill att den skall spegla texterna<br />
(= la parole) eller språket (= la langue). NFO-serien är en utpräglat textinriktad och<br />
behandlar därför allt som finns i de undersökta texterna och inget annat, Svensk <strong>ordbok</strong><br />
drar ganska tydligt åt det andra hållet.<br />
SAOB kan uppfattas både som språk- och som textbeskrivande, man skulle kunna säga<br />
att <strong>ordbok</strong>en skall beskriva det svenska riksspråket på texternas grund. Det är den givna<br />
utgångspunkten för en större historisk <strong>ordbok</strong>, men den leder obevekligen till två principiella<br />
problem: (1) Även om all bevarad text excerperades perfekt skulle man inte kunna<br />
utgå från att alla rikssvenska ord (ens i rikssvenskt skriftspråk) har kommit med. (2) Att<br />
ett ord står i en uppenbart rikssvensk text gör inte att det är ett rikssvenskt ord. Texterna<br />
innehåller alltså både för mycket och för lite. Trots rykten om motsatsen har SAOB heller<br />
aldrig haft som ambition att redovisa precis alla ord som förekommer i svensk text. Detta<br />
görs klart redan i företalet till bd 1 (s. 2). De principer som ges där stämmer i stort sett<br />
med dem som formuleras av redaktören Sture Hast i början av 80-talet (Hast 1985:187–<br />
190). Han anger att följande grupper behandlas restriktivt:<br />
1. Namn utan användning som appellativer medtas inte.<br />
2. Dialektord medtas i princip inte, vilket inte hindrar att många dialektord kommer med ändå.<br />
3. Lånord behandlas med viss återhållsamhet. Den äldre principen var att ta med skandinaviska<br />
och tyska lånord om de lyckats etablera sig någorlunda i svenskan, men från övriga<br />
språk bara om de fortfarande är levande för de allmänbildade. Det är dock tveksamt om<br />
regeln någonsin efterlevts. Den moderna principen är att ta med alla lånord som har kommit<br />
i någorlunda fast bruk och fått svensk böjning – utan genetiska överväganden. Vidare tas<br />
lånord med om de betecknar en vanlig företeelse som inte har någon annan benämning.<br />
4. Citatord eller citatuttryck medtas sällan, men generositeten har ökat kraftigt genom åren.<br />
5. Fackspråkliga ord tas med om de fått viss spridning i allmänspråket.<br />
6. SAOB är betydligt generösare vid behandlingen av sammansättningar än jämförbara ordböcker,<br />
trots det stryks mellan en tredjedel och hälften av de belagda sammansatta orden.<br />
7. Personliga ord eller ordanvändningar tas i allmänhet inte med. Grundprincipen är att ett ord<br />
eller en ordanvändning eller fras tas med först om den har blivit mera känd och flerfaldigt<br />
citerad i redaktionens belägg.<br />
8. Fula ord (med undantag för svordomar) och slang medtogs tidigare inte. Från ungefär 1930<br />
behandlas fula ord utförligt. Slang behandlas dock fortfarande restriktivt.<br />
9. Ord som betecknar efemära företeelser tas inte med. Exempel är modeföreteelser i kläder<br />
eller danser som försvunnit inom ett par år.<br />
Ett given fråga rör hur pass konsekvent redaktionens principer verkligen har upprätthållits,<br />
men den förbigås här av praktiska skäl – det skulle krävas omfattande och systematiska<br />
omexcerperingar för att klarlägga den saken. Det är problematiskt nog att redan<br />
själva principerna har genomgått vissa förskjutningar, jfr punkt 3 och 4 ovan. En annan<br />
aspekt är om principerna som sådana kan förrycka bilden av t.ex. de etymologiska relationerna<br />
i språket vid olika tider.<br />
Med SAOB:s uttalade princip att beskriva det svenska riksspråket är det inte anmärkningsvärt<br />
att utesluta språkligt material som inte hör till den språkformen. Svårigheten<br />
ligger i att göra avgränsningen. Hur delikat uppgiften är beror till stor del på vad gränsdragningen<br />
skall användas till. Den är ganska liten vid produktionen av en <strong>ordbok</strong> avsedd<br />
att användas på ordinärt sätt: då kan man lova att ha med all riktig svenska – och så lite<br />
till för säkerhets skull. Normalt torde det vara denna attityd som genomsyrar arbetet på<br />
ordböcker. Det är värre när målet är att nå exakt täckning (få med precis allt) eller konsekvent<br />
täckningsgrad (missa konsekvent lika mycket ur samtliga relevanta aspekter).
53<br />
Det är något som är eftersträvandsvärt i t.ex. undersökningar av andelen främmande<br />
språkmaterial i svensk text. På mot<strong>svar</strong>ande sätt kan variationer i generositet mot främmande<br />
material i SAOB påverka den bild <strong>ordbok</strong>en ger av proportionerna mellan ord med<br />
olika ursprung. Det som gör det hela extra problematiskt är att variationen i integreringsgrad<br />
är i det närmaste steglös. Det kan illustreras med ett citat ur ett brev skrivet av<br />
Bengt Oxenstierna år 1682:<br />
Detta allt sker pour se venger de l’Angleterre, och det med rätta efter det genom<br />
sin blâmable conduite causerar Nederlands undergång och Christenhetens olägenhet<br />
och trouble. Utan dissimulation Des trogne och ergifne tjänare. / B. O.<br />
(citerat efter Engwall 1994:53).<br />
Allt kursiverat i citatet har franskt ursprung. Vissa ord har helt bevarad fransk form. Det<br />
kan göra att de känns ointegrerade för en modern läsare – och förmodligen även för Oxenstiernas.<br />
Men hur är det med dissimulation Många uppfattar det nog som minst lika<br />
svenskt som det böjningsmässigt direkt ofranska causerar. SAOB väljer att ta med dissimulation,<br />
som verbalabstrakt till dissimulera. Ordets allmänspråkliga betydelse, den som<br />
finns i citatet ovan, betecknas som numera knappast bruklig (finns även en medicinsk<br />
fackbetydelse). SAOB:s bruklighetsangivelse motsägs inte av Språkbankens material – ordet<br />
förekommer över huvud taget inte i dess baskorpus om 30.000.000 löpord. Men i äldre<br />
tid förekom ordet hos flera författare i den för en franskkunnig genomskinliga betydelsen,<br />
men var det prov på svenska<br />
En möjlighet att åtminstone tillfälligt kringgå svårigheterna med att särskilja de ord<br />
som är integrerade i det abstrakta språksystemet är att utgå från ett kvantitativt kriterium<br />
för vad som är en del av riksspråket. Med den infallssvinkeln blir ord som förekommer<br />
ofta, i många sammanhang och uthålligt mera centrala. Det är den typen av kriterier som<br />
man anar bakom att SAOB är restriktivt vid behandlingen av personliga ord, ord i fackoch<br />
gruppspråk samt efemära ord. Men inte heller kriterier av denna typ undanröjer<br />
gränsdragningsproblemen. Ett skäl till det är att kategorierna i sig är svårbestämda. Poängen<br />
med att tala om gruppspråksord är att dessa ord inte har full hemortsrätt i allmänspråket<br />
– om de hade det skulle de inte vara gruppspråksord. De kan därför uteslutas för<br />
att de är perifera. Men gruppspråksbeteckningar (liksom stil- och bruklighetsbeteckningar<br />
i allmänhet) säger inte nödvändigtvis var ordet förekommer mest frekvent utan kanske<br />
bara var det omtalade fenomenet förväntas höra hemma. Det vore t.ex. en fullt hedervärd<br />
arbetsuppgift för en stilistiker att undersöka i vad mån ord som uppfattas som knutna till<br />
en viss genre eller stil verkligen är mest frekventa i den.<br />
Hur man än gör är det svårt att ge tydliga och lätthanterliga kriterier för vilka ord som<br />
bör komma med i SAOB – och mera generellt i listor över ord i språk vid en viss tid. Detta<br />
gäller även om man bortser från de problem som ligger i att avgränsa vad som rent faktiskt<br />
är ett ord: hur lexikaliserade sammansättningar måste vara för att räknas som fullvärdiga<br />
lexikonenheter; hur mycket betydelsenyanser måste skiljas åt för att det skall<br />
röra sig om två betydelser; om t-avledda adverb och verbalabstrakter är egna ord eller närmast<br />
ett slags finare böjningsformer. Problemen blir inte mindre när målet är att beskriva<br />
språkstadier för vilka vi inte har tillgång till informanter. Vi kan lätt se att skribenter på<br />
1600-talet använde dissimulation i sina texter, men hur vet vi om de uppfattade ordet som<br />
svenskt<br />
Svårigheterna gör att det kan vara lockande att arbeta rent frekvensmässigt, t.ex. genom<br />
att utgå från en baskorpus och ta med alla ord som är belagda med viss frekvens i<br />
visst antal texter från vissa genrer vid vissa tidpunkter. Några fördelar och nackdelar med<br />
ett sådant angreppssätt diskuteras nedan i samband med excerperingen beroende på att<br />
renodlat frekvensorienterat angreppssätt står och faller med hur excerperingen går till.
54<br />
Excerperingen<br />
SAOB:s fundament är samlingen med språkprov. En uppenbar störfaktor när det gäller<br />
den interna balansen i <strong>ordbok</strong>en är att den tidigare utgivna delen av <strong>ordbok</strong>en bygger på<br />
ett betydligt mindre material än de senare. Några hållpunkter för tillväxten är:<br />
Tabell 3: Ungefärligt<br />
antal excerpter i<br />
SAOB:s samlingar a<br />
år<br />
antal<br />
1883 700.000+<br />
1897 1.500.000+<br />
1913 3.000.000<br />
1937 4.800.000<br />
1980 7.000.000+<br />
a.Siffrorna baseras på<br />
uppskattningar refererade<br />
i Hast 1985:171 ff.<br />
Siffrorna över tillväxten ger en allmän uppfattning om skillnaden i materialets storlek,<br />
men det har också en påtaglig heterogenitet. Under perioden 1910–1959 excerperades enbart,<br />
eller nästan enbart, den ännu outgivna delen av alfabetet. En annan störning som<br />
påverkar redan <strong>ordbok</strong>ens första upplaga är att tillväxten väsentligen består i att ständigt<br />
fler verk excerperas, vilket i praktiken får betydelse för den genremässiga balansen (Hast<br />
1993:173–175). Det säger sig t.ex. närmast självt att ordböcker därigenom får en större del<br />
av bevisbördan i början av SAOB än senare. Problemets vidd antyds av tabell 4.<br />
Tabell 4: Antal hänvisningar till några författare a<br />
författare A B M S<br />
Dalin 1111 915 277 210<br />
Serenius 175 116 72 60<br />
Richardson 0 10 5 6<br />
Almqvist 385 572 103 81<br />
Strindberg 16 52 103 103<br />
a.Siffrorna anger antal förekomster av respektive författarnamn de 1000 första<br />
spalterna på respektive bokstav.<br />
Skälet till att ta med de första 1.000 spalterna på både A och B är att den relativa tillväxten<br />
hos excerptsamlingen är extra hög i inledningsskedet. Författarnamnen är valda dels<br />
för att peka ut rätt personer med tillräcklig precision, dels för att ge olika typer av källor.<br />
Bakom Dalin och Serenius döljer sig lexikografer, Dalin från 1800-talet och Serenius från<br />
1700-talet. Richardson skriver om krigsvetenskap på 1700-talet – det är alltså inte den<br />
Richardson som skrev sedelärande romaner. Almqvist och Strindberg är (väsentligen) de<br />
kända skönlitterära författarna. 1
55<br />
Lexikograferna har som förväntat kraftigt fallande frekvens, men det mest anmärkningsvärda<br />
är kanske utgångspunkten: på A har Dalin i medel ett belägg per spalt! Almqvist<br />
kommer upp i halva den frekvensen under B, innan det bär utför. Strindberg<br />
kommer upp i ett belägg per 10 spalter, de låga siffrorna i början kan till stor del förklaras<br />
med att han är en samtida författare i början av alfabetet. Siffrorna för Richardson illustrerar<br />
att facklitteratur är underrepresenterad i korpusen under inledningsskedet. Det intressanta<br />
med siffrorna är att lexikon, facklitteratur och skönlitteratur inte självklart kan<br />
förutsättas ha ordförråd med samma etymologiska struktur. Tvåspråkiga lexikon och lexikon<br />
med utländsk förlaga kan t.ex. misstänkas innehålla ekvivalenter till ord i referensspråket<br />
som aldrig sprids utanför <strong>ordbok</strong>ens eller ordböckernas värld. Aspekter på den<br />
problematiken studeras av Lena Rogström i hennes avhandlingsarbete om lexikografi på<br />
1700-talet, speciellt Serenius ordböcker.<br />
Men det är inte bara den excerperade korpusens sammansättning som är problematisk<br />
utan även excerperingsmetoden. Sture Allén öppnade en debatt i frågan med en artikel i<br />
Nysvenska studier där han frågade: ”Hur djupt går SAOB” (Allén 1980). I korthet var Alléns<br />
slutsats att SAOB inte går djupt nog och att en väsentlig orsak är brist på systematik<br />
i excerperingen. Detta illustrerades i första hand med exempel från Johan Ekeblads brev.<br />
Allén hade inga svårigheter att finna t.ex. ord som SAOB missat helt (s. 122).<br />
Riktlinjer för SAOB:s excerpister finns kodifierade i Anvisningar till insamlande av<br />
språkprov för <strong>Svenska</strong> akademiens <strong>ordbok</strong>sarbete (Anvisningar §§ 33 – 57). Dessa säger i<br />
korthet att vissa speciellt centrala verk skall underkastas en uttömmande excerpering<br />
medan excerpisten i övriga skall inrikta sig på sådant som är speciellt anmärkningsvärt,<br />
t.ex. för tiden ovanligt bruk av en viss betydelse. Problemet är att den typen av instruktioner<br />
förutsätter en närmast allvetande excerpist. Hur vet excerpisten vilka ord som har en<br />
för tiden ovanlig betydelse Han eller hon kan normalt inte ens stödja sin intuition genom<br />
att slå upp i SAOB. Redan att få grepp om instruktionen skall ha varit ett företag i sig:<br />
Anvisningarna var, som antytts, synnerligen utförliga. Få excerpister torde ha<br />
orkat med att sätta sig in i dem och konsekvent nyttja dem. Vana äldre excerpister<br />
kritiserade dem skarpt. … Efter 1924 … torde anvisningarna inte ha<br />
använts längre, utan instruktioner har givits i muntlig form eller medelst personliga<br />
brev o.d. (Hast 1985:165)<br />
En möjlig väg för att garantera bättre styrsel i arbetet är att ge excerpisten bättre överblick.<br />
Den normala SAOB-excerperingen bygger på en extensiv genomläsning av källorna<br />
varvid excerpisten markerar i storleksordningen ett par till tre ord per sida, dock är variationen<br />
stor (Hast 1985:177). Allén framhäver i stället möjligheten till maskinstödd excerpering<br />
i konkordansformat, åtminstone för mera centrala verk:<br />
En tilltalande möjlighet vore att välja ut en serie centrala texter från det aktuella<br />
århundradena, särskilt de tidigare, för behandling. Resultatet kunde skrivas<br />
ut som belägg i kontext med källhänvisning. (Allén 1980:128)<br />
Alléns inlägg uppmärksammades av <strong>ordbok</strong>ens dåvarande chef Hans Jonsson i följande<br />
årgång av Nysvenska studier, denne visade emellertid begränsad entusiasm inför Alléns<br />
förslag (Jonsson 1983). Jonssons väsentliga argument mot är (1) att det skulle riskera att<br />
fördröja arbetet och (2) att det skulle leda till en risk att missa fenomen som är svåra att<br />
identifiera med enbart kriterier på formplanet. Diskussionen om SAOB:s material i Nysvenska<br />
studier fortsätter sedan med den drygt 30-sidig artikel av Sture Hast som refereras<br />
flitigt ovan. I denna summerar Hast den allmänna bilden med:<br />
Vi kan alltså se att SAOB står sig gott i fråga om materialets mängd [jämfört<br />
med andra liknande ordböcker]. Men det är främst materialets kvalité som är<br />
avgörande för om det är bra. Och i det fallet är vårt material av högsta klass.<br />
1.Flera av författarna är företrädda av annan text än deras huvudgenre, men inte i sådan<br />
omfattning eller på sådant sätt att det förrycker resultaten.
56<br />
Oxford<strong>ordbok</strong>ens gamla material t.ex. är till större delen insamlat av frivilliga,<br />
icke instruerade krafter, vilket gör att en stor del av det var undermåligt eller<br />
rentav oanvändbart. (Hast 1985:161)<br />
Hast har säkerligen helt rätt i att SAOB har en mycket god materialsamling jämfört med<br />
andra större ordböcker. Men frågan återstår om SAOB skulle ha stått sig ännu bättre med<br />
en excerpering som ansluter sig närmare till Alléns modell. En viktig faktor därvidlag är<br />
storleken på den korpus som skulle behövas för att den skulle göra nytta: om den skulle<br />
bli ohanterligt stor vore inte mycket vunnet. Det är något som i viss mån kan belysas av<br />
existerande frekvensundersökningar, t.ex. Nusvensk frekvens<strong>ordbok</strong> (Allén et al. 1970).<br />
Resultaten där visar att ordförrådet i faktisk text har en synnerligen ojämlik distribution,<br />
med en liten frekvenstopp vars ord utgör i storleksordningen någon procent vardera av det<br />
totala antalet löpord i en text. I en miljonordskopus måste man räkna med att stora delar<br />
av ordförrådet inte kommer med över huvud taget och att en betydande del av de representerade<br />
orden och ordformerna är enfrekventa. Det hjälper att öka korpusens storlek till<br />
20.000.000 ord och mer, men det är tankeväckande att Språkbankens drygt 30.000.000 ord<br />
från tidningar och romaner inte innehåller en enda ballethoppa men väl balettfetischer,<br />
balettoman och balettvapen.<br />
Den som vill dammsuga språket efter infrekventa fenomen måste kort sagt ha en mycket<br />
stor korpus. Skulle 30.000.000 ord per 50-årsperiod räcka Samtidigt kan man uppenbart<br />
nå intressanta resultat med mindre material. Så kan Gellerstam redovisa en studie<br />
baserad på en delmängd av NFO-materialet (med totalt 1.000.000) där huvuddragen i de<br />
etymologiska proportionerna i nusvenskt språk tecknas (Gellerstam 1994). Sådana studier<br />
kan förvisso inte ersätta SAOB, men de är ändå viktiga i sammanhanget. De ger en<br />
typ av oberoende stöd som är nödvändigt för att avgöra i vad mån SAOB är tillräckligt bra,<br />
inte bara vad som skulle leda till en förbättring.<br />
Litteratur<br />
Allén, S. 1980. Hur djupt går SAOB I: Nysvenska studier. Årg. 59–60. Lund.<br />
Allén, S. 1970. Nusvensk frekvens<strong>ordbok</strong> baserad på tidningstext. I. Graford,<br />
homografkomponenter. Stockholm.<br />
Anvisningar till insamlande av språkprov för <strong>Svenska</strong> akademiens <strong>ordbok</strong>sarbete. 1916. 4.<br />
uppl. Lund.<br />
Engwall, G. 1994. Svenskt och franskt. I: Arv och lån i svenskan : Sju uppsatser om<br />
ordförrådet i kulturströmmarnas perspektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />
Stockholm.<br />
Gellerstam, M. 1994. Ordförrådets härledning. Arv och lån i svenskan : Sju uppsatser om<br />
ordförrådet i kulturströmmarnas perspektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />
Stockholm.<br />
Hast, S. 1985. <strong>Om</strong> SAOB:s material. Nysvenska studier. Årg. 63. 1983. Lund.<br />
Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1904. Utarbetad av Ernst<br />
Kock.<br />
Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1993. Utarbetad av Hans<br />
Jonsson.<br />
Jonsson, H. 1983. Ekeblad och SAOB. Nysvenska studier. Årg. 61. 1981. Lund.<br />
Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. Lund.<br />
Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />
1893 –. Lund.<br />
Schlyter, C. J. 1877. Ordbok till Samlingen af Sveriges Gamla Lagar. (Samling af Sveriges<br />
gamla lagar. 13). Lund.
57<br />
Sigurd, B. 1986. Ordboken, ordlistan och några andra av <strong>Svenska</strong> <strong>Akademiens</strong> språkliga<br />
insatser under 1900-talet. I: Allén, Sture & Loman, Bengt & Sigurd, Bengt 1986.<br />
<strong>Svenska</strong> Akademien och svenska språket : Tre studier. Stockholm.<br />
Svensk <strong>ordbok</strong>. Utarbetad vid Språkdata. Göteborgs universitet. 2 uppl. Solna 1988.<br />
Söderwall, K. F. 1884–1918. Ordbok öfver <strong>Svenska</strong> Medeltids-språket. 1–2. Suppl. 1925–<br />
1973 (<strong>Svenska</strong> Fornskrifts–Sällskapets Samlingar) Lund.
59<br />
Lena Rogström<br />
OSA-databasen i praktiken<br />
OSA-databasen erbjuder en snabb möjlighet till excerpering av SAOB, både för enskilda<br />
belägg och undersökningar av mer systematisk art. Systematiska undersökningar, baserade<br />
på en excerpering av hela SAOB 1 , har tidigare varit mycket tidskrävande men kan<br />
nu genomföras på ytterst kort tid. Att leta rätt på de exempel som skall undersökas tar för<br />
datorn endast några sekunder. Sedan återstår naturligtvis själva analysarbetet, något<br />
man själv får göra.<br />
Detta öppnar självfallet nya möjligheter för lexikal forskning genom att man lättare<br />
kan lägga hela SAOB:s material till grund för pilotundersökningar, något som tidigare tett<br />
sig svårgenomförbart framför allt med tanke på tidsaspekten. OSA-materialet har således<br />
reducerat tidsåtgången för själva excerperingen vilket medför att man i stället kan ägna<br />
merparten av undersökningstiden åt den språkvetenskapliga analysen.<br />
En <strong>ordbok</strong> av SAOB:s storlek, kontinuerligt utgiven under mer än 100 år, kan av naturliga<br />
skäl inte vara helt konsekvent i utförande och redigering. Detta påtalas också i alla<br />
de artiklar som ingår i denna rapport, och även detta avsnitt skall behandla en del problem<br />
som man måste ta hänsyn till vid vissa typer av undersökningar där SAOB använts.<br />
De egenheter som diskuteras här emanerar emellertid inte från förändringar i SAOB:s redaktionella<br />
principer. I stället fokuseras en del av de problem som uppstår genom att metaspråket<br />
i SAOB ofta avviker från språkprovens ortografi och morfologi. Jag pekar också<br />
på några fall där SAOB:s redigeringsprinciper som sådana kan diskuteras.<br />
Redogörelsen bottnar i en undersökning av alla SAOB-belägg som härrör från Jacob Serenius<br />
engelsk–svenska och svensk–engelska ordböcker, utgivna 1734 respektive 1741.<br />
Undersökningen ingår i ett avhandlingsarbete som bl.a. omfattar en lexikalisk analys av<br />
ordförrådet i Serenius ordböcker. Som en del i detta används OSA-materialet i syfte att<br />
fastlägga hur stor del av ordböckerna som excerperats av SAOB som förstabelägg.<br />
Det bör inledningsvis nämnas att undersökningen som refereras här baseras på en äldre,<br />
inte helt fullständig, version av konkordansen över SAOB, men det är av underordnad<br />
betydelse i detta sammanhang. Det antal exempel som används förefaller ändå tillräckligt<br />
stort för att visa problemen.<br />
Undersökningen<br />
Alla belägg ur Serenius ordböcker slogs upp i konkordansen och skrevs sedan in i en separat<br />
datafil, konstruerad på så sätt att ett flertal olika sorteringar är möjliga. Beläggen sorterades<br />
till en början i två huvudfiler, en för varje <strong>ordbok</strong>, och materialet strukturerades<br />
med utgångspunkt i deras respektive placering i SAOB:s artikelstruktur enligt följande:<br />
formbelägg (morfologi, ortografi), betydelsebelägg (placerat som språkprov i betydelseträdet),<br />
ordbildningsbelägg (ssgr, avledn., särsk. förb.). I förekommande fall noterades också<br />
om de belägg som här kallats ordbildningsbelägg hörde hemma i någon betydelsestruktur<br />
i respektive ordbildningsdel. De flesta sammansättningar, avledningar och särskilda förbindelser<br />
har bara ett betydelsemoment i SAOB, varvid belägget har noterats som belägg<br />
på både form och innehåll samtidigt, vilket varit av värde för avhandlingens vidkommande.<br />
I de fall då belägget återfunnits i ett betydelsemoment under en sammansättning etc.<br />
har det räknats som betydelsebelägg.<br />
1.Med ”hela” SAOB menas självfallet den hittills tryckta delen av <strong>ordbok</strong>en.
60<br />
Jag har också noterat de fall då Serenius-belägget varit ett s.k. förstabelägg i SAOB.<br />
Vidare har materialet också hanterats på sådant sätt att det kunnat sorteras efter beläggets<br />
status som källspråksenhet respektive målspråksenhet i ordböckerna.<br />
De belägg ur Serenius ordböcker som återfanns i OSA-materialet visade sig vara fördelade<br />
på följande sätt:<br />
Tabell 5: Belägg ur Serenius ordböcker<br />
1734 (eng>sv) 1741 (sv>eng)<br />
Totalt antal belägg 2 427 1 020<br />
Betydelsemoment 1 111 728<br />
Ssgr 1 043 180<br />
Avledn 189 41<br />
Särsk. förb 84 71<br />
Totalt antal förstabelägg 1 592 408<br />
Betydelsemoment 562 243<br />
Ssgr 826 96<br />
Avledn 157 32<br />
Särsk. förb 47 37<br />
Redan en uppställning av detta slag ger en grov uppfattning om det undersökta materialet.<br />
Som väntat kommer flest belägg från den engelsk-svenska <strong>ordbok</strong>en, troligen för att<br />
denna är äldst och därför excerperats först. Av den anledningen har man inte tagit med<br />
samma exempel en gång till när man excerperat den svensk-engelska, något yngre, <strong>ordbok</strong>en.<br />
Denna är nämligen en vändning av den engelsk-svenska och består därför huvudsakligen<br />
av ett urval av innehållet i den engelsk-svenska <strong>ordbok</strong>en. Det är därför inte<br />
förvånande att den både yngre och mindre svensk-engelska <strong>ordbok</strong>en inte bidragit med en<br />
lika stor andel belägg som den äldre, engelsk-svenska. Lustigt nog bidrar den svensk-engelska<br />
<strong>ordbok</strong>en med en större procentandel särskilda förbindelser i förhållande till de övriga<br />
beläggen, jämfört med vad den engelsk-svenska <strong>ordbok</strong>en gör. Det absoluta antalet<br />
belägg är dock litet för denna kategori.<br />
En enkel uppställning av denna typ tillhandahåller framför allt information om vilka<br />
kategorier i Serenius ordböcker som är värda att undersöka närmare. Förstabeläggen är<br />
då av särskilt intresse och man kan bl.a. notera att dessa i 1734 års <strong>ordbok</strong> till mer än hälften<br />
består av sammansättningar medan 1741 års <strong>ordbok</strong> i stället har hälften av sina förstabelägg<br />
i betydelsedelen av SAOB. (En mer utförlig studie av dessa kategorier utförs i<br />
avhandlingsform).<br />
Uppställningen är enkel, men kan ge värdefull information om vilka kategorier som är<br />
värda att arbeta vidare med i respektive <strong>ordbok</strong>.<br />
Problem<br />
När man använder OSA-materialet för att komma åt innehållet i en viss källa i <strong>ordbok</strong>en<br />
räcker det dessvärre inte med att bara ta fram alla de beläggställen där källan förekommer,<br />
man måste gå vidare till själva källan för att kunna beskriva den utförligt I arbetet<br />
med Serenius-beläggen uppenbarades ett flertal tidsödande irritationsmoment och problem<br />
som till stora delar gick att hänföra till SAOB:s redigeringsprinciper. Några av problemen<br />
går inte att komma runt eftersom de bottnar i en konflikt mellan språkförändring<br />
och ordböckers behov av konsekvens. En <strong>ordbok</strong> måste med nödvändighet ha enhetliga<br />
principer för ortografi, morfologi etc. och redigeringsprinciperna bör självfallet bottna i<br />
den språknorm som används när <strong>ordbok</strong>en redigeras. Att detta innebär problem för nor-
61<br />
maliseringen i OSA-databasen har omtalats i ett tidigare avsnitt. Det problemet är dock<br />
av övergående art, fram till kommande ortografiska reformer.<br />
Värre är det med det faktum att uppslagsformen i SAOB representerar ett flertal former<br />
som ett och samma ord kan ha haft under den tid det existerat i skrift. Emellanåt är<br />
man också benägen att tro att somliga av SAOB:s uppslagsformer representerar former<br />
som ordet inte haft under nämnda tid, något som exemplifieras nedan.<br />
De problem som behandlas kan delas upp i två huvudgrupper. Den ena omfattar de problem<br />
som naturligt uppstår då man i en <strong>ordbok</strong> med nutida ortografi och morfologi skall<br />
beskriva ett äldre språks ordförråd, d.v.s. allmängiltiga problem för alla redaktörer av historiska<br />
ordböcker. Problemen som tas upp här belyses ur ett användarperspektiv och utgörs<br />
huvudsakligen av skillnader i ortografiska, morfologiska och ordbildningsmässiga<br />
principer. I grund och botten berör denna fråga konflikten mellan den innehållsliga och<br />
formella sidan av ett ord i historiskt perspektiv. Båda kategorierna utvecklas under tidens<br />
gång varför det till slut kan vara svårt att avgöra huruvida man har att göra med ett och<br />
samma ord och hur detta skall behandlas lexikografiskt.<br />
Den andra huvudgruppen berör snarast de lexikografiska principer SAOB-redaktionen<br />
använt sig av genom tiderna och vilka konsekvenser dessa kan tänkas ha för den faktiska<br />
beskrivningen av vårt ordförråds historia och utveckling.<br />
Allmängiltiga problem<br />
Som tidigare nämnts iakttas den samtida språkformen vid utformningen av stickord, definitioner,<br />
redaktionella språkprov etc. i SAOB. Normen har ändrats ett flertal gånger under<br />
den tid som <strong>ordbok</strong>en redigerats, men de varianter som använts kan förhållandevis<br />
enkelt undersökas och normaliseras till en enhetlig form.<br />
Att stickorden i SAOB har modern form är självfallet helt naturligt. Tyvärr medför det<br />
en del problem i de fall då man är intresserad av en speciell författares bidrag till SAOB,<br />
eftersom alla belägg från den speciella källan måste sökas i en normaliserad form; en form<br />
som kanske inte existerar i den källa man är intresserad av.<br />
Ett naturligt tillvägagångssätt är då att använda källhänvisningen, t.ex. författarnamnet,<br />
som sökvariabel, ta ut alla belägg i konkordansform och sedan gå vidare till databasen<br />
för att få hela kontexten till språkprovet och se vilken artikel det står i. På det viset får<br />
man upp hela det aktuella språkprovet inklusive källhänvisning och kan notera de uppgifter<br />
som intresserar en. Arbetsmetoden är mödosam såtillvida att man får tillbringa<br />
mycket tid framför en dataskärm, men är betydligt mer effektiv än att leta i den tryckta<br />
utgåvan, spalt för spalt.<br />
I sökningen efter Serenius-belägg användes namnet som sökvariabel och från varje<br />
konkordansrad gick jag vidare till den aktuella kontexten för att därigenom få det fullständiga<br />
språkprovet. Genom detta förfarande fick jag fram aktuell SAOB-artikel med<br />
stickordet i normaliserad form. För att komma åt den ordform som fanns i själva källmaterialet,<br />
Serenius ordböcker, var jag dock tvungen att i flera fall konsultera själva källan.<br />
Orsaken till detta är att SAOB i många fall inte skriver ut hela språkprovet utan bara<br />
anger källhänvisningen. En jämförelse mellan källmaterialet och SAOB visar tydligt på<br />
de skillnader som kan finnas mellan de olika materialen. Vid undersökningen framkom<br />
bl.a. följande skillnader mellan Serenius stavning och SAOB:s normaliserade form.
62<br />
Serenius<br />
servieter<br />
gouverneurska<br />
amalie-färg<br />
klöster<br />
diopterlineal<br />
campecheträ<br />
maill-spel<br />
cotelletter<br />
SAOB<br />
servetter<br />
guvernörska<br />
emaljfärg<br />
kloster<br />
diopterlinjal<br />
kampeschträ<br />
maljspel<br />
kotletter<br />
Förutom klöster som är en äldre svensk form av kloster uppvisar ortografin drag av ordens<br />
utländska, i många fall franska, ursprung. Serenius ordböcker utkom under första hälften<br />
av 1700-talet, en period då franskt inflytande dominerade. Stavningen är därför inte förvånande<br />
i sig, men kan vara intressant att undersöka i förhållande till det förmodade engelska<br />
inflytandet på <strong>ordbok</strong>en. (I fallet amalie-färg kan man dessutom undra om<br />
ortografin också återspeglar ett annorlunda uttal.)<br />
<strong>Om</strong> man fäster vikt inte bara vid beläggens förekomst i SAOB överhuvud taget utan<br />
också vid deras form, är det nödvändigt att gå tillbaka till själva källmaterialet för att få<br />
beläggens ursprungliga ortografi.<br />
Samma resonemang ligger också till grund för andra språkliga fenomen som kan vara<br />
intressanta att undersöka. Nedan visas två exempel på fogemorfem som skiljer sig mellan<br />
Serenius och SAOB. I fallet ihopafattad skiljer sig även det första morfemets form åt mellan<br />
de båda ordböckerna, vilket aktualiserar frågan vad som räknas som ett och samma<br />
ord och vilka redigeringsprinciper SAOB har i dessa fall.<br />
Serenius<br />
apothecare-book<br />
ihopafattad<br />
SAOB<br />
apotekarbok<br />
hopfatta<br />
Problem relaterade till SAOB:s redigeringsprinciper<br />
I den undersökning som refereras och från vilken exemplen är hämtade fokuserades särskilt<br />
sammansättningsbeläggen från Serenius <strong>ordbok</strong> från 1734. I arbetet med dessa aktualiserades<br />
ytterligare problem som snarast hör ihop med hur SAOB redigeras.<br />
<strong>Svenska</strong>ns sätt att bilda sammansättningar kan sägas vara tämligen enastående.Vad<br />
som utmärker en sammansättnings formella sida är att ordleden är hopskrivna, vanligen<br />
utan bindestreck. Bindestreck kan dock användas i vissa fall, särskilt om sammansättningen<br />
räknas som tillfällig. En sammansättning skall också ha s.k. sammansättningsaccent,<br />
ett kriterium som dock inte går att använda här eftersom SAOB, av naturliga skäl,<br />
inte omfattar talat material. Man kan m.a.o. inte veta hur de excerperade orden uttalats<br />
mer än i undantagsfall, då man av en eller annan anledning har mer explicita uppgifter<br />
om somliga ords uttal noterade i samtida litteratur.<br />
Genom tidernas gång har man haft olika praxis för sär- och sammanskrivning av sammansättningar.<br />
Den tendens man idag på många håll oroar sig över, att sammansättningar<br />
oftare skrivs isär, är inget nytt. Denna skiftande praxis tillsammans med det faktum<br />
att man inte vet hur orden uttalas medför ibland att man kan tveka inför somliga belägg<br />
som av SAOB klassificerats som en sammansättning.
63<br />
Följande exempel ur Serenius ordböcker har av SAOB angivits som sammansättningar<br />
trots att de formellt sett inte behöver betraktas som sådana.<br />
Serenius form SAOB:s form Engelsk mot<strong>svar</strong>ighet 1734<br />
Förstabelägg<br />
belätes dyrkan belätesdyrkan imageworship<br />
marknads rättighet marknadsrättighet (ingen engelsk ekvivalent) 1<br />
sinnes benägenhet sinnesbenägenhet affection<br />
sinnes likhet sinneslikhet congeniality or likeness of Genius<br />
sinnes styrka sinnesstyrka strenght of mind<br />
sinnes övning sinnesövning exercise<br />
Inte förstabelägg<br />
hufwud ord huvudord a leading word<br />
mellan liggande mellanliggande interjacent<br />
sinnes föreställning sinnesföreställning idea<br />
sinnes orolighet sinnesorolighet a disturbance of the mind<br />
Serenius har för vana att alltid använda bindestreck mellan ordleden i en sammansättning,<br />
vilket han inte gjort i ovanstående exempel. Möjligheten finns naturligtvis att devisen<br />
fallit bort i trycket just i dessa ord, men det finns också en möjlighet att de inte uttalats<br />
som en sammansättning utan snarare skall ses som en fras.<br />
I Serenius ordböcker finns två sätt att ange sammansättningar – antingen i själva artikeln<br />
eller i en särskild avdelning benämnd composita. I det första fallet brukar sammansättningen<br />
få en ordklassmarkering, men inte i det andra fallet. Då kan man å andra sidan<br />
använda rubriken composita som kriterium på att Serenius uppfattat orden som sammansättningar.<br />
Eftersom beläggen kommer ur en engelsk–svensk <strong>ordbok</strong> går ordklasskriteriet inte att<br />
tillämpa, eftersom alla ordklassmarkeringar hör till de engelska orden. Den svenska ekvivalenten<br />
kan ju vara en sammansättning även om det engelska ordet är ett simplex eller<br />
rentav en fras och vice versa.<br />
Det är således svårt att tillämpa formella kriterier på orden för att avgöra om de är<br />
sammansättningar eller inte. I många fall kan det vara så att devisen utelämnats eller fallit<br />
bort. Det förefaller dock märkligt att ett devisen skulle fattas just på så många belägg<br />
av en sammansättning med förleden ”sinnes-” ur 1734 års <strong>ordbok</strong>. (Bland exemplen ingår<br />
också ”sinnesförbehåll”. I SAOB anges källan till sidan Nn2a i Serenius 1734, men jag har<br />
inte lyckats hitta exemplet och kan således inte se om det också är särskrivet i 1734 års<br />
<strong>ordbok</strong>). Orden är i många fall också förstabelägg, vilket kan tyda på att de inte var helt<br />
etablerade som sammansättningar 1734. De finns heller inte med i 1741 års svensk–engelska<br />
<strong>ordbok</strong>, så man kan inte jämföra med stavningen där. Det finns dock ett annat exempel<br />
i 1741 års <strong>ordbok</strong>, frasen sinnes jemlikhet som återfinns i artikeln SINNE . Här är<br />
belägget uppenbarligen en fras eftersom den inte har någon ordklassmarkering eller står<br />
som composita. Förmodligen gör man klokt i att betrakta även de andra beläggen med<br />
”sinnes-” som fraser.<br />
1.Ordet ingår som del i förklaringen till den engelska sammansättningen ”market-town” = ”stad som<br />
har marknads rättighet”.
64<br />
Av ovanstående fall finns endast ett av beläggen med i 1741 års <strong>ordbok</strong>, nämligen<br />
hufwud-ord, då stavat med divis och placerat under avdelningen composita. Detta kan förmodligen<br />
tas som intäkt för att ett tryckfel förelegat i 1734 års <strong>ordbok</strong> och att ordet därmed<br />
kan betraktas som en riktig sammansättning.<br />
Genom att ange ovanstående belägg som sammansättningar har SAOB också gett en<br />
tidsangivelse för etablerandet av orden i fråga som sammansättningar. Man kan på goda<br />
grunder fråga sig om denna tidsgräns är korrekt, med tanke på vad som visat sig när man<br />
närmare kontrollerar beläggen mot källan. Kanske är det så att SAOB i detta fall satt en<br />
för tidig angivelse, och föregripit den eventuella utvecklingen av sammansättningen.<br />
Exemplen är inte många i detta fall, men sätter ändå fingret på en öm punkt när det<br />
gäller att skildra lexikalisering av vissa typer av begrepp.<br />
Ett mot<strong>svar</strong>ande resonemang ligger också till grund för nästa exempelkategori. I detta<br />
fall förutsätter SAOB att man utifrån en belagd verbform implicit kan belägga även andra<br />
verbformer. Även dessa exempel är tagna från Serenius ordböcker och behandlar s.k. partikelverb.<br />
Partikelverb behandlas i SAOB under rubriken “särskilda förbindelser”. Partikelverb<br />
består av ett verb och en s.k. partikel, vanligen ett adverb. Partikeln kan för vissa verb ha<br />
s.k. lös förbindelse och står då efter verbet, t.ex. följa upp. Vad som skiljer partikelverbet<br />
från den mot<strong>svar</strong>ande regelbundna konstruktionen är bl.a. att partikeln inte kan skiljas<br />
från sitt verb och att betoningen ligger på partikeln. Jämför exemplen Man skall följa upp<br />
projektet och Hon följde honom upp för trappan.<br />
Somliga partikelverb har både lös och s.k. fast förbindelse, d.v.s. de kan ha partikeln<br />
före själva verbet, ihopskrivet med detta: uppfölja. Vanligen innebär detta en stilskillnad<br />
såtillvida att lös förbindelse är mer talspråklig och fast förbindelse högtidligare och mer<br />
skriftspråklig. I vissa fall inträffar också betydelseskillnad (jfr komma ned och nedkomma).<br />
Ytterligare andra verb har bara fast förbindelse. Orsaken till att man ändå kallar dem<br />
partikelverb är främst att de har betoningen på partikeln (t.ex. inträffa).<br />
Kategorin partikelverb är således komplex och omfattar många regler. En av dessa är<br />
att partikelverb som vanligen inte har fast förbindelse i de olika tempusformerna ändå<br />
kan ha detta i perfektparticip, t.ex. verbet äta upp, som normalt inte konstrueras *uppäta.<br />
Det går dock bra att använda den fasta förbindelsen i formen Maten är uppäten, då verbet<br />
står i perfekt particip.<br />
I Serenius ordböcker förekommer ett antal participiella former som han placerat under<br />
respektive huvudverb och kallat adjektiv. SAOB har tagit dessa participiella former hos<br />
Serenius till intäkt för att de existerat även i andra former, och anger Serenius som belägg<br />
till följande partikelverb, angivna i grundform i SAOB. Man har också ändrat partikelns<br />
form, i några fall från ihop till hop, i andra fall tvärtom.<br />
Serenius form<br />
SAOB:s form<br />
hopläkt läka ihop; hopläka 1:a belägg<br />
hopwiken ihopvika 1:a belägg<br />
ihopafattad<br />
hopfatta<br />
ihoparäknad hopräkna 1:a belägg<br />
ihopaskrefven hopskriva 1:a belägg<br />
ihopsläpad hopsläpa 1:a belägg
65<br />
I förordet till Illustrerad Svensk Ordbok (1964, tredje upplagan) säger Bertil Molde att<br />
man sorterar partikelverben under respektive partikel i de fall då ”fast sammansättning<br />
är regel eller kan tänkas ”. Kanske har man tillämpat samma princip i SAOB. Enligt mitt<br />
förmenande bör man dock vara försiktig med detta tillvägagångssätt när det gäller en historisk<br />
<strong>ordbok</strong>. Det är väl känt att partikelverbens konstruktion ändrats genom tiderna och<br />
man kan inte ta för givet att en fast förbindelse i participiell form också alltid finns i<br />
grundform.<br />
I nedanstående tre exempel tas den av Serenius angivna formen till intäkt för att orden<br />
också existerat i andra former samtidigt, ett i och för sig rimligt antagande som dock tål<br />
att tänka på, särskilt i fallet järnwaror. Det är ingen orimlig hypotes att anta att ordet,<br />
som är ett förstabelägg, bildats i enlighet med det engelska ordet och först kommit att användas<br />
i plural. Singularformen förefaller än idag vara dåligt företrädd i faktiskt språkbruk,<br />
även om vi naturligtvis förstår vad ordet betyder. Det ligger i sakens natur att ordet<br />
oftare förekommer i plural.<br />
Serenius<br />
SAOB<br />
ingrafning ingräva 1:a belägg<br />
bond-dansar bonddans 1:a belägg (country-dances)<br />
järn-varor (iron-ware) järnvara 1:a belägg (iron-ware)<br />
Inkonsekvenser i SAOB:s källangivelser<br />
Serenius ordböcker är alla excerperade för SAOB. Källhänvisningarna skiljer sig dock<br />
mellan de olika banden vilket kan vara irriterande när man måste gå tillbaka till källorna<br />
för att slå upp exemplen.<br />
När SAOB citerar den engelsk–svenska <strong>ordbok</strong>en från 1734 brukar man i många fall<br />
ange den engelska källspråksenheten, vilket underlättar sökandet efter den artikel i Serenius<br />
<strong>ordbok</strong> från vilken språkprovet excerperats. Till exemplet sifferskrift anges det engelska<br />
ordet nullity, och hela belägget finns i artikeln NULL som därmed är lätt att hitta.<br />
I följande exempel utgörs SAOB:s språkprov av en svensk sammansättning, tagen ur<br />
Serenius engelsk–svenska <strong>ordbok</strong> från 1734 med angivande av det engelska stickordet i<br />
versaler. Sammansättningen är dock inte ekvivalent till detta stickord utan till en annan<br />
sammansättning i samma artikel. Angivandet av i vilken artikel man hittar belägget underlättar<br />
dock betydligt för läsaren.<br />
Sammansättning i SAOB Engelsk ssgr Engelskt stickord<br />
ciderkrog cider-house HOUSE<br />
grönmångelska herb-woman HERB<br />
gröntorg herb-market HERB<br />
disktvätterska scullion-wench SCULLERY<br />
hörnbord side-board-table SIDE<br />
Emellanåt ger SAOB bara sidhänvisningen till Serenius <strong>ordbok</strong> och ingen engelsk mot<strong>svar</strong>ighet,<br />
t.ex. sjette som har hänvisningen Eee2a. I just detta exempel är det ändå enkelt att<br />
tänka sig i vilken artikel man skall leta efter det fullständiga språkprovet: SIX.
66<br />
Värre är det med exempel som består av fraser, t.ex. sitta i förhand, Hh3a. I dessa fall<br />
kan det vara knepigt att hitta rätt artikel eftersom man kan behöva leta efter en engelsk<br />
mot<strong>svar</strong>ighet till antingen sitta eller förhand. Värst är det när det exempel som SAOB tagit<br />
fasta på inte ingår i själva betydelsebeskrivningen av den engelska enheten, utan står<br />
i någon bruklighetsangivelse som, semantiskt sett, inte har något med artikeln att göra.<br />
Bibelord och bondord är exempel på detta. Bibelord står som kommentar till ordet glantz<br />
och bondord står angivet till ordet fall. I dessa, och flera andra, exempel är det hart när<br />
omöjligt att på kort tid hitta exemplet i Serenius ordböcker eftersom det inte på något sätt<br />
är semantiskt eller logiskt förknippat med den artikel i vilken det förekommer.<br />
Sammanfattning<br />
SAOB bygger på en mångfald skriftliga källor vilket också utgör en av <strong>ordbok</strong>ens starka<br />
sidor. Antalet källor medför emellertid att man inte har möjlighet att undersöka dessa<br />
närmare för att utröna deras speciella egenheter, något som heller inte kan sägas falla på<br />
<strong>ordbok</strong>sredaktionens bord. Dessvärre måste man påpeka att SAOB hade blivit en ännu<br />
bättre <strong>ordbok</strong> om man också haft möjlighet att ta hänsyn till hur källmaterialet i sig var<br />
uppbyggt och vad det vilade på.<br />
Serenius tre ordböcker bygger t.ex. alla på varandra. Den första, engelsk–svenska, är<br />
dessutom en osjälvständig produkt, kalkerad på en engelsk–fransk förlaga. Vad detta betytt<br />
för innehållet i <strong>ordbok</strong>en utreds i mitt pågående avhandlingsarbete, men man kan redan<br />
nu säga att det svenska ordförråd som skildras i Serenius ordböcker till mycket stor<br />
del är beskrivet på engelskans villkor. Man kan förmoda att det förhåller sig på liknande<br />
sätt även med andra, tvåspråkiga ordböcker.<br />
Eftersom SAOB till stor del bygger på annat <strong>ordbok</strong>smaterial, vilket faller sig naturligt,<br />
är det också av stor vikt att detta material undersöks noggrant; en forskningstradition<br />
som dessvärre är försummad i Sverige.<br />
Den typ av exempel som redovisats i denna artikel går naturligtvis att hitta också vid<br />
mindre, manuella sökningar i SAOB. Genom OSA-databasen ökar dock möjligheterna till<br />
större sökningar, varvid också de tveksamma beläggen lättare kommer i dagen. Vad som<br />
redovisats här utgör bara en liten del av en förmodad, större kategori av lexikalt material<br />
som behandlats enligt tveksamma principer i SAOB. Ingen kan emellertid lastas för det<br />
och SAOB är fortfarande en oumbärlig <strong>ordbok</strong> i historisk, lexikalisk forskning. Kanske<br />
kan man säga att den blir ännu bättre när man på detta sätt också kan lära känna bristerna<br />
bättre. Först då kan man till fullo uppskatta dess förtjänster.<br />
Litteratur<br />
Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />
1893 –. Lund.<br />
Serenius, J. 1734. Dictionarium Anglo–Svethico–Latinum. Hamburg.<br />
Serenius, J. 1741. Dictionarium Suethico–Anglo–Latinum. Stockholm.<br />
Serenius, J. 1757. An english and swedish dictionary. 2 ed. Nykoping.
67<br />
Rudolf Rydstedt<br />
Etymologierna<br />
SAOB är inte någon etymologisk <strong>ordbok</strong> i snäv mening, men det är ändå ett av de verk där<br />
mest genomarbetad etymologisk information om ord i svenskan finns samlad. Det är därför<br />
lockande att försöka använda SAOB som en modell av ordförrådet från reformationen<br />
och framåt vid studier av t.ex. vilka inlåningsvägar som har dominerat för ord inom skilda<br />
fackområden under olika tider. Det är dock viktigt att komma ihåg att den tryckta <strong>ordbok</strong>en<br />
är utformad för att användas just som en <strong>ordbok</strong>, inte en maskinellt hanterad lexikalisk<br />
databas. Detta är något som inte bara avspeglas i själva <strong>ordbok</strong>stexten utan även i att<br />
den dokumentation som finns att tillgå är väl knapphändig för att ge ett fullgott stöd vid<br />
mera omfattande maskinella bearbetningar. Trots det är naturligtvis den dokumentation<br />
som verkligen finns tillgänglig värdefull. Några sidor med allmänna principer står att finna<br />
i de publicerade handledningarna (Lundbladh 1992:71–74; Ekbo & Loman 1971:23–<br />
26). Sigurd för en allmännare diskussion i en artikel med anledning av <strong>Akademiens</strong> 200-<br />
årsjubileum (Sigurd 1986:176–179). Den mest preciserade informationen, med t.ex. principer<br />
för vad som skall räknas som medeltidslatin och nylatin, står att finna i redaktionens<br />
interna anvisningar. Det är dock värt att notera att även dessa anvisningar måste användas<br />
med viss försiktighet beroende på att de inte alltid har använts konsekvent i hela <strong>ordbok</strong>en.<br />
Maskinella undersökningar underlättas av att flertalet etymologier är stramt och formelartat<br />
uppbyggda. Många har en komplexitetsnivå som i exemplen:<br />
jfr d. rend, nor. dial. renn; till RÄNNA, v.<br />
efter nylat. motio<br />
Svårigheterna att hantera informationen maskinellt ökar så fort etymologierna utformningsmässigt<br />
närmar sig vanlig löpande text, men det är värt att notera att även små och<br />
enkla etymologier kan ställa till problem, t.ex. genom att information måste hämtas från<br />
andra ställen i texten för att etymologin skall bli hanterlig. Den typ av rent tekniska problem<br />
som måste lösas för att hantera t.ex. ifyllnad av information från andra delar av texten<br />
förbigås dock i det följande för att intresset i stället skall kunna ägnas åt några<br />
aspekter på själva informationsstrukturen i etymologierna:<br />
1. Balansen i den etymologiska informationens omfång. Redan SAOB:s urval av ord kan<br />
emellanåt vara problematiskt när verket skall användas som en modell av svenskans ordförråd<br />
från reformationen och framåt. Variationer i etymologiernas utförlighet minskar inte<br />
svårigheterna.<br />
2. Relationerna mellan enheterna i etymologierna. Etymologier, inte bara i SAOB, är strukturerade<br />
kring skenbart lättbegripliga uttryck som jämför, av, till och efter. En närmare analys<br />
visar emellertid att det ofta inte alls är självklart vad de innebär.<br />
3. Språken i etymologierna. Det är långt ifrån självklart hur språk skall grupperas och avgränsas,<br />
eller ens vad de skall kallas.<br />
Balansen i den etymologiska informationens omfång<br />
Den mest grundläggande faktor som styr balansen i den etymologiska information som<br />
SAOB ger om det svenska ordförrådet är valet av ord som över huvud taget behandlas i<br />
<strong>ordbok</strong>en. Det är ett allmänt problem som gäller vid alla tillämpningar där SAOB i någon<br />
mån skall användas som en modell för svenskans ordförråd och diskuteras därför i ett särskilt<br />
avsnitt (“SAOB:s täckning” på sidan 51). Ett par specifika faktorer som påverkar just
68<br />
den etymologiska informationen är (1) att utförligheten i den etymologiska beskrivningen<br />
har växlat under arbetets gång och (2) att olika delar av ordförrådet behandlas med olika<br />
utförlighet.<br />
Variation i utförlighet är viktig bl.a. genom att den påverkar tendensen för olika språk<br />
att komma med i etymologiska kedjor. <strong>Om</strong> en kortfattad etymologi kan inskränkas till ett<br />
”av fr. xxx.”, kan en utförligare vindla sig ända ner till konstruerade indoeuropeiska former.<br />
På vägen kan latin, grekiska, persiska o.s.v. dyka upp. Variationen kan få mycket<br />
stark inverkan på utfallet hos kvantitativa bearbetningar eftersom dessa har just redovisade<br />
språk som stödjepunkter. Sigurd tecknar det allmänna mönstret för variationen på<br />
följande sätt:<br />
Etymologiernas utförlighet varierar kraftigt mellan de olika banden. De har blivit<br />
mer stringenta i senare band, och där finner man aldrig hänvisningar till<br />
indoeuropeiska rötter. Inte heller finner man i senare band hänvisningar till<br />
etymologiska lexika eller enskilda uppsatser, vilket var vanligt i tidiga band.<br />
I äldre tid kunde en etymologi sträcka sig över en hel spalt (se t.ex. den,<br />
diss). I tidiga etymologier passade redaktören på att ge upplysningar om andra<br />
ord som kan vara av intresse också. Banden B, C, D, E är de mest utförliga i etymologiskt<br />
hänseende … (Sigurd 1986:177)<br />
Beskrivning stämmer väl med det intryck som man får vid en god allmän förtrogenhet med<br />
SAOB. Låt oss därför detaljgranska den på en punkt: hänvisningar till indoeuropeiska rötter.<br />
Vi förutsätter att förekomsten av förkortningen ieur. i en etymologi är en sådan hänvisning<br />
(före M finns det även en handfull fall med indoeur.). Det material som ligger till<br />
grund är en maskinell excerpering av förstaetymologierna i cirka 85 % av SAOB, var spalter<br />
har utelämnats framgår av tabellen nedan. Med förstaetymologi avses den första etymologin<br />
som följer efter ett stickord. Totalt extraherades 36.416 sådana (av Yvonne<br />
Cederholm). Etymologierna har kapats efter 4 radslut i 720 fall, varav 350 i området B–E.<br />
Tabell 6: Vissa fördelningar per bokstav<br />
Bokstav<br />
Antal ieur.<br />
i 1:a etym.<br />
Antal<br />
1:a etym.<br />
Spalter i<br />
boken<br />
Faktiskt<br />
spaltantal a<br />
A 0 4152 2780<br />
B 14 4509 4928<br />
C 0 376 304<br />
D 19 2300 2624<br />
E 2 1250 880<br />
F 3 830 3616 c. 1700<br />
G 25 1669 1764<br />
H 33 1885 2432<br />
I 9 1337 1256<br />
J 5 381 504<br />
K 38 4013 3880<br />
L 31 1438 1972<br />
M 34 2322 2168<br />
N 16 1018 1308<br />
O 11 1037 1776 c. 1400
69<br />
Tabell 6: Vissa fördelningar per bokstav<br />
Bokstav<br />
Antal ieur.<br />
i 1:a etym.<br />
Antal<br />
1:a etym.<br />
Spalter i<br />
boken<br />
Faktiskt<br />
spaltantal a<br />
P 0 554 3132 c. 1000<br />
Q 0 0 4 0<br />
R 21 2556 4632 c. 4200<br />
S 19 4760 13.768 c. 10.600<br />
Där över huvud taget någon etymologisk upplysning ges är det här [i sammansättningar<br />
i ramsa] oftast fråga om översättningslån, … (Ekbo & Loman<br />
1971:25).<br />
Den ojämlika behandlingen av enkla ord och sammansättningar kan ställa till problem om<br />
man vill jämföra just den etymologiska bakgrunden hos ord som har lånats in som sama.<br />
Det antal spalter som har utnyttjats i undersökningen anges enbart om det<br />
avviker från antalet i den tryckta boken.<br />
Mängden ieur. är låg under de två först färdigställda bokstäverna A och C för att stiga under<br />
B och D. Sedan sjunker den abrupt. De låga siffrorna på A och C beror delvis på att<br />
förkortningen ieur. inte hunnit sätta sig ännu. Sänkningen efter D hänger samman med<br />
den uppstramning av <strong>ordbok</strong>ens arbete som skedde under Ebbe Tuneld i början av tjugotalet<br />
(Sigurd 1986:156). Med tiden svänger pendeln från hastighet i publiceringen till utförlighet<br />
igen. Andelen ieur. stiger redan under G för att minska med början på O – och så<br />
stiger den igen under R och S. Även här finns det ett samband med byten av <strong>ordbok</strong>schef:<br />
Pelle Holm avlöser Tuneld under M för att sedan själv avlösas av Sven Ekbo ungefär vid<br />
övergången till R.<br />
Det viktiga med den övergripande variationen i andelen ieur. är att den visar på att förskjutningar<br />
i redaktionell policy kan ställa till besynnerliga ojämnheter i materialet. Tabellen<br />
visar dessutom att inte ens en gammal redaktör som Sigurd (med ronsard som<br />
första och sjastrar som sista artikel) har en säker intuition för hur SAOB är uppbyggd. Det<br />
får försiktiga redaktörer att lite svepande formulera sig i stil med:<br />
SAOB ger i allmänhet inga urgermanska eller urindoeuropeiska konstruerade<br />
former; av den sakförståndige kan dessa former ändå utan svårighet konstrueras.<br />
(Ekbo & Loman 1971:25).<br />
Försiktighet befrämjar nog korrektheten, men knappast tydligheten i bilden av <strong>ordbok</strong>en.<br />
OSA-databasen gör att svårigheten att få grepp om den interna variationen i SAOB minskar<br />
i någon mån, men det är värt att notera att det fortfarande kan vara problematiskt att<br />
utifrån summariska sammanställningar komma fram till vad variationen egentligen beror<br />
på och vad den säger. Den som studerar tabellen ovan utan tillräcklig bakgrundskunskap<br />
kan t.ex. dra slutsatsen att ord som inleds med A, C och E är mindre ”indoeuropeiska”<br />
än de som inleds av andra bokstäver. För en språkvetare är redan bruttosiffrornas storlek<br />
en varning, andelen ord i svenskan med indoeuropeiskt ursprung bör rimligen vara större<br />
än någon procent. Men vilka intuitioner har vi för frekvenser hos t.ex. ord som ytterst<br />
kommer från semitiska språk<br />
Nu varierar inte utförligheten i etymologierna bara med när artiklarna är skrivna. En<br />
minst lika viktig faktor är att olika delar av ordförrådet behandlas på skilda sätt. Ett par<br />
uttalade principer är att ge lånord knappare behandling än arvord och nya lån knappare<br />
än äldre (Ekbo & Loman 1971:25). Rimligtvis är det något som kan göra att 1500-talet kan<br />
få proportionellt sett för höga siffror för lån ytterst från persiska jämfört med 1900-talet.<br />
Även morfologiskt mera komplexa ord tenderar att bli mindre utförligt behandlade. Det<br />
gäller inte minst sammansättningar:
70<br />
mansättningar respektive enkla ord. Därmed inte sagt att det alltid skulle röra sig om<br />
ohanterliga problem. Genom att man kan räkna ut i vilken riktning som felkällorna kommer<br />
att påverka sifforna går det ofta att kompensera för dem. Men det är inte några korrektioner<br />
som utförs automatiskt.<br />
Relationerna mellan enheterna i etymologierna<br />
Den typiska etymologin, i SAOB och annorstädes, är en kortare eller längre kedja där ett<br />
ord knyts samman med en räcka bakomliggande former. I det enklaste fallet innehåller<br />
kedjan bara en länk med information om relation, språk och form enligt mönstret:<br />
av t. xxx<br />
En omedelbar fråga är nu hur det lilla av skall tolkas. Det verkar rimligt att anta att det<br />
indikerar att det ord som etymologin gäller har kommit från det språk som anges:<br />
När ord har lånats från ett visst språk meddelas det ofta med prepositionen av<br />
följd av beteckning för det språk som ordet direkt kan härledas ifrån. Skulle det<br />
i stället stå efter följt av en språkbeteckning och ett ord på detta främmande<br />
språk, innebär det att ordet är bildat efter mönster av det främmande ordet,<br />
t.ex. det döda sprödighet ’sprödhet’ efter tyskans sprödigkeit eller rättfärdig<br />
efter medellågtyska rechtverdich (tyska rechtvertig). När efter används påminner<br />
förhållandet mellan orden ibland om det som råder vid översättningslån,<br />
men vid sådana anförs det ord som är det sannolika ursprunget till det förmodade<br />
översättningslånet ofta efter ett jämför (jfr), t.ex. rörelsefrihet: jfr t. bewegungsfreihet.<br />
(Lundbladh 1992:73)<br />
En liten detalj är att Lundbladh inte säger att av innebär ett starkt hävdande av omedelbart<br />
ursprung. Hellqvist, som Lundbladh ger en allmän hänvisning till (1992:74), går så<br />
långt att han jämställer av med ytterst av och påpekar explicit att av inte innebär ett ställningstagande<br />
till om ordet kommit in direkt eller genom förmedling av ett annat språk –<br />
starkt hävdande av direktlån sker med prepositionen från (Hellqvist 1966:1480). Skälet<br />
till att denna typ av detaljer är av synnerlig vikt i kvantitativt orienterade undersökningar<br />
är att de kan leda till grova snedvridningar i resultaten om de inte beaktas. Ett exempel<br />
på det är etymologier enligt schemat:<br />
avledn. av XXX<br />
Skrivsättet kan inte tas till intäkt för att det rör sig om en inhemsk avledning, även om en<br />
sådan formulering normalt innebär att det åtminstone delvis kan vara det (Ekbo & Loman<br />
1971:25). Vid första anblicken kan SAOB:s princip här verka mer än lovligt lättsinnig,<br />
men det finns allvarliga språkvetenskapliga problem i bakgrunden. När man diskuterar<br />
etymologier sker det ofta med metaforer som inte alltid leder tankarna rätt, något som för<br />
övrigt Ralph har kritiserat (Ralph 1994:72). I metaforsystemet ingår att man tänker sig<br />
språk som avgränsade aktörer som lämnar över ord till varandra. Men i verkligheten finns<br />
det språkbrukare som krånglar till det hela. Det är de som lånar och skapar orden, inte<br />
språken i sig. Det är t.ex. fullt möjligt att vissa ord som ser ut som vanliga lån från tyskan<br />
i själva verket är avledningar som en svensk med kunskaper i tyska har ”lånat in” från sin<br />
egen tyska idiolekt, där ordet finns som en nybildning. <strong>Svenska</strong>n kan därför ha lånat in<br />
ord från tyskan som ingen tysk någonsin vare sig har tänkt, sagt eller skrivit (jfr liknande<br />
fenomen i det äktsvenska freestyle för engelskans walkman). Språkvetenskapligt är detta<br />
egentligen självklart, men det har obehagliga implikationer för den etymologiska forskningen<br />
genom att det gör det svårare att avgöra ordens ursprung.<br />
I det aktuella fallet med etymologier till avledningar motiverar svårigheten att bestämma<br />
hur avledningen egentligen har kommit in i svenskan den undanglidande tolkningen<br />
av avledn. av. Priset för denna försiktighet är dock att av får skilda betydelser i etymologier<br />
med avledn. av jämfört med normalfallet. I normalfallet innebär av ett hävdande av<br />
att det som följer efter har varit inblandat i tillblivelsen, i fallet med avledn. av gör redak-
71<br />
törerna Ekbo och Loman en markering av att av i just det fallet inte innebär ett sådant<br />
hävdande. Vad detta får för praktiska konsekvenser vid maskinella sökningar framgår<br />
tydligare om man drar in de frekventa jfr-etymologierna – av de 36.416 förstaetymologier<br />
som nämns ovan är 16.609 sådana. De används i samband med översättningslån på det<br />
sätt som Lundbladh nämner i citatet ovan, men de används också för att markera t.ex. osäkerhet<br />
om inlåningsväg. Det är lätt att räkna ut att exterritorial kommer ytterst av latinet<br />
eller i varje fall av latinskt material, men svårare att säga om vi har fått ordet via tyskan,<br />
engelskan eller franskan (om det nu inte har kommit via alla vägarna parallellt), vilket<br />
motiverar etymologin:<br />
jfr t., eng., fr. exterritorial, ytterst av ex, ur (se EX-) o. territorium, område (se<br />
TERRITORIUM)<br />
Det torde i många sammanhang vara mera relevant att föra samman avledn. av med jfr<br />
än att gruppera alla etymologier med av i en kategori i kontrast till dem med jfr. Men är<br />
alla jfr jämbördiga, eller måste även den gruppen finfördelas efter vad som skenbart bara<br />
är små detaljer<br />
Språken i etymologierna<br />
Till de bekymmer som man kan vilja befria en användare av SAOB från är variationer i<br />
språkbeteckningar. Dessa är av två slag: (1) rena variationer i uttryckssätt, t.ex. sp. –<br />
span. – spanska och holl. – nl.; (2) variationer i omfång, t.ex. t. – ht. – lt. – mlt. Den senare<br />
typen ställer till mycket svåra problem vid sammanräkningar. När skall t.ex. skånsk dialekt<br />
räknas som en form av svenska <strong>Om</strong> man väljer att räkna äldre skånska ord som har<br />
lånats in i rikssvenskan som danska lån, skall då t.ex. småländska ord som har lånats in<br />
i riksspråket räknas som svenska lån Denna typ av frågor kan inte be<strong>svar</strong>as generellt då<br />
olika tolkningar är relevanta för olika undersökningar. Variationer av den första typen<br />
mellan synonymer är dock lätta att hantera tekniskt, åtminstone i princip. Den allra enklaste<br />
lösningen är att normalisera den redaktionella texten genom att välja ut en av de alternativa<br />
beteckningarna och ändra konsekvent till den, en operation som i praktiken<br />
bara är en förfinad form av den typ av sök- och ändra-operation som alla med erfarenhet<br />
av ordbehandling är bekant med. Det förfinade ligger i att utbytena måste göras starkt<br />
kontextberoende så att språkprov och liknande inte korrumperas. En aningen mer komplicerad<br />
lösning är att lägga in normaliseringar i SGML-taggar (för allmänna aspekter på<br />
taggningen se “SGML-taggning av SAOB” på sidan 15 och framåt.). Det är den senare lösningen<br />
som kommer att användas, inte minst för att många språkbeteckningar i vilket fall<br />
som helst måste specialkodas för att tvetydigheter skall undvikas: fr. kan t.ex. lösas upp<br />
både som franska och som från. Innan några justeringar kan göras ens genom att tilläggsinformation<br />
läggs in i SGML-taggar är det dock nödvändigt att man skaffar sig ett mycket<br />
gott grepp om vilka språkkoder som faktiskt används i texten och om hur de varierar med<br />
varandra. Den existerande dokumentationen hjälper långt men inte riktigt ända fram då<br />
dess huvudsakliga uppgift är att vägleda redaktörerna, inte att redovisa varje egenhet<br />
som har uppstått under ett sekels arbete. Den största svårigheten rent praktiskt är dock<br />
att informationen är spridd i ett antal olika källor, vilket gör det lätt att missa något. Det<br />
är därför nödvändigt att komplettera med rent empiriska undersökningar för att leta reda<br />
på odokumenterade språkkoder och för att kontrollera att den existerande dokumentationen<br />
verkligen stämmer – och inte minst att man har grävt tillräckligt djupt i den. Det kan<br />
illustreras med paren holl. – nl. och lt. – nt.<br />
Man skulle kunna tro holl. var en nl.-dialekt, d.v.s. att beteckningarna är närliggande<br />
men inte synonyma, men i själva verket har den förra beteckningen blivit ersatt med den<br />
senare. Det gör att nl. inte nämns i förkortningslistan i bd 1, däremot noterar Lundbladh<br />
(1992:80) ändringen. I det djupbearbetade materialet finns också en skarp gräns: sista ordet<br />
med anknytning till holl. är skytke och första med en koppling till nl. är slopa. Detta<br />
fall är lyckligt i det att man kan verifiera att dokumentationen och den faktiska texten
72<br />
stämmer med varandra. Det är inte riktigt lika enkelt med nt. och lt. Av dessa nämns formen<br />
nt. varken i Lundbladhs förkortningslista eller i förordet till bd. 1. Däremot finns den<br />
med i redaktionens tryckta men opublicerade Handbok för redigering af <strong>Svenska</strong> <strong>Akademiens</strong><br />
<strong>ordbok</strong> från 1904. I de djupbearbetade etymologierna dyker nt. upp redan i akter och<br />
försvinner efter nidska, där det alltså ersätts av lt.<br />
Den språkhistoriskt bildade som använder SAOB för att slå upp enstaka ord på ordinärt<br />
sätt kan nog räkna ut att nt. är en förkortning av nedertyska, ungefär som mnt är en<br />
förkortning för medelnedertyska. Den som söker maskinellt på lt. och mlt. för att hitta lågtyskt<br />
inflytande anar nog att allt inte står rätt till när inte ett enda belägg dyker upp före<br />
bokstaven O. Den som kan råka illa ut är den som utgår från t.ex. Lundbladh och söker på<br />
de beteckningar som har lågtyska eller nedertyska i sig där (lt., mlt. och mnt.). I en sådan<br />
sökning förrycks resultatet en aning, men inte helt. Det är tillräckligt för att den skall<br />
kunna påverka slutsatser, men tillräckligt liten för att felkällan skall vara svår att märka.<br />
När väl variationen är upptäckt i fall som holl. – nl. och nt – lt. är den ofta lätt att åtgärda<br />
med hjälp av en normalisering eller tilläggsinformation i en SGML-tagg.<br />
Litteratur<br />
Ekbo, S. & Loman, B. [1965] 1971. Vägledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 2 uppl.<br />
Stockholm.<br />
Engwall, G. 1994. Svenskt och franskt. I: Arv och lån i svenskan : Sju uppsatser om<br />
ordförrådet i kulturströmmarnas prespektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />
Stockholm.<br />
Gellerstam, M. 1994. Ordförrådets härledning. Arv och lån i svenskan : Sju uppsatser om<br />
ordförrådet i kulturströmmarnas prespektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />
Stockholm.<br />
Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1904. Utarbetad av Ernst<br />
Kock.<br />
Handbok för redigeringen av <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. 1993. Utarbetad av Hans<br />
Jonsson.<br />
Hellqvist, E. 1966. Svensk etymologisk <strong>ordbok</strong>. Bd 2. 3. uppl. Lund.<br />
Jonsson, H. 1983. Ekeblad och SAOB. Nysvenska studier. Årg. 61. 19181. Lund.<br />
Lundbladh, C.-E. 1992. Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>. Lund.<br />
Ordbok över svenska språket, utg. av <strong>Svenska</strong> Akademien. (<strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong>.)<br />
1893 –. Lund.<br />
Ralph, B. 1994. Svenskt och nordiskt. Arv och lån i svenskan : Sju uppsatser om<br />
ordförrådet i kulturströmmarnas prespektiv. Utgivna av <strong>Svenska</strong> Akademien.<br />
Stockholm.<br />
Sigurd, B. 1986. Ordboken, ordlistan och några andra av <strong>Svenska</strong> <strong>Akademiens</strong> språkliga<br />
insatser under 1900-talet. I: Allén, Sture & Loman, Bengt & Sigurd, Bengt 1986.<br />
<strong>Svenska</strong> Akademien och svenska språket : Tre studier. Stockholm.
73<br />
Lars Svensson<br />
Att söka i Språkdatas SAOB-konkordans<br />
Artiklarna i SAOB måste självklart följa de redigeringsregler och principer och starkt<br />
formelaktiga språk som tillämpas, så att verket får en enhetlig och likartad form. Trots<br />
manualer och diskussioner och sökande i <strong>ordbok</strong>en, som har lång tradition, kan det emellertid<br />
inte så sällan vara svårt att snabbt finna lämpliga paralleller l. modeller l. likartade<br />
exempel på det formella planet, t. ex. i fråga om ett ords uttal, böjning l. bruklighet l. en<br />
anmärknings placering l. formulering osv. Ibland minns man (delar av) en bra formulering<br />
av en anmärkning l. bruklighetsangivelse o. d. men inte i vilken artikel den står. Därför<br />
hälsar vi på <strong>ordbok</strong>sredaktionen med stor tillfredsställelse att Språkdatas SAOB-konkordans<br />
nu finns tillgänglig på universitetsnätet.<br />
Konkordansen utgörs av en optisk inläsning av de tryckta volymerna. Materialet i konkordansprogrammet<br />
är lagrat som löpande text i form av ett antal delmängder, var och en<br />
– i vårt fall – bestående av en <strong>ordbok</strong>sartikel. Varje delmängd är försedd med uppgift om<br />
beläggställe. Till ett givet ord kan man få en grafordlista, en konkordans och en kontext.<br />
Graforden och konkordanserna kan sorteras initial- och finalalfabetiskt. Man kan även<br />
söka på fras och årtal, men också på brukligheten (†) [= dead]. Man kan bläddra rad för<br />
rad eller sida för sida och växla listningsriktning. Kommandot ”/a” utvidgar kontexten till<br />
en hel spalt. Det går också att göra en utskrift av skärmbilden.<br />
Hur fungerar då SAOB-konkordansen i praktiken Ja, på det hela taget mycket bra.<br />
Med hjälp av SAOB-konkordansen kan man t. ex. kontrollera en källas skrivning eller<br />
förkortning. Detta är värdefullt, om det förekommer flera uppgifter om källans förkortning.<br />
En sökning på källan ger i allmänhet besked direkt. Vid ett tillfälle kunde en kontrollant<br />
inte finna den på excerptlappen angivna källan Buttmann (1825) bland våra<br />
förkortningar eller i den s. k. Grållan – kontrollanternas egen uppslagsbok och "bibel" rörande<br />
källorna – men en sökning i databasen gav besked: FAXE Buttmann (1825) skall<br />
källan heta. (J. Faxe har översatt Buttmanns grekiska grammatik och kommer att stå som<br />
"författare", eftersom det är den svenske översättarens språk som behandlas i SAOB.)<br />
<strong>Om</strong> man skall behandla t. ex. en lek eller titel eller ett oböjligt substantiv, så är det<br />
lämpligt att studera hur sådana artiklar brukar behandlas i <strong>ordbok</strong>en.<br />
Anmärkningar är vanliga i <strong>ordbok</strong>en. I en anmärkning kan man behandla en misstänkt<br />
eller avvikande ordform, en felöversättning, att ordet böjdes med latinska ändelser i äldre<br />
svenska o. d. Självklart har man nytta av att granska några anmärkningar för att se vilka<br />
stilar som används, var anmärkningen skall placeras i artikeln. Osv.<br />
Andra exempel där databasen kan ge hjälp och ledning.<br />
Hur återges stumt tecken i ryska ord i etymologiska parentesen<br />
Hur används t. ex. termen "överförd" i SAOB<br />
Exempel på verb bildade till det svaga avljudsstadiet<br />
Exempel på retrograd ordbildning<br />
Uttalsuppgifter i äldre ordböcker (t.ex. Dalins Ordbok öfver svenska språket (1850–<br />
1855), Westes Svenskt och fransyskt lexicon (1807) anförs vid ord, som är döda. Var skall<br />
dessa uttaluppgifter placeras i <strong>ordbok</strong>sartikeln Vilken stil skall de ha Osv.<br />
En svaghet med databasen är att träffarna avser samtliga förekomster av den sökta<br />
bokstavsförbindelsen. Söker man siffrorna t. ex. 1990 så betecknar siffrorna dels årtal,<br />
dels siduppgift i en källa. Men äv. fall som 19:90 registreras. Söker man på STRINDBERG<br />
– 4.775 träffar i databasen – så redovisas samtliga anträffade STRINDBERG: författaren,
74<br />
titlar innehållande ordet STRINDBERG, citat där STRINDBERG ingår, STRINDBERG<br />
som sammansättningsled osv.<br />
När man söker på mer än ett ord så gäller det att reducera antalet träffar. Söker man<br />
t. ex. på ”sbst. oböjl.” så tar det en stund innan man kommit fram till detta ställe i databasen,<br />
eftersom programmet letar sekvensiellt efter det andra ordet i kontexten. Det innebär<br />
att man först får samtliga fall av ”sbst. + o. d., o. p. adj., o. v.”, och så till slut ”sbst. +<br />
oböjl.” Men i stället för att bläddra sig igenom ramsan till aktuellt ställe, så kan man påskynda<br />
sökningen gm att söka på ”sbst. o. v.”, varefter ”sbst. oböjl.” följer. Och att leta igenom<br />
9.225 träffar ”anmärkningar” är hopplöst men träffarna reduceras betydligt om man<br />
söker på t. ex. sekvensen: ”Anm. I nedanstående källa (språkprov)” eller: ”Anm. I äldre<br />
nysv. (sv., tid)”. På samma sätt kan träffarna för ”ry.” (= ryska) reduceras, om man inte<br />
söker på enbart ”ry.” (374 träffar) utan på ”av ry.” eller ”i ry” eller ”efter ry.”, vilket utesluter<br />
icke-språkliga kontexter.<br />
Det vore således idealet om man så småningom kunde söka på parentes, stil eller avdelning<br />
i artikeln (t. ex. etymologiska parentensen). Trots ovan nämnd ”olägenhet”, så<br />
fungerar dock databasen bra som stöd och hjälpmedel för <strong>ordbok</strong>sredaktionen. Det finns<br />
dessutom möjlighet för oss att av Språkdata få en specialkörning eller specialsökning, om<br />
så skulle behövas. På datornätet finns sedan en tid tillbaka dessutom några mycket nyttiga<br />
ordlistor tillkomna som en frukt av konkordansarbetet. Ordbokens samtliga sammansättningar<br />
är sorterade på efterled, huvudorden och avledningarna finalalfabetiskt<br />
ordnade och de särskilda förbindelserna sorterade på partikeln. Vi i Lund tackar och tar<br />
emot!
75<br />
SAOB på Internet<br />
Följande information finns tillgänglig genom OSA-projektets hemsida på Internet:<br />
Konkordans över SAOB Detta är tillsvidare det enda sättet att söka i hela SAOB. Formatet<br />
är dock svårläst och kräver troligen att man har <strong>ordbok</strong>en vid sidan om.<br />
Ordlistor.<br />
Huvudord (alfabetisk och finalalfabetisk sortering)<br />
sammansättningar (sorterade på efterled)<br />
avledningar (finalalfabetisk sortering)<br />
särskilda förbindelser (sorterade på partikel)<br />
facktermer (kronologiskt sorterade)<br />
Bibliografisk databas Databasen är ursprungligen upplagd av <strong>ordbok</strong>schefen Lars<br />
Svensson. Den innehåller samtliga källor i SAOB t.o.m. 1990, sammanlagt c:a 19 000 referenser.<br />
Vissa justeringar och utökade sökmöjligheter har utförts inom OSA-projektet (se<br />
“Bibliografisk databas” på sidan 37 och framåt).<br />
Hypertextlexikon Vi har bearbetat artiklarna A-advokat för att visa på hur en elektronisk<br />
version av SAOB kan komma att se ut. Det finns också ett enklare söksystem kopplat<br />
till hypertextlexikonet, där man kan söka på huvudord eller del av ett huvudord, t.ex. alla<br />
ord som slutar på ”tion” (se “SAOB som hypertext” på sidan 47 och framåt).<br />
Adresser<br />
Adressen till OSA-projektets hemsida på Internet/World Wide Web är:<br />
http://svenska.gu.se/saob/saobusers.html<br />
Från hemsidan kommer man också åt konkordansprogrammet (Telnet-uppkoppling). Man<br />
kan ta kontakt med systemet direkt via Telnet på följande adress:<br />
svenska.gu.se
77<br />
Ordlista<br />
DTD (Document Type Definition) En dokumenttypsdefinition är en specifikation av<br />
vilka strukturer som får finnas i dokument av den aktuella typen. En <strong>ordbok</strong> kan t.ex.<br />
definieras som en följd av artiklar, som i sin tur har en given följd av byggelement:<br />
först stickord, sedan uttal, former o.s.v. I SGML-sammanhang (jfr SGML) används<br />
DTD:er vid maskinell kontroll av att strukturen i dokumenten är korrekt markerad.<br />
hypertext Text med förgreningar (länkar) som gör det lätt för läsaren att välja sin egen<br />
väg genom texten eller textkomplexet. I en <strong>ordbok</strong> är det naturligt att t.ex. göra länkar<br />
mellan förkortningar i själva <strong>ordbok</strong>stexten och förklaringar till dem. Den koppling av<br />
källhänvisningar i texten till bibliografin som diskuteras av Sofie Kokkinakis<br />
Johansson är ett exempel på hur projektet omvandlar SAOB till en regelrätt hypertext<br />
(sidan 47).<br />
HTML (Hypertext Markup Language) Märkningsspråk (inom ramen för SGML) för<br />
hypertext som används på World Wide Web.<br />
märkningsspråk (markup language) Formellt språk för att märka upp den<br />
innehållsliga strukturen i texter. I SGML-sammanhang definieras märkningsspråket<br />
med en dokumenttypsdefinition (jfr DTD).<br />
OCR (Optical Character Recognition) Datorbaserad överföring av text på papper till<br />
för dator hanterligt format. Maskinen identifierar alltså följden av skrivtecken i<br />
texten. Tekniken fungerar bäst för tryckt eller maskinellt utskriven text.<br />
Perl (Practical Extraction and Report Language) Programmeringsspråk som i första<br />
hand är tänkt att användas dels för systemadministration, men som i stor<br />
utsträckning används för bearbetning av stora texter.<br />
sed (Stream Text Editor) Standardverktyg (editor) inom operativsystemet Unix. Ger<br />
bl.a. en möjlighet att använda reguljära uttryck för att bearbeta texter.<br />
SGML (Standard Generalized Markup Language) SGML är en internationell<br />
standard (ISO 8879) som är till för att göra det lättare att föra över text mellan olika<br />
system. En huvudprincip är att man i första hand skall bekymra sig om vad som är<br />
textens logiska beståndsdelar (vad som är rubriker, framhävd stil, stickord,<br />
etymologier o.s.v.), inte precis om hur de skall se ut.<br />
TEI (Text Encoding Initiative) Internationellt samarbetsprojekt som startades 1987<br />
för att ta fram generella märkningsmodeller för elektroniska texter inom ramen för<br />
SGML. TEI har finansierats av The Association for Computers and the Humanities<br />
(ACH), The Association for Computational Linguistics (ACL) och The Association for<br />
Literary and Linguistic Computing (ALLC). Som ett resultat av projektet publicerades<br />
1994 Guidelines for Electronic Text Encoding and Interchange (TEI P3), redigerad av<br />
C.M. Sperberg-MacQueen och Lou Burnard.<br />
WWW eller web (World Wide Web) Ett världsomspännade informationssystem på<br />
Internet för att länka samman text (hypertext), bilder, video och ljud.
Research Reports from the Department of Swedish, Göteborg University<br />
GU-ISS-96-1<br />
GU-ISS-96-2<br />
GU-ISS-96-3<br />
GU-ISS-96-4<br />
GU-ISS-96-5<br />
GU-ISS-96-6<br />
GU-ISS-96-7<br />
GU-ISS-96-8<br />
GU-ISS-96-9<br />
GU-ISS-96-10<br />
GU-ISS-96-11<br />
Eva Holmqvist, Strukturerad visuell information i en tesaurus för<br />
svenska. Uppsats för licentiatexamen i: Språkvetenskaplig<br />
databehandling med lexikologi<br />
Pernilla Danielsson & Daniel Ridings, PEDANT. Parallel Texts in<br />
Göteborg<br />
Jerker Järborg, Formaliserad lexikologi. Rapport från ett<br />
långtidsprojekt. (Preliminär version)<br />
Sture Allén, Yvonne Cederholm, Sofie Johansson Kokkinakis,<br />
Lena Rogström, Rudolf Rydstedt & Lars Svensson,<br />
<strong>Om</strong> <strong>svar</strong> anhålles. Rapport från projektet OSA.<br />
Sofie Johansson Kokkinakis & Dimitrios Kokkinakis, Rule-Based<br />
Tagging in Språkbanken.<br />
Yvonne Cederholm, A Historical Database of Swedish: The O.S.A<br />
Project. Accepted to EURALEX ’96, Göteborg, August 13-19 1996.<br />
Pernilla Danielsson & Daniel Ridings, Annotating Parallel Texts<br />
with the NSL library.<br />
Pernilla Danielsson & Daniel Ridings, Corpus and Terminology:<br />
Software for the Translation Program at Göteborgs universitet or Getting<br />
students to do the work. Accepted to TALC ’96, Lancaster<br />
Pernilla Danielsson & Daniel Ridings, Terminology in Parallel Texts.<br />
Accepted to TKE ’96, Vienna.<br />
Dimitrios Kokkinakis, A system for semi-automatic tagging of (Greek)<br />
corpora. Experiments, results and evaluation. Accepted to the<br />
2nd International Conference on Greek Linguistics, Salzburg, Öst.<br />
Sept 1995.<br />
Dimitrios Kokkinakis, Towards Automatic Corpus-Based Argument<br />
Identification. Accepted to the Predicative Forms in Natural Language<br />
and Lexical Knowledge Bases Workshop, Toulouse, Fra. 1-2 August 1996.<br />
ISSN-1401-5919