Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
16<br />
som inleder betydelsemoment. Taggen har ett också ett attribut n, som anger betydelsens<br />
ordningsnummer. På samma sätt markeras alla andra informationskategorier i <strong>ordbok</strong>en.<br />
Bakgrund och förutsättningar för taggningsarbetet<br />
SAOB i sin tryckta version är satt i åtta olika stilar, men OCR-programmet känner endast<br />
igen normalstil, fetstil och kursiv. (Alla exempel från OSA-materialet i denna rapport återges<br />
också med dessa tre stilar.)<br />
Normalstil, fetstil och kursiv och andra typografiska markörer, som exempelvis parenteser,<br />
komman och punkter, utgör de viktigaste hållpunkterna när man skall hitta gränserna<br />
mellan de olika informationskategorierna. Huvuddelen av taggningen görs<br />
automatiskt med efterföljande manuella kontroller. Viss svåridentifierad information<br />
måste dock taggas helt manuellt. Eftersom taggningsarbetet ännu inte är slutfört redovisar<br />
vi här också en del problem som vi ännu inte har tagit ställning till.<br />
Taggningsarbetet grundas på de beskrivningar av artikelstrukturen som finns i litteraturen<br />
om SAOB. Främst på de två handledningar som har utarbetats för redaktörerna<br />
(Kock 1904; Jonsson 1993), men också på annan litteratur om SAOB (Ekbo 1971; Lundbladh<br />
1992 etc.). All variation i SAOB:s artikelstruktur är naturligtvis inte dokumenterad<br />
i dessa beskrivningar, eftersom de haft andra syften – handledningarna utgör riktlinjer<br />
för redaktörernas arbete och den övriga litteraturen har i första hand ett pedagogiskt syfte.<br />
Taggningsarbetet har därför till stor del haft karaktären av ett utgrävningsarbete där<br />
vi undan för undan frilagt olika strukturella lager i SAOB.<br />
Ordböcker har generellt en mycket komplex struktur som text betraktat och SAOB är<br />
naturligtvis ett extremfall bland ordböcker. Artiklarnas längd varierar mellan några få rader<br />
och upp emot hundra spalter. En artikel kan omfatta hundratals olika betydelsenyanser<br />
och varje betydelse kan exemplifieras med flera språkprov. Den enorma<br />
detaljrikedomen gör strukturen mycket svåröverskådlig och det är omöjligt att på förhand<br />
definiera en grammatik som beskriver hela SAOB:s struktur i detalj. Själva struktureringsarbetet<br />
blir ett sätt att ta fram denna okända grammatik. Kazman (1986, s. 16–17)<br />
som arbetat med struktureringen av The Oxford English Dictionary säger att uppgiften<br />
att strukturera en sådan stor <strong>ordbok</strong> liknar det problem som inom mönsterigenkänningsområdet<br />
kallats "The Grammatical Inference Problem". Problemet beskriver han enligt<br />
följande. Input består av en mängd strängar som antingen accepteras eller förkastas av en<br />
okänd grammatik. Man tillämpar någon slags procedur för skilja acceptabla strängar från<br />
icke-acceptabla och genom detta får man gradvis kunskap om hur den okända grammatiken<br />
ser ut. Ett liknande uppgift, skriver Kazman, är att försöka skriva en grammatik för<br />
ett dött språk.<br />
Då de första delarna av <strong>ordbok</strong>en publicerades var principerna för <strong>ordbok</strong>ens struktur<br />
inte fastlagda. En handledning för redaktörerna, som redigerades av Ernst Kock, färdigställdes<br />
först år 1904. Då hade hela bokstaven A och stora delar av C redan publicerats.<br />
Det innebär att det finns många strukturella avvikelser i de första delarna jämfört med de<br />
senare delarna. Exempelvis finns inga avledningsramsor på bokstaven A, utan avledningarna<br />
utgör där egna huvudartiklar. Även i de senare delarna förekommer det avvikelser i<br />
strukturen, vilka – även om de inte innebär någon större svårighet för en mänsklig läsare<br />
– komplicerar struktureringsarbetet inom projektet. SAOB anses dock ha en relativt sett<br />
stringent struktur och genomförd typografi. Sture Hast (Svensson et al. 1993, s. 55–84)<br />
har gjort en jämförelse mellan de fyra stora germanska ordböckerna, The Oxford English<br />
Dictionary (OED), Grimms Deutsches Wörterbuch, Woordenboek der Nederlandsche Taal<br />
(WNT) och SAOB. Han kommer fram till att OED och SAOB har en mera stringent och<br />
lingvistisk uppläggning än de andra två. OED är dock, enligt Sture Hast, den mest enhetligt<br />
utformade <strong>ordbok</strong>en eftersom det i SAOB finns stora diskrepanser i framställningen<br />
mellan olika redaktörer och tidsperioder. Att OED är den mest enhetligt utformade ordbo-