25.12.2014 Views

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

16<br />

som inleder betydelsemoment. Taggen har ett också ett attribut n, som anger betydelsens<br />

ordningsnummer. På samma sätt markeras alla andra informationskategorier i <strong>ordbok</strong>en.<br />

Bakgrund och förutsättningar för taggningsarbetet<br />

SAOB i sin tryckta version är satt i åtta olika stilar, men OCR-programmet känner endast<br />

igen normalstil, fetstil och kursiv. (Alla exempel från OSA-materialet i denna rapport återges<br />

också med dessa tre stilar.)<br />

Normalstil, fetstil och kursiv och andra typografiska markörer, som exempelvis parenteser,<br />

komman och punkter, utgör de viktigaste hållpunkterna när man skall hitta gränserna<br />

mellan de olika informationskategorierna. Huvuddelen av taggningen görs<br />

automatiskt med efterföljande manuella kontroller. Viss svåridentifierad information<br />

måste dock taggas helt manuellt. Eftersom taggningsarbetet ännu inte är slutfört redovisar<br />

vi här också en del problem som vi ännu inte har tagit ställning till.<br />

Taggningsarbetet grundas på de beskrivningar av artikelstrukturen som finns i litteraturen<br />

om SAOB. Främst på de två handledningar som har utarbetats för redaktörerna<br />

(Kock 1904; Jonsson 1993), men också på annan litteratur om SAOB (Ekbo 1971; Lundbladh<br />

1992 etc.). All variation i SAOB:s artikelstruktur är naturligtvis inte dokumenterad<br />

i dessa beskrivningar, eftersom de haft andra syften – handledningarna utgör riktlinjer<br />

för redaktörernas arbete och den övriga litteraturen har i första hand ett pedagogiskt syfte.<br />

Taggningsarbetet har därför till stor del haft karaktären av ett utgrävningsarbete där<br />

vi undan för undan frilagt olika strukturella lager i SAOB.<br />

Ordböcker har generellt en mycket komplex struktur som text betraktat och SAOB är<br />

naturligtvis ett extremfall bland ordböcker. Artiklarnas längd varierar mellan några få rader<br />

och upp emot hundra spalter. En artikel kan omfatta hundratals olika betydelsenyanser<br />

och varje betydelse kan exemplifieras med flera språkprov. Den enorma<br />

detaljrikedomen gör strukturen mycket svåröverskådlig och det är omöjligt att på förhand<br />

definiera en grammatik som beskriver hela SAOB:s struktur i detalj. Själva struktureringsarbetet<br />

blir ett sätt att ta fram denna okända grammatik. Kazman (1986, s. 16–17)<br />

som arbetat med struktureringen av The Oxford English Dictionary säger att uppgiften<br />

att strukturera en sådan stor <strong>ordbok</strong> liknar det problem som inom mönsterigenkänningsområdet<br />

kallats "The Grammatical Inference Problem". Problemet beskriver han enligt<br />

följande. Input består av en mängd strängar som antingen accepteras eller förkastas av en<br />

okänd grammatik. Man tillämpar någon slags procedur för skilja acceptabla strängar från<br />

icke-acceptabla och genom detta får man gradvis kunskap om hur den okända grammatiken<br />

ser ut. Ett liknande uppgift, skriver Kazman, är att försöka skriva en grammatik för<br />

ett dött språk.<br />

Då de första delarna av <strong>ordbok</strong>en publicerades var principerna för <strong>ordbok</strong>ens struktur<br />

inte fastlagda. En handledning för redaktörerna, som redigerades av Ernst Kock, färdigställdes<br />

först år 1904. Då hade hela bokstaven A och stora delar av C redan publicerats.<br />

Det innebär att det finns många strukturella avvikelser i de första delarna jämfört med de<br />

senare delarna. Exempelvis finns inga avledningsramsor på bokstaven A, utan avledningarna<br />

utgör där egna huvudartiklar. Även i de senare delarna förekommer det avvikelser i<br />

strukturen, vilka – även om de inte innebär någon större svårighet för en mänsklig läsare<br />

– komplicerar struktureringsarbetet inom projektet. SAOB anses dock ha en relativt sett<br />

stringent struktur och genomförd typografi. Sture Hast (Svensson et al. 1993, s. 55–84)<br />

har gjort en jämförelse mellan de fyra stora germanska ordböckerna, The Oxford English<br />

Dictionary (OED), Grimms Deutsches Wörterbuch, Woordenboek der Nederlandsche Taal<br />

(WNT) och SAOB. Han kommer fram till att OED och SAOB har en mera stringent och<br />

lingvistisk uppläggning än de andra två. OED är dock, enligt Sture Hast, den mest enhetligt<br />

utformade <strong>ordbok</strong>en eftersom det i SAOB finns stora diskrepanser i framställningen<br />

mellan olika redaktörer och tidsperioder. Att OED är den mest enhetligt utformade ordbo-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!