25.12.2014 Views

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

18<br />

en översikt av problemställningarna i From Data Representation to Data Model: Meta-Semantic<br />

Issues in the Evolution of SGML. En modell som Blake et al. (1994) har arbetat på<br />

är att utvidga SQL till att också kunna hantera SGML.<br />

Vi valde till en början att låta elementens namn ligga nära SAOB:s egen terminologi.<br />

Efter att TEI P3 publicerades 1994 har vi dock lånat många elementnamn därifrån, speciellt<br />

för de formella informationskategorierna. Elementnamnen utgör därför för närvarande<br />

en oskön blandning av svenska och engelska, men vi har valt att låta det vara så<br />

tills vi börjar med nästa fas av taggningsarbetet.<br />

Taggningsarbetet beskrivs nedan med utgångspunkt från respektive informationskategori.<br />

Den allmänna beskrivningen av informationskategorierna bygger på Lundbladhs<br />

Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> från 1992 och jag har också försökt hålla<br />

mig till den terminologi som Lundbladh använder.<br />

Primärstrukturen – SAOB:s skelett<br />

Vi har valt att skilja på två typer av informationskategorier. Den ena typen är de lexikaliska<br />

enheterna i artiklarna, nämligen uppslagsord, sammansättningar, avledningar, särskilda<br />

förbindelser samt betydelsemoment. Den andra typen är information som är knuten<br />

till dessa lexikaliska enheter, antingen på den formella eller semantiska nivån, t.ex. uttal,<br />

ordklass, böjning, etymologi, definitioner och språkprov.<br />

Vår strategi var att först bygga ett strukturellt skelett av de lexikaliska enheterna. Skelettet<br />

kallar vi för primärstrukturen och det utgörs för närvarande av ca 800 000 lexikaliska<br />

enheter. Här ingår också en del taggar som markerar grupperingar av de lexikaliska<br />

enheterna, t.ex. ramsor.<br />

Förutsättningen för att etablera det strukturella skelettet var att man relativt enkelt<br />

kunde isolera de lexikaliska enheterna maskinellt. Programmen måste sålla ut dessa enheter<br />

och inget annat i texten, enbart på grundval av den typografiska informationen. Svårigheten<br />

var att hitta de mönster som beskrev exakt de lexikaliska enheterna och inget<br />

annat. Den typografiska information som OCR-programmet känner igen var en relativt<br />

mager utgångspunkt för struktureringsarbetet. Mönstren utgjordes av koderna som angav<br />

stilbyte mellan brödstil, kursiv och fetstil, samt andra typografiska markörer som t.ex.<br />

parenteser av olika slag, kolon, semikolon och indrag. Mönstren, som utgör reguljära uttryck,<br />

översattes sedan till SGML-taggar. Implementeringen gjordes i sed och Perl.<br />

Tabell 1: tagguppsättning för primärstrukturen<br />

starttagg sluttagg beskrivning<br />

— artikel<br />

— hänvisning<br />

huvudord (lemma)<br />

— sammansättningsramsa<br />

— sammansättningsartikel<br />

förled i sammansättning<br />

efterled i sammansättning<br />

— avledningsramsa<br />

— avledningsartikel

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!