Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
18<br />
en översikt av problemställningarna i From Data Representation to Data Model: Meta-Semantic<br />
Issues in the Evolution of SGML. En modell som Blake et al. (1994) har arbetat på<br />
är att utvidga SQL till att också kunna hantera SGML.<br />
Vi valde till en början att låta elementens namn ligga nära SAOB:s egen terminologi.<br />
Efter att TEI P3 publicerades 1994 har vi dock lånat många elementnamn därifrån, speciellt<br />
för de formella informationskategorierna. Elementnamnen utgör därför för närvarande<br />
en oskön blandning av svenska och engelska, men vi har valt att låta det vara så<br />
tills vi börjar med nästa fas av taggningsarbetet.<br />
Taggningsarbetet beskrivs nedan med utgångspunkt från respektive informationskategori.<br />
Den allmänna beskrivningen av informationskategorierna bygger på Lundbladhs<br />
Handledning till <strong>Svenska</strong> <strong>Akademiens</strong> <strong>ordbok</strong> från 1992 och jag har också försökt hålla<br />
mig till den terminologi som Lundbladh använder.<br />
Primärstrukturen – SAOB:s skelett<br />
Vi har valt att skilja på två typer av informationskategorier. Den ena typen är de lexikaliska<br />
enheterna i artiklarna, nämligen uppslagsord, sammansättningar, avledningar, särskilda<br />
förbindelser samt betydelsemoment. Den andra typen är information som är knuten<br />
till dessa lexikaliska enheter, antingen på den formella eller semantiska nivån, t.ex. uttal,<br />
ordklass, böjning, etymologi, definitioner och språkprov.<br />
Vår strategi var att först bygga ett strukturellt skelett av de lexikaliska enheterna. Skelettet<br />
kallar vi för primärstrukturen och det utgörs för närvarande av ca 800 000 lexikaliska<br />
enheter. Här ingår också en del taggar som markerar grupperingar av de lexikaliska<br />
enheterna, t.ex. ramsor.<br />
Förutsättningen för att etablera det strukturella skelettet var att man relativt enkelt<br />
kunde isolera de lexikaliska enheterna maskinellt. Programmen måste sålla ut dessa enheter<br />
och inget annat i texten, enbart på grundval av den typografiska informationen. Svårigheten<br />
var att hitta de mönster som beskrev exakt de lexikaliska enheterna och inget<br />
annat. Den typografiska information som OCR-programmet känner igen var en relativt<br />
mager utgångspunkt för struktureringsarbetet. Mönstren utgjordes av koderna som angav<br />
stilbyte mellan brödstil, kursiv och fetstil, samt andra typografiska markörer som t.ex.<br />
parenteser av olika slag, kolon, semikolon och indrag. Mönstren, som utgör reguljära uttryck,<br />
översattes sedan till SGML-taggar. Implementeringen gjordes i sed och Perl.<br />
Tabell 1: tagguppsättning för primärstrukturen<br />
starttagg sluttagg beskrivning<br />
— artikel<br />
— hänvisning<br />
huvudord (lemma)<br />
— sammansättningsramsa<br />
— sammansättningsartikel<br />
förled i sammansättning<br />
efterled i sammansättning<br />
— avledningsramsa<br />
— avledningsartikel