25.12.2014 Views

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

17<br />

ken beror antagligen på att James Murray själv skrev eller an<strong>svar</strong>ade för nästan hälften<br />

av alla artiklar i <strong>ordbok</strong>en.<br />

Det finns naturligtvis ingen möjlighet att arbeta om strukturen i de första delarna inom<br />

ramen för OSA-projektet. Den lexikaliska modell vi utarbetar måste vara generös och tilllåta<br />

en stor variation i såväl makrostruktur som mikrostruktur. Den måste bygga på den<br />

stramare strukturen i de senare banden, men samtidigt rymma de första bandens fria artikelstruktur.<br />

En ovan användare måste kunna söka i hela <strong>ordbok</strong>en utan att känna till<br />

några detaljer om variationen i artikelstrukturen, eftersom det främsta syftet med projektet<br />

ändå är att göra <strong>ordbok</strong>en mer lättillgänglig.<br />

Uppläggning av taggningsarbetet<br />

Vi har delat in taggningsarbetet i olika faser. Den första fasen är en identifieringsfas där<br />

gränserna mellan de olika informationskategorierna lokaliseras och de typografiska koderna<br />

översätts till SGML-taggar. Det är i denna fas vi nu befinner oss och det är huvudsakligen<br />

identifieringsfasen som beskrivs i detta avsnitt. Denna fas är också den mest<br />

arbetskrävande i projektet.<br />

I nästa fas byggs de enskilda elementen samman till en komplex SGML-struktur och<br />

grammatiken över <strong>ordbok</strong>ens struktur fastställs i en s.k. document type definition (DTD).<br />

Våra planer är att så långt som möjligt följa den DTD för tryckta lexikon som rekommenderas<br />

av Text Encoding Initiative (TEI P3 1984: 321–370). I TEI P3 pekar man på den stora<br />

strukturella variation som finns i ordböcker. På grund av detta har man valt att<br />

definiera två modeller. En modell med en fast struktur vilken skall täcka in de vanligaste<br />

typerna av ordböcker samt en alternativ modell som utgår från samma element, men som<br />

medger att man kan kombinera alla element relativt fritt.<br />

... because the structure of dictionary entries varies widely both among and within<br />

dictionaries, the simplest way for an encoding scheme to accommodate the entire range<br />

of structures actually encountered is to allow virtually any element to appear virtually<br />

anywhere in a dictionary entry.<br />

(TEI P3 1994, s. 321)<br />

Vi bör kunna använda oss av den friare modellen som utgångspunkt, men vissa omfattande<br />

tillägg måste ändå göras för att DTD:n skall täcka SAOB:s komplexa struktur. Några<br />

av komplikationerna nämns nedan.<br />

I den sista fasen av taggningsarbetet kommer vi att lägga till viss information till texten.<br />

Vi kommer att normalisera stavningen av uppslagsorden. Källhänvisningarna kommer<br />

också att normaliseras så att de kan länkas till en bibliografisk databas. Vi kommer<br />

att undvika att ändra i själva texten och istället lägga de normaliserade formerna i SGMLtaggarna.<br />

Alla korsreferenser och hänvisningar till de behandlade orden skall också formaliseras<br />

i denna fas, så att man kan kontrollera hela systemet av korsreferenser automatiskt.<br />

Vi kommer inte att här diskutera vilket sökspråk eller söksystem som skall användas<br />

för SAOB när taggningsarbetet är avslutat. PAT, det system som används för att söka i<br />

OED (se t.ex. Salminen 1994), kan hantera sökningar i stora SGML-strukturerade dokument<br />

och verkar vara det bästa systemet i dagsläget. Tyvärr finns inte idag något fullständigt<br />

frågespråk som kan hantera SGML. Detta beror på att SGML från början inte alls var<br />

tänkt att vara ett databasformat, utan utformades för att fungera som ett utbytesformat<br />

mellan olika ordbehandlingsformat. Eftersom antalet SGML-kodade dokument ökat kraftigt<br />

de senaste åren har det uppstått ett behov av att kunna söka i och uppdatera dessa<br />

dokument. Det finns flera forskningsprojekt som arbetar på att ta fram en väldefinierad<br />

semantik för SGML och att utveckla ett fullständigt frågespråk som innebär att man kan<br />

söka i och ändra i dokumenten på ett väldefinierat sätt. Raymond och Tompa (1995) ger

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!