Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
17<br />
ken beror antagligen på att James Murray själv skrev eller an<strong>svar</strong>ade för nästan hälften<br />
av alla artiklar i <strong>ordbok</strong>en.<br />
Det finns naturligtvis ingen möjlighet att arbeta om strukturen i de första delarna inom<br />
ramen för OSA-projektet. Den lexikaliska modell vi utarbetar måste vara generös och tilllåta<br />
en stor variation i såväl makrostruktur som mikrostruktur. Den måste bygga på den<br />
stramare strukturen i de senare banden, men samtidigt rymma de första bandens fria artikelstruktur.<br />
En ovan användare måste kunna söka i hela <strong>ordbok</strong>en utan att känna till<br />
några detaljer om variationen i artikelstrukturen, eftersom det främsta syftet med projektet<br />
ändå är att göra <strong>ordbok</strong>en mer lättillgänglig.<br />
Uppläggning av taggningsarbetet<br />
Vi har delat in taggningsarbetet i olika faser. Den första fasen är en identifieringsfas där<br />
gränserna mellan de olika informationskategorierna lokaliseras och de typografiska koderna<br />
översätts till SGML-taggar. Det är i denna fas vi nu befinner oss och det är huvudsakligen<br />
identifieringsfasen som beskrivs i detta avsnitt. Denna fas är också den mest<br />
arbetskrävande i projektet.<br />
I nästa fas byggs de enskilda elementen samman till en komplex SGML-struktur och<br />
grammatiken över <strong>ordbok</strong>ens struktur fastställs i en s.k. document type definition (DTD).<br />
Våra planer är att så långt som möjligt följa den DTD för tryckta lexikon som rekommenderas<br />
av Text Encoding Initiative (TEI P3 1984: 321–370). I TEI P3 pekar man på den stora<br />
strukturella variation som finns i ordböcker. På grund av detta har man valt att<br />
definiera två modeller. En modell med en fast struktur vilken skall täcka in de vanligaste<br />
typerna av ordböcker samt en alternativ modell som utgår från samma element, men som<br />
medger att man kan kombinera alla element relativt fritt.<br />
... because the structure of dictionary entries varies widely both among and within<br />
dictionaries, the simplest way for an encoding scheme to accommodate the entire range<br />
of structures actually encountered is to allow virtually any element to appear virtually<br />
anywhere in a dictionary entry.<br />
(TEI P3 1994, s. 321)<br />
Vi bör kunna använda oss av den friare modellen som utgångspunkt, men vissa omfattande<br />
tillägg måste ändå göras för att DTD:n skall täcka SAOB:s komplexa struktur. Några<br />
av komplikationerna nämns nedan.<br />
I den sista fasen av taggningsarbetet kommer vi att lägga till viss information till texten.<br />
Vi kommer att normalisera stavningen av uppslagsorden. Källhänvisningarna kommer<br />
också att normaliseras så att de kan länkas till en bibliografisk databas. Vi kommer<br />
att undvika att ändra i själva texten och istället lägga de normaliserade formerna i SGMLtaggarna.<br />
Alla korsreferenser och hänvisningar till de behandlade orden skall också formaliseras<br />
i denna fas, så att man kan kontrollera hela systemet av korsreferenser automatiskt.<br />
Vi kommer inte att här diskutera vilket sökspråk eller söksystem som skall användas<br />
för SAOB när taggningsarbetet är avslutat. PAT, det system som används för att söka i<br />
OED (se t.ex. Salminen 1994), kan hantera sökningar i stora SGML-strukturerade dokument<br />
och verkar vara det bästa systemet i dagsläget. Tyvärr finns inte idag något fullständigt<br />
frågespråk som kan hantera SGML. Detta beror på att SGML från början inte alls var<br />
tänkt att vara ett databasformat, utan utformades för att fungera som ett utbytesformat<br />
mellan olika ordbehandlingsformat. Eftersom antalet SGML-kodade dokument ökat kraftigt<br />
de senaste åren har det uppstått ett behov av att kunna söka i och uppdatera dessa<br />
dokument. Det finns flera forskningsprojekt som arbetar på att ta fram en väldefinierad<br />
semantik för SGML och att utveckla ett fullständigt frågespråk som innebär att man kan<br />
söka i och ändra i dokumenten på ett väldefinierat sätt. Raymond och Tompa (1995) ger