Om svar anhÃ¥lles - Svenska Akademiens ordbok - GÃ¶teborgs ...

Recommendations

Info

16 som inleder betydelsemoment. Taggen har ett också ett attribut n, som anger betydelsens ordningsnummer. På samma sätt markeras alla andra informationskategorier i ordboken. Bakgrund och förutsättningar för taggningsarbetet SAOB i sin tryckta version är satt i åtta olika stilar, men OCR-programmet känner endast igen normalstil, fetstil och kursiv. (Alla exempel från OSA-materialet i denna rapport återges också med dessa tre stilar.) Normalstil, fetstil och kursiv och andra typografiska markörer, som exempelvis parenteser, komman och punkter, utgör de viktigaste hållpunkterna när man skall hitta gränserna mellan de olika informationskategorierna. Huvuddelen av taggningen görs automatiskt med efterföljande manuella kontroller. Viss svåridentifierad information måste dock taggas helt manuellt. Eftersom taggningsarbetet ännu inte är slutfört redovisar vi här också en del problem som vi ännu inte har tagit ställning till. Taggningsarbetet grundas på de beskrivningar av artikelstrukturen som finns i litteraturen om SAOB. Främst på de två handledningar som har utarbetats för redaktörerna (Kock 1904; Jonsson 1993), men också på annan litteratur om SAOB (Ekbo 1971; Lundbladh 1992 etc.). All variation i SAOB:s artikelstruktur är naturligtvis inte dokumenterad i dessa beskrivningar, eftersom de haft andra syften – handledningarna utgör riktlinjer för redaktörernas arbete och den övriga litteraturen har i första hand ett pedagogiskt syfte. Taggningsarbetet har därför till stor del haft karaktären av ett utgrävningsarbete där vi undan för undan frilagt olika strukturella lager i SAOB. Ordböcker har generellt en mycket komplex struktur som text betraktat och SAOB är naturligtvis ett extremfall bland ordböcker. Artiklarnas längd varierar mellan några få rader och upp emot hundra spalter. En artikel kan omfatta hundratals olika betydelsenyanser och varje betydelse kan exemplifieras med flera språkprov. Den enorma detaljrikedomen gör strukturen mycket svåröverskådlig och det är omöjligt att på förhand definiera en grammatik som beskriver hela SAOB:s struktur i detalj. Själva struktureringsarbetet blir ett sätt att ta fram denna okända grammatik. Kazman (1986, s. 16–17) som arbetat med struktureringen av The Oxford English Dictionary säger att uppgiften att strukturera en sådan stor ordbok liknar det problem som inom mönsterigenkänningsområdet kallats "The Grammatical Inference Problem". Problemet beskriver han enligt följande. Input består av en mängd strängar som antingen accepteras eller förkastas av en okänd grammatik. Man tillämpar någon slags procedur för skilja acceptabla strängar från icke-acceptabla och genom detta får man gradvis kunskap om hur den okända grammatiken ser ut. Ett liknande uppgift, skriver Kazman, är att försöka skriva en grammatik för ett dött språk. Då de första delarna av ordboken publicerades var principerna för ordbokens struktur inte fastlagda. En handledning för redaktörerna, som redigerades av Ernst Kock, färdigställdes först år 1904. Då hade hela bokstaven A och stora delar av C redan publicerats. Det innebär att det finns många strukturella avvikelser i de första delarna jämfört med de senare delarna. Exempelvis finns inga avledningsramsor på bokstaven A, utan avledningarna utgör där egna huvudartiklar. Även i de senare delarna förekommer det avvikelser i strukturen, vilka – även om de inte innebär någon större svårighet för en mänsklig läsare – komplicerar struktureringsarbetet inom projektet. SAOB anses dock ha en relativt sett stringent struktur och genomförd typografi. Sture Hast (Svensson et al. 1993, s. 55–84) har gjort en jämförelse mellan de fyra stora germanska ordböckerna, The Oxford English Dictionary (OED), Grimms Deutsches Wörterbuch, Woordenboek der Nederlandsche Taal (WNT) och SAOB. Han kommer fram till att OED och SAOB har en mera stringent och lingvistisk uppläggning än de andra två. OED är dock, enligt Sture Hast, den mest enhetligt utformade ordboken eftersom det i SAOB finns stora diskrepanser i framställningen mellan olika redaktörer och tidsperioder. Att OED är den mest enhetligt utformade ordbo-
17 ken beror antagligen på att James Murray själv skrev eller ansvarade för nästan hälften av alla artiklar i ordboken. Det finns naturligtvis ingen möjlighet att arbeta om strukturen i de första delarna inom ramen för OSA-projektet. Den lexikaliska modell vi utarbetar måste vara generös och tilllåta en stor variation i såväl makrostruktur som mikrostruktur. Den måste bygga på den stramare strukturen i de senare banden, men samtidigt rymma de första bandens fria artikelstruktur. En ovan användare måste kunna söka i hela ordboken utan att känna till några detaljer om variationen i artikelstrukturen, eftersom det främsta syftet med projektet ändå är att göra ordboken mer lättillgänglig. Uppläggning av taggningsarbetet Vi har delat in taggningsarbetet i olika faser. Den första fasen är en identifieringsfas där gränserna mellan de olika informationskategorierna lokaliseras och de typografiska koderna översätts till SGML-taggar. Det är i denna fas vi nu befinner oss och det är huvudsakligen identifieringsfasen som beskrivs i detta avsnitt. Denna fas är också den mest arbetskrävande i projektet. I nästa fas byggs de enskilda elementen samman till en komplex SGML-struktur och grammatiken över ordbokens struktur fastställs i en s.k. document type definition (DTD). Våra planer är att så långt som möjligt följa den DTD för tryckta lexikon som rekommenderas av Text Encoding Initiative (TEI P3 1984: 321–370). I TEI P3 pekar man på den stora strukturella variation som finns i ordböcker. På grund av detta har man valt att definiera två modeller. En modell med en fast struktur vilken skall täcka in de vanligaste typerna av ordböcker samt en alternativ modell som utgår från samma element, men som medger att man kan kombinera alla element relativt fritt. ... because the structure of dictionary entries varies widely both among and within dictionaries, the simplest way for an encoding scheme to accommodate the entire range of structures actually encountered is to allow virtually any element to appear virtually anywhere in a dictionary entry. (TEI P3 1994, s. 321) Vi bör kunna använda oss av den friare modellen som utgångspunkt, men vissa omfattande tillägg måste ändå göras för att DTD:n skall täcka SAOB:s komplexa struktur. Några av komplikationerna nämns nedan. I den sista fasen av taggningsarbetet kommer vi att lägga till viss information till texten. Vi kommer att normalisera stavningen av uppslagsorden. Källhänvisningarna kommer också att normaliseras så att de kan länkas till en bibliografisk databas. Vi kommer att undvika att ändra i själva texten och istället lägga de normaliserade formerna i SGMLtaggarna. Alla korsreferenser och hänvisningar till de behandlade orden skall också formaliseras i denna fas, så att man kan kontrollera hela systemet av korsreferenser automatiskt. Vi kommer inte att här diskutera vilket sökspråk eller söksystem som skall användas för SAOB när taggningsarbetet är avslutat. PAT, det system som används för att söka i OED (se t.ex. Salminen 1994), kan hantera sökningar i stora SGML-strukturerade dokument och verkar vara det bästa systemet i dagsläget. Tyvärr finns inte idag något fullständigt frågespråk som kan hantera SGML. Detta beror på att SGML från början inte alls var tänkt att vara ett databasformat, utan utformades för att fungera som ett utbytesformat mellan olika ordbehandlingsformat. Eftersom antalet SGML-kodade dokument ökat kraftigt de senaste åren har det uppstått ett behov av att kunna söka i och uppdatera dessa dokument. Det finns flera forskningsprojekt som arbetar på att ta fram en väldefinierad semantik för SGML och att utveckla ett fullständigt frågespråk som innebär att man kan söka i och ändra i dokumenten på ett väldefinierat sätt. Raymond och Tompa (1995) ger
Page 1: GU-ISS-96-4 Research Reports from t
Page 5: 5 Förord Projektet OSA har som pri
Page 8 and 9: 8 frekvensordbok. Dit hör Olika li
Page 10 and 11: 10 uppslagsord, uttal, ordklassuppg
Page 13 and 14: 13 Rudolf Rydstedt Inläsningen En
Page 15: 15 Yvonne Cederholm SGML-taggning a
Page 19 and 20: 19 Tabell 1: tagguppsättning för
Page 21 and 22: 21 huvudorden bör man enligt min m
Page 23 and 24: 23 Beskrivningen av sammansättning
Page 25 and 26: 25 innehåller uppgifter om uttal,
Page 27 and 28: 27 Etymologi Etymologin utgör slut
Page 29 and 30: 29 Efter att vi taggat årtalsupgif
Page 31 and 32: 31 Figur 2 visar ett diagram över
Page 33 and 34: 33 Lena Rogström Taggning i prakti
Page 35: 35 Tveksamma fall Följande exempel
Page 38 and 39: 38 Figur 1: Gränssnittet på WWW t
Page 40 and 41: 40 Figur 4: Artikel ”ADAGIO” fr
Page 43 and 44: 43 Lena Rogström Den ortografiska
Page 45: 45 Även vad beträffar dessa forme
Page 48 and 49: 48 Figur 2: SAOB-artikel i HTML-for
Page 50 and 51: 50 Ett annat problem man måste ta
Page 52 and 53: 52 Urvalskriterier Diskussionen om
Page 54 and 55: 54 Excerperingen SAOB:s fundament
Page 56 and 57: 56 Oxfordordbokens gamla material t
Page 59 and 60: 59 Lena Rogström OSA-databasen i p
Page 61 and 62: 61 maliseringen i OSA-databasen har
Page 63 and 64: 63 Följande exempel ur Serenius or
Page 65 and 66: 65 I förordet till Illustrerad Sve
Page 67 and 68:
67 Rudolf Rydstedt Etymologierna SA
Page 69 and 70:
69 Tabell 6: Vissa fördelningar pe
Page 71 and 72:
71 törerna Ekbo och Loman en marke
Page 73 and 74:
73 Lars Svensson Att söka i Språk
Page 75:
75 SAOB på Internet Följande info
Page 79:
Research Reports from the Departmen
show all

Om svar anhÃ¥lles - Svenska Akademiens ordbok - GÃ¶teborgs ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?