Om svar anhÃ¥lles - Svenska Akademiens ordbok - GÃ¶teborgs ...

Recommendations

Info

18 en översikt av problemställningarna i From Data Representation to Data Model: Meta-Semantic Issues in the Evolution of SGML. En modell som Blake et al. (1994) har arbetat på är att utvidga SQL till att också kunna hantera SGML. Vi valde till en början att låta elementens namn ligga nära SAOB:s egen terminologi. Efter att TEI P3 publicerades 1994 har vi dock lånat många elementnamn därifrån, speciellt för de formella informationskategorierna. Elementnamnen utgör därför för närvarande en oskön blandning av svenska och engelska, men vi har valt att låta det vara så tills vi börjar med nästa fas av taggningsarbetet. Taggningsarbetet beskrivs nedan med utgångspunkt från respektive informationskategori. Den allmänna beskrivningen av informationskategorierna bygger på Lundbladhs Handledning till Svenska Akademiens ordbok från 1992 och jag har också försökt hålla mig till den terminologi som Lundbladh använder. Primärstrukturen – SAOB:s skelett Vi har valt att skilja på två typer av informationskategorier. Den ena typen är de lexikaliska enheterna i artiklarna, nämligen uppslagsord, sammansättningar, avledningar, särskilda förbindelser samt betydelsemoment. Den andra typen är information som är knuten till dessa lexikaliska enheter, antingen på den formella eller semantiska nivån, t.ex. uttal, ordklass, böjning, etymologi, definitioner och språkprov. Vår strategi var att först bygga ett strukturellt skelett av de lexikaliska enheterna. Skelettet kallar vi för primärstrukturen och det utgörs för närvarande av ca 800 000 lexikaliska enheter. Här ingår också en del taggar som markerar grupperingar av de lexikaliska enheterna, t.ex. ramsor. Förutsättningen för att etablera det strukturella skelettet var att man relativt enkelt kunde isolera de lexikaliska enheterna maskinellt. Programmen måste sålla ut dessa enheter och inget annat i texten, enbart på grundval av den typografiska informationen. Svårigheten var att hitta de mönster som beskrev exakt de lexikaliska enheterna och inget annat. Den typografiska information som OCR-programmet känner igen var en relativt mager utgångspunkt för struktureringsarbetet. Mönstren utgjordes av koderna som angav stilbyte mellan brödstil, kursiv och fetstil, samt andra typografiska markörer som t.ex. parenteser av olika slag, kolon, semikolon och indrag. Mönstren, som utgör reguljära uttryck, översattes sedan till SGML-taggar. Implementeringen gjordes i sed och Perl. Tabell 1: tagguppsättning för primärstrukturen starttagg sluttagg beskrivning — artikel — hänvisning huvudord (lemma) — sammansättningsramsa — sammansättningsartikel förled i sammansättning efterled i sammansättning — avledningsramsa — avledningsartikel
19 Tabell 1: tagguppsättning för primärstrukturen starttagg sluttagg beskrivning avledning — ramsa med särskilda förbindelser — artikel för särskild förbindelse särskild förbindelse – grundord särskild förbindelse – partikel — betydelsemoment på 1:a nivån (huvudmoment, anges i tryck med arabiska siffror) — betydelsemoment på 2:a nivån (anges i tryck med gemener) — betydelsemoment på 3:e nivån (anges i tryck med grekiska bokstäver) — betydelsemoment på 4:e nivån (anges i tryck med grekiska bokstäver kombinerat med prim-tecken) — betydelsemoment på 5:e nivån (anges i tryck med grekiska bokstäver kombinerat med bis-tecken) — momentgruppering (syntaktiska kriterier; anges i tryck med romerska siffror) — momentgruppering (icke-syntaktiska kriterier; anges i tryck med versaler) Det har varit nödvändigt att göra omfattande sorteringar av materialet för att hitta dessa mönster. För att exemplifiera hur detta kan gå till kan vi återknyta till exemplet med betydelseindelningen i artikeln champagne ovan. I detta fall skulle man först sortera kontexten för alla siffror i fetstil i SAOB. Man gör sedan en bedömning om alla siffror är ordningsnummer i betydelseindelningen. I så fall byter man ut dem mot taggen , o.s.v., som i exemplet ovan. Detta är ett naturligtvis ett starkt förenklat exempel eftersom det finns miljontals siffror i fetstil i SAOB, vilka förekommer i en mängd olika funktioner. Mönstren som vi definierar är mycket mer komplicerade, men exemplet visar på själva tillvägagångssättet. Vi gör omfattande provtaggningar på små partier från olika delar av ordboken – på grund av den strukturella variationen – innan vi slutligen taggar hela materialet. Man måste acceptera en viss felprocent på grund av svårigheten att överblicka strukturen, men den får inte vara större än att felen går att korrigera manuellt i efterhand. Om man taggar 300 000 enheter maskinellt och får med 5 000 andra enheter av misstag, så tar detta lång tid att korrigerera manuellt. Detta kan tyckas vara en trivial upplysning, men jag vill trycka på att det är ordbokens storlek som karaktäriserar hela detta projekt och då speciellt svårigheten att överblicka hela materialet. Makrostrukturen Det är relativt lätt att hitta gränserna mellan huvudartiklarna i SAOB, eftersom de markeras typografiskt med ny rad och indrag. Det finns dock en annan typ av artiklar som är svårare att hitta eftersom uppslagsordet kan stå var som helst på raden, endast åtskilt
Page 1: GU-ISS-96-4 Research Reports from t
Page 5: 5 Förord Projektet OSA har som pri
Page 8 and 9: 8 frekvensordbok. Dit hör Olika li
Page 10 and 11: 10 uppslagsord, uttal, ordklassuppg
Page 13 and 14: 13 Rudolf Rydstedt Inläsningen En
Page 15 and 16: 15 Yvonne Cederholm SGML-taggning a
Page 17: 17 ken beror antagligen på att Jam
Page 21 and 22: 21 huvudorden bör man enligt min m
Page 23 and 24: 23 Beskrivningen av sammansättning
Page 25 and 26: 25 innehåller uppgifter om uttal,
Page 27 and 28: 27 Etymologi Etymologin utgör slut
Page 29 and 30: 29 Efter att vi taggat årtalsupgif
Page 31 and 32: 31 Figur 2 visar ett diagram över
Page 33 and 34: 33 Lena Rogström Taggning i prakti
Page 35: 35 Tveksamma fall Följande exempel
Page 38 and 39: 38 Figur 1: Gränssnittet på WWW t
Page 40 and 41: 40 Figur 4: Artikel ”ADAGIO” fr
Page 43 and 44: 43 Lena Rogström Den ortografiska
Page 45: 45 Även vad beträffar dessa forme
Page 48 and 49: 48 Figur 2: SAOB-artikel i HTML-for
Page 50 and 51: 50 Ett annat problem man måste ta
Page 52 and 53: 52 Urvalskriterier Diskussionen om
Page 54 and 55: 54 Excerperingen SAOB:s fundament
Page 56 and 57: 56 Oxfordordbokens gamla material t
Page 59 and 60: 59 Lena Rogström OSA-databasen i p
Page 61 and 62: 61 maliseringen i OSA-databasen har
Page 63 and 64: 63 Följande exempel ur Serenius or
Page 65 and 66: 65 I förordet till Illustrerad Sve
Page 67 and 68: 67 Rudolf Rydstedt Etymologierna SA
Page 69 and 70:
69 Tabell 6: Vissa fördelningar pe
Page 71 and 72:
71 törerna Ekbo och Loman en marke
Page 73 and 74:
73 Lars Svensson Att söka i Språk
Page 75:
75 SAOB på Internet Följande info
Page 79:
Research Reports from the Departmen
show all

Om svar anhÃ¥lles - Svenska Akademiens ordbok - GÃ¶teborgs ...

Create successful ePaper yourself

Delete template?

Save as template?