25.12.2014 Views

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

13<br />

Rudolf Rydstedt<br />

Inläsningen<br />

En av de bärande tankarna bakom OSA-projektet var att introduktionen av optisk läsning<br />

(OCR-teknik) gjorde det realistiskt att göra om SAOB till en lexikalisk databas (jämför<br />

“OSA Ett datalingvistiskt projekt” på sidan 7). Det som gjorde den optiska läsningen tilltalande<br />

var att den framstod som ett ekonomiskt mycket fördelaktigt alternativ till manuell<br />

inkodning. De praktiska prov som utfördes i samband med upphandlingen av läsare var<br />

också lovande: maskinen markerade osäker läsning en gång per 200 tecken och korrigering<br />

behövdes en gång per 2.000 tecken. Läshastigheten var 20 tecken per sekund. År 1982<br />

omfattade SAOB närmare 200.000.000 tecken. Med 25 timmars effektiv drift per vecka<br />

skulle därmed inläsningen totalt kräva 111 veckors arbete, i storleksordningen tre år. Det<br />

praktiska arbetet kom igång våren 1983, men inläsningen tog inte slut 1986 utan tio år<br />

senare, i januari 1996. Utan några jämförelser i övrigt, är det lätt att notera en förlängning<br />

med ungefär samma faktor som den framställandet av själva <strong>ordbok</strong>en har genomgått.<br />

Den yttersta orsaken till att inläsningen kom att ta betydligt längre tid än förväntat<br />

var att utrustningen fungerade sämre än vad proven före upphandlingen hade givit anledning<br />

att förmoda. Det visade sig snart vara nödvändigt med ett omfattande korrekturarbete<br />

för att det inlästa materialet skulle kunna användas som underlag för vidare<br />

bearbetningar. Till en början utfördes både inläsning och korrektur internt inom projektet.<br />

Med tiden skedde dock en övergång till att utnyttja externa leverantörer i stället.<br />

Dessa åtog sig nämligen att leverera materialet till mycket låg kostnad mot att de kunde<br />

använda SAOB som en s.k. ”strumpsticka”, ett lägre prioriterat arbete som används för<br />

att jämna ut beläggningen. Fördelen för projektets del var att kostnaden blev lägre än om<br />

inläsning och korrektur hade skett i egen regi. Nackdelen var att möjligheterna att förutse<br />

precis när det inlästa materialet skulle komma att levereras minskade. Det som gjorde att<br />

en inläsning med låg intensitet under längre tid var rimlig var att det inledande arbetet<br />

med att fånga SAOB:s struktur (diskuteras i “SGML-taggning av SAOB” på sidan 15 och<br />

framåt) utfördes med en så begränsad personalinsats (under tre heltidsekvivalenter) att<br />

ett lägre tempot i materialleverenserna aldrig behövde bli en faktiskt begränsande faktor.<br />

En naturlig fråga är vilka implikationer som erfarenheterna från OSA-projektet har för<br />

datafångsten i andra projekt. En viktig erfarenhet är att det inte går att ge ett enkelt och<br />

generellt giltigt <strong>svar</strong> på frågan om det lönar sig med optisk läsning eller inte. Till en del<br />

beror det på att den allmänna tekniska utvecklingen gör att den optiska läsningen med<br />

tiden har blivit billigare och säkrare. Den största skillnaden mellan idag och början av 80-<br />

talet ligger dock i sänkta kostnader för utrustningen, inte i höjd läskvalitetet. Detta är<br />

olyckligt med tanke på projekt där stora mängder text skall fångas då kostnaden för utrustning<br />

spelar ganska liten roll för totalkostnaden i dessa jämfört med läskvaliteten och<br />

den därav beroende kostnaden för efterkorrigeringar. Däremot är naturligtvis låg initialkostnad<br />

väsentlig i projekt där små textmängder skall fångas. En tumregel kan vara att<br />

man bör ha starka skäl för att inte undersöka hur väl optisk läsning fungerar om den text<br />

som skall fångas är mer än något dussin sidor lång. Men det är inte bara den optiska läsningen<br />

som har utvecklats sedan 80-talets början. En väsentlig faktor är att även verktygen<br />

för manuell inkodning har genomgått en betydande utveckling. Det är tankeväckande<br />

att persondatorn var ny och föga spridd när OSA-projektet inleddes. En indirekt konsekvens<br />

av det var att inkodning i tredje världen inte förekom i nämnvärd omfattning vid<br />

den tiden. Idag är manuell inkodning i låglöneländer en viktig konkurrent till optisk inläsning.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!