Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Om svar anhålles - Svenska Akademiens ordbok - Göteborgs ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
13<br />
Rudolf Rydstedt<br />
Inläsningen<br />
En av de bärande tankarna bakom OSA-projektet var att introduktionen av optisk läsning<br />
(OCR-teknik) gjorde det realistiskt att göra om SAOB till en lexikalisk databas (jämför<br />
“OSA Ett datalingvistiskt projekt” på sidan 7). Det som gjorde den optiska läsningen tilltalande<br />
var att den framstod som ett ekonomiskt mycket fördelaktigt alternativ till manuell<br />
inkodning. De praktiska prov som utfördes i samband med upphandlingen av läsare var<br />
också lovande: maskinen markerade osäker läsning en gång per 200 tecken och korrigering<br />
behövdes en gång per 2.000 tecken. Läshastigheten var 20 tecken per sekund. År 1982<br />
omfattade SAOB närmare 200.000.000 tecken. Med 25 timmars effektiv drift per vecka<br />
skulle därmed inläsningen totalt kräva 111 veckors arbete, i storleksordningen tre år. Det<br />
praktiska arbetet kom igång våren 1983, men inläsningen tog inte slut 1986 utan tio år<br />
senare, i januari 1996. Utan några jämförelser i övrigt, är det lätt att notera en förlängning<br />
med ungefär samma faktor som den framställandet av själva <strong>ordbok</strong>en har genomgått.<br />
Den yttersta orsaken till att inläsningen kom att ta betydligt längre tid än förväntat<br />
var att utrustningen fungerade sämre än vad proven före upphandlingen hade givit anledning<br />
att förmoda. Det visade sig snart vara nödvändigt med ett omfattande korrekturarbete<br />
för att det inlästa materialet skulle kunna användas som underlag för vidare<br />
bearbetningar. Till en början utfördes både inläsning och korrektur internt inom projektet.<br />
Med tiden skedde dock en övergång till att utnyttja externa leverantörer i stället.<br />
Dessa åtog sig nämligen att leverera materialet till mycket låg kostnad mot att de kunde<br />
använda SAOB som en s.k. ”strumpsticka”, ett lägre prioriterat arbete som används för<br />
att jämna ut beläggningen. Fördelen för projektets del var att kostnaden blev lägre än om<br />
inläsning och korrektur hade skett i egen regi. Nackdelen var att möjligheterna att förutse<br />
precis när det inlästa materialet skulle komma att levereras minskade. Det som gjorde att<br />
en inläsning med låg intensitet under längre tid var rimlig var att det inledande arbetet<br />
med att fånga SAOB:s struktur (diskuteras i “SGML-taggning av SAOB” på sidan 15 och<br />
framåt) utfördes med en så begränsad personalinsats (under tre heltidsekvivalenter) att<br />
ett lägre tempot i materialleverenserna aldrig behövde bli en faktiskt begränsande faktor.<br />
En naturlig fråga är vilka implikationer som erfarenheterna från OSA-projektet har för<br />
datafångsten i andra projekt. En viktig erfarenhet är att det inte går att ge ett enkelt och<br />
generellt giltigt <strong>svar</strong> på frågan om det lönar sig med optisk läsning eller inte. Till en del<br />
beror det på att den allmänna tekniska utvecklingen gör att den optiska läsningen med<br />
tiden har blivit billigare och säkrare. Den största skillnaden mellan idag och början av 80-<br />
talet ligger dock i sänkta kostnader för utrustningen, inte i höjd läskvalitetet. Detta är<br />
olyckligt med tanke på projekt där stora mängder text skall fångas då kostnaden för utrustning<br />
spelar ganska liten roll för totalkostnaden i dessa jämfört med läskvaliteten och<br />
den därav beroende kostnaden för efterkorrigeringar. Däremot är naturligtvis låg initialkostnad<br />
väsentlig i projekt där små textmängder skall fångas. En tumregel kan vara att<br />
man bör ha starka skäl för att inte undersöka hur väl optisk läsning fungerar om den text<br />
som skall fångas är mer än något dussin sidor lång. Men det är inte bara den optiska läsningen<br />
som har utvecklats sedan 80-talets början. En väsentlig faktor är att även verktygen<br />
för manuell inkodning har genomgått en betydande utveckling. Det är tankeväckande<br />
att persondatorn var ny och föga spridd när OSA-projektet inleddes. En indirekt konsekvens<br />
av det var att inkodning i tredje världen inte förekom i nämnvärd omfattning vid<br />
den tiden. Idag är manuell inkodning i låglöneländer en viktig konkurrent till optisk inläsning.