11.07.2015 Views

Vývoj územně správního členění a dominií od pol. 17. stol. na ...

Vývoj územně správního členění a dominií od pol. 17. stol. na ...

Vývoj územně správního členění a dominií od pol. 17. stol. na ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

5.3.3. Návrh a tvorba databázepoměrně velkou manuální korekci. Úspěšnost tohoto rozpoznání se může posoudit pomocí přílohyč.4, str. [66]. Program měl problémy s českými písmeny (hlavně s háčky). Výsledek ještězhoršovala kvalita papíru, přes který v některých místech prosvítal text z opačné strany.Další možný postup digitalizace nebyl znám a tak se uvedený druhý způsob aplikoval <strong>na</strong>vybrané kraje z berní ruly. Potřebné listy se <strong>na</strong>skenovaly a <strong>na</strong> každý list jednotlivě byl spuštěnrozpoznávací program. Po tomto rozpoznání se přistoupilo k opravám chyb a současné úpravětextu pro následující krok. Chybovost programu zachycuje č.4, str. [66], <strong>na</strong> které je zobrazenneupravený výstup z programu FinePrint. Pomocí následující č.5, str. [66] <strong>na</strong> které je zachycenstav po úpravě, lze srov<strong>na</strong>t míru oprav souboru, kterou bylo třeba provést.Skenování je poměrně rychlá záležitost, záleží samozřejmě <strong>na</strong> typu skeneru a vlastní obsluze.Manuální korekce je zato zdlouhavá práce, velice náročná pro zrak. Pokusím se zpětně <strong>od</strong>hadnoutčasovou náročnost těchto kroků. Skenování jedné strany může průměrně trvat pět až sedm minut,následné rozpoznání textu včetně oprav chyb a drobných úprav se může pohybovat v rozmezípatnácti a pětadvaceti minutami, výjimečně i více, v závislosti <strong>na</strong> rozsahu textu, čitelnosti achybovosti programu. Musíme uvažovat i závěrečnou celkovou kontrolu všech stran. To z<strong>na</strong>menápřibližně dvacet pět minut <strong>na</strong> stránku převedenou z tištěné formy do digitální. Na kraj P<strong>od</strong>brdský,který zabírá 24 stran, by časový <strong>od</strong>had mohl být přibližně 10 h<strong>od</strong>in a <strong>na</strong> kraj Plzeňský, který jerozmístěn <strong>na</strong> 66 stranách, by se mohl pohybovat kolem 28 h<strong>od</strong>in.Tabulka 5.1. Digitalizace berní rulyKrajPlzeňskoP<strong>od</strong>brdskoPočet stran6624Časová náročnost [člověkoh<strong>od</strong>.]28105.3.3. Návrh a tvorba databázePro další a<strong>na</strong>lýzu získaných dat a jejich následné využití bylo potřeba zjistit jejich nejvh<strong>od</strong>nějšíčlenění. Takto uspořádaná data do vh<strong>od</strong>né struktury se následně uložila do <strong>na</strong>vržené relačnídatabáze. Při její přípravě byla s<strong>na</strong>ha <strong>na</strong>vrhnout ji dostatečně obecně, aby se dala libovolněrozšiřovat pro účely dalšího užití získaných dat a případně se dala do budouc<strong>na</strong> propojit s prostorovýmidaty. Data se musela logicky rozdělit po jednotlivých složkách do vh<strong>od</strong>ných skupin.Hlavními skupi<strong>na</strong>mi byly již zmíněné obce, dominia, stavy, kraje a doplňkové skupiny soudníchokresů a údajů o číslech stran, pro které byly zvoleny jednotlivé tabulky s <strong>od</strong>povídajícími názvy.Jako systém pro správu relační databáze byl zvolen server Firebird v aktuální verzi 1.5.3pro jeho s<strong>na</strong>dnou instalaci a výbornou p<strong>od</strong>poru SQL standardu. Jako vh<strong>od</strong>ný prostředek propřev<strong>od</strong> zdigitalizovaných dat do <strong>na</strong>vržené relační databáze se jevil objektově orientovanýskriptovací jazyk Python, který je volně šiřitelný. Dalším kandidátem byl jazyk PERL, oprotikterému však Python vyniká čitelnějším a elegantnějším kódem. Python má silnou p<strong>od</strong>porupráce s řetězci z<strong>na</strong>ků i regulárními výrazy. Těchto vlastností bylo využito při přev<strong>od</strong>u částečněpřipravených zdigitalizovaných dat do <strong>na</strong>vržené databázové struktury.Soubor zdigitalizovaných dat byl doplněn o z<strong>na</strong>čky, pomocí kterých program mohl identifikovatstrukturu zpracovávaných dat. Typy použitých z<strong>na</strong>ček nejlépe zachycuje č.5, str. [66].Jednotlivé strany byly uvozeny číslem strany v hra<strong>na</strong>tých závorkách. Hvězdičkami byly oz<strong>na</strong>čenyřádky s informacemi o stavu majitele, názvu dominia a jmé<strong>na</strong> soudního okresu, pokudbylo vypsáno v samostatné řádce. Následovaly dva sloupce názvů obcí s pův<strong>od</strong>ním a současným49

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!