Predspracovanie obrazu pre optické rozpoznávanie ... - TUKE

Technická univerzita v Košiciach 

Fakulta elektrotechniky a informatiky 

Katedra kybernetiky a umelej inteligencie 

Predspracovanie obrazu pre optické 

rozpoznávanie tlačeného textu pomocou 

neurónových sietí 

Vedúci diplomovej práce: 

Ing. Rudolf Jakša, PhD 

Diplomová práca 

Študijný odbor: Umelá inteligencia 

Konzultant diplomovej práce: 

Ing. Rudolf Jakša, PhD 

Košice 2006 

Diplomant: 

Miroslav NOHAJ

Čestné vyhlásenie 

Vyhlasujem, že som diplomovú prácu vypracoval samostatne s použitím 

uvedenej odbornej literatúry. 

Košice 02. 05. 2006 

........................... 

Vlastnoručný podpis

Poďakovanie 

Chcem poďakovať môjmu konzultantovi a vedúcemu diplomovej práce 

Ing. Rudolfovi Jakšovi, PhD. za obdornú pomoc pri vypracúvavaní tejto dip- 

lomovej práce, za konštruktívne návrhy a pripomienky. 

Jemu a tiež Ing. Matúšovi Užákovi patrí poďakovanie za pomoc s typogra- 

fickým prostredím L ATEX. 

Tiež chcem poďakovať za podporu a pochopenie mojej rodine počas práce 

na tejto diplomovej práci.

Názov práce: Predspracovanie obrazu pre optické rozpoznávanie tlače- 

ného textu pomocou neurónových sietí 

Pracovisko: Katedra kybernetiky a umelej inteligencie, FEI TU v Ko- 

šiciach 

Autor: Miroslav NOHAJ 

Vedúci DP: Ing. Rudolf Jakša, PhD. 

Konzultant DP: Ing. Rudolf Jakša, PhD. 

Dátum: 02. 05. 2006 

Kľúčové slová: neurónová sieť, spätné šírenie chyby, optické rozpoznáva- 

nie znakov, tlačený text 

Anotácia: Hlavnou úlohou tejto diplomovej práce je vytvoriť te- 

oretický a praktický základ pri predspracovaní tlačeného 

textu pred optickým rozpoznávaním znakov pomocou do- 

predných neurónových sietí.

Thesis title: Image preprocessing for optical character recognition of 

printed text using Neural Networks 

Department: Department of cybernetics and artificial inteligence, FEI 

TU Košice 

Author: Miroslav NOHAJ 

Supervisor: Ing. Rudolf Jakša, PhD. 

Tutor: Ing. Rudolf Jakša, PhD. 

Date: 02. 05. 2005 

Keywords: Neural Network, Backpropagation of Error, optical cha- 

racter recognition, printed text 

Annotation: Primary task of this master’s thesis is to create a theore- 

tical and practical basis of preprocessing of printed text 

for optical character recognition using forward-feed neural 

networks.

Predhovor 

Obrovské skoky vo vývoji informačných technológií sú udivujúce aj pre ľudí 

mladej generácie, ktorí sa do tejto modernej doby narodili. Predstava toho, 

že počítač bude schopný prečítať text, ktorý bude pred neho položený na 

kúsku papiera, bola ešte len nedávno považovaná za vizionársku, dnes je 

však skutočnosťou. Vďačíme za to práve nárastu výkonu počítačov a veľkosti 

operačnej pamäti. Tento nárast tiež spôsobil, že je možné do tohoto čítania 

vložiť viac umu a šikovnosti ako kedysi a tak aj texty, ktoré boli pre počítač 

nečitateľné, dnes nie sú preňho veľkým problémom. 

Mnohé z programov pre optické rozpoznávanie znakov majú rôzne metódy 

predspracovania obrazu, ktorý nie je priamo vhodný na rozpoznávanie. Bol 

som však prekvapený tým, že žiadny program nemá takú metódu predspra- 

covania obrazu, ktorá by umožnovala rozpoznať aj taký obraz, ktorý nemá 

pozadie od popredia separovateľné jednoduchým prahovaním. Teda stačí, 

aby na čierno-bielej tlačiarni bol vytlačený svetlo-sivý text s tmavo-sivým 

pozadím a žiadna z dostupných metód predspracovania obrazu neuspeje a 

tak neuspeje žiadny program pre optické rozpoznávanie znakov. 

Keďže som sa stretol s prípadmi, v ktorých som potreboval práve takýto 

text nechať rozpoznať, mal som osobnú motiváciu v realizácii takejto práce, 

ktorá by mi to umožnila. Z dostupných technológií umelej inteligencie som 

pre túto problematiku volil neurónové siete, pretože tie sa ukázali ako najv- 

hodnejší prostriedok pre samo-adaptujúcu sa dvojrozmernú filtráciu obrazu. 

V tejto práci je teda možné dočítať sa o ich aplikácii do problematiky pred- 

spracovania obrazu a je možné zistiť nutné podmienky pre ich funkčnosť v 

tejto oblasti.

Obsah 

Formulácia úlohy 1 

1 Úvod do optického rozpoznávania obrazu 2 

1.1 Rozdiel medzi optickým a digitálnym rozpoznávaním znakov . 2 

1.2 Trénovanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

1.3 Stručná história ORZ . . . . . . . . . . . . . . . . . . . . . . . 3 

1.4 Metódy ORZ . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2 Prehľad metód predspracovania obrazu 7 

2.1 Prahovanie podľa histogramu . . . . . . . . . . . . . . . . . . 8 

2.2 Vyhladzovanie a zostrovanie obrazu . . . . . . . . . . . . . . . 12 

2.3 Detekcia hrán . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.4 Odstraňovanie šumu . . . . . . . . . . . . . . . . . . . . . . . 16 

2.5 Inverzia farieb . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

3 Návrh predspracovania obrazu pomocou neurónovej siete 17 

3.1 Neurónová sieť ako prostriedok predspracovania obrazu . . . . 17 

3.2 Algoritmus metódy spätného šírenia chyby . . . . . . . . . . . 20 

3.3 Návrh aplikácie predspracovania obrazu pomocou neurónovej 

siete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4 Experimenty na generovanom obraze 28 

4.1 Generovanie obrazových dát . . . . . . . . . . . . . . . . . . . 28 

4.2 Vytváranie trénovacej a testovacej množiny . . . . . . . . . . . 29 

4.3 Závislosť úspešnosti učenia na kombinácii popredia a pozadia 

obrazu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

4.4 Závislosť úspešnosti učenia na veľkosti vstupnej vrstvy . . . . 34 

4.5 Závislosť úspešnosti učenia na veľkosti skrytej vrstvy . . . . . 36 

4.6 Závislosť úspešnosti učenia sa na inicializácii neurónovej siete . 38 

4.7 Vplyv šumu na schopnosť učenie sa neurónovej siete . . . . . . 40

5 Experimenty na snímanom obraze 44 

5.1 Závislosť úspešnosti učenia na veľkosti vstupnej vrstvy . . . . 45 

5.2 Závislosť úspešnosti učenia sa na veľkosti skrytej vrstvy . . . . 49 

5.3 Vplyv veľkosti trénovacej množiny na kvalitu spracovania obrazu 51 

5.4 Vplyv distribúcie prvkov v trénovacej množine na kvalitu spra- 

covania obrazu . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

5.5 Závislosť výsledkov spracovania od poradia lokálneho minima . 60 

5.6 Porovnanie úspešnosti rôznych programov pre optické rozpoz- 

návanie znakov . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

6 Celkové zhodnotenie 65 

7 Záver 67 

Zoznam obrázkov 70 

Zoznam tabuliek 73 

A Ukážka aplikácie ’Image PreProcessor’ 74 

B Abstrakt diplomovej práce v anglickom jazyku 81

FEI TU v Košiciach Diplomová práca List č. 1 

Formulácia úlohy 

Osnova práce: 

1. Vypracovať úvod do problematiky optického rozpoznávania znakov a 

prehľad metód predspracovania obrazu pre optické rozpoznávanie zna- 

kov. 

2. Navrhnúť spôsob predspracovania s využitím neurónových sietí. 

3. Implementovať navrhnutý systém a simulátor tlače textu 

4. Realizovať experimenty za účelom nastavenia systému a porovnania 

jednotlivých spôsobov prístupu. 

5. Zhodnotiť realizované experimenty a možné praktické využitie. 

6. Vypracovať dokumentáciu podľa pokynov vedúceho diplomovej práce. 

Celá práca je rozdelená do piatich kapitol, pričom prvé dve kapitoly sú 

informatívneho charakteru z dôvodu uvedenia čitateľa do problematiky optic- 

kého rozpoznávania znakov, potreby a metódy predspracovania obrazu. Tieto 

dve kapitoly tiež objasňujú dôvody vypracovania tejto práce. 

Tretia kapitola je zameraná na popis využitia neurónových sietí ako pros- 

triedkov predspracovania obrazu a teoretický podklad s tým súvisiaci. 

Kapitoly 4 a 5 obsahujú experimenty realizované za účelom nastavenia 

systému predspracovania obrazu, pričom kapitola 4 obsahuje experimenty 

realizované na generovanom obraze a kapitola 5 obsahuje experimenty reali- 

zované na reálnom, snímanom obraze.


1 Úvod do optického rozpoznávania obrazu 

Optické rozpoznávanie znakov (anglicky: Optical character recognition, skrá- 

tene: OCR) je spôsob, ktorým počítače menia obraz s tlačeným textom (väč- 

šinou získaný zo scanneru) na editovateľný text (kde každý znak je repre- 

zentovaný jedným bytom). Optické rozpoznávanie znakov (ďalej len ORZ) 

sa začalo skúmať ako časť umelej inteligencie a počítačového videnia. 

Aj keď výskum ORZ ďalej pokračuje ako časti umelej inteligencie aj 

na akademickej pôde, mnoho firiem a jednotlivcom sa sústredilo hlavne na 

implementáciu osvedčených techník pre ORZ. 

1.1 Rozdiel medzi optickým a digitálnym rozpoznáva- 

ním znakov 

V oblasti rozpoznávania znakov sa podľa [9] rozlišovali dve základné spôsoby: 

- optické rozpoznávanie znakov pomocou zrkadiel, šošoviek, atď. 

- digitálne rozpoznávanie znakov pomocou scannerov a počítačových al- 

goritmov 

Keďže v súčastnosti existuje už len veľmi málo skutočne optických tech- 

ník, boli tieto dve oblasti zlúčené a teda aj digitálne rozpoznávanie znakov 

sa dnes označuje ako optické rozpoznávanie znakov. 

1.2 Trénovanie 

Prvé systémy ORZ vyžadovali trénovanie programu pre ORZ aby vedeli daný 

font rozpoznať. Moderné programy pre ORZ už dokážu rozpoznať väčšinu 

fontov s veľkou presnosťou. Niektoré z týchto programov dokážu vytvoriť 

dokument, ktorý má rovnaké rozloženie ako pôvodný dokument (zachovanie 

odstavcov, tabuliek, obrázkov). V súčasnosti sa používa ORZ pre rozpozná- 

vanie tlačeného textu, ručne písaného textu a nôt.


Obr. 1: Priebeh rozpoznania znakov na obraze 

1.3 Stručná história ORZ 

Podľa [9] v roku 1950 bol David Shepard, ktorý bol šifrantom v AFSA (agen- 

túra predchádzajúca NSA), požiadaný Frankom Rowlettom, ktorý prelomil 

japonský fialový diplomatický kód, aby spolupracoval s Dr. Louisom Tordel- 

lom na návrhu automatizovanej procedúry pre túto agentúru. To zahrňovalo 

problém prevedenia tlačených správ na strojový jazyk pre spracovanie počí- 

tačom. Shepard sa rozhodol, že musí byť možné postaviť ’Zariadenie’, ktoré 

toho bude schopné a s pomocou Harveyho Cooka v jeho podkrovnej izbe zho- 

tovili zariadenie po večeroch a víkendoch. Oznámili to 27. apríla 1951 noviny 

’Washington Daily News’ a 26. decembra 1953 noviny ’New York Times’ po 

tom, ako bol vydaný patent 2,663,758. Shepard potom založil firmu Intel- 

ligent Machines Research (ďalej len IMR), ktorá dodala prvý systém ORZ 

použitý pre komerčné účely. Aj keď Zariadenie a neskoršie IMR systémy po- 

užívali analýzu obrazu miesto porovnávania znakov a dokázali spracovať aj 

obrazy s malými zmenami fontov, Zariadenie bolo obmedzené na dostatočne


presné vertikálne umiestnenie záznamu, pričom nasledujúce komerčné IMR 

scannery analyzovali znaky kdekoľvek v snímanej oblasti, čo je potrebné pre 

bežné dokumenty. 

Prvý komerčný systém bol nainštalovaný do Readers Digest v roku 1955, 

ktorý bol o mnoho rokov neskôr darovaný inštitúcii Smithsonian (americká 

vzdelávacia a historická inštitúcia), kde bol vystavený. Druhý systém bol pre- 

daný spoločnosti Standart Oil Company v Kalifornii na čítanie vyrazených 

čísiel na kreditných kartách na účtovacie účely. Mnoho ďalších systémov bolo 

predaných ďalším ropným spoločnostiam. Ďalšie IMR systémy predané kon- 

com šesťdesiatych rokov boli čítačky ústrižkov účtov pre Ohio Bell Telephone 

Company a snímače stránok pre americké letectvo pre čítanie a prenášanie 

správ cez ďalekopisy. IBM a iné firmy kupovali licencie na Shepardove pa- 

tenty ORZ. 

Poštové služby spojených štátov používali zariadenia ORZ na triedenie 

pošty od roku 1965 založené na technológii navrhnutej hlavne vynálezcom Ja- 

cobom Rabinowom. Kanadská pošta používala systémy ORZ od roku 1971. 

Systémy ORZ čítali meno a adresu adresáta v prvom mechanizovanom trie- 

diacom stredisku a tlačili smerovací čiarový kód založený na poštovom sme- 

rovacom čísle na obálku. Potom listy museli byť len rozriedené v ďalších 

strediskách pomocou lacnejších triedičov, ktoré už čítali len čiarový kód. Pre 

zabránenie miešania sa čiarového kódu s človekom písanou adresou bol pou- 

žitý špeciálny atrament ktorý je zreteľne viditeľný pod UV svetlom. Tento 

atrament je pod normálnym svetlom oranžový. 

1.4 Metódy ORZ 

Aj pre ORZ platí, že je možné ho realizovať viac ako jednou metódou. Je 

vhodné spomenúť najčastejšie používané metódy, pretože každá z týchto me- 

tód má svoje výhody a nevýhody. Výber metódy následne ovplyvňuje pod- 

porné procesy a metódy a tiež výsledky dosiahnuté danou metódou. 

Podľa [10, 11, 12] sú najčastejšie metódy ORZ tieto: 

- maticové porovnávanie obrazu so šablónami


- extrakcia vlastností z obrazu 

- rozpoznávanie pomocou neurónových sietí 

- iné algoritmy a mechanizmy 

- hybridné algoritmy 

Maticové porovnávanie obrazu so šablónami funguje tak, že každá 

časť obrazu, kde sa predpokladá že sa nachádza znak, sa bod po bode po- 

rovnáva so šablónou každého písmena a za rozpoznaný znak sa považuje 

ten, ktorého šablóna dosiahla pri porovnávaní najvyššiu a postačujúcu mieru 

podobnosti obrazu so šablónou. Nevýhodou takéhoto rozpoznávania je silná 

závislosť úspešnosti rozpoznania na natrénovanom fonte, tiež závislosť úspeš- 

nosti rozpoznania na presnej horizontálnej orientácii písmena. 

Podľa [11] ORZ založené na extrakcii vlastností z obrazu pozostáva 

z dvoch krokov: 

1. samotný proces extrakcie vlastností z obrazu, čo je vlastne zistenie prí- 

tomnosti čiar, kriviek, pretnutí čiar, prázdnych oblastí a ich orientácie 

a umiestnenia v skúmanom obraze 

2. rozpoznanie písmen na základe kombinácie vlastností a ich pozície a 

umiestnenia z prvého kroku 

Výhodou takéhoto ORZ je, že znaky alebo celé riadky môžu byť natočené 

(nemusia byť presne horizontálne umiestnené) a napriek tomu môžu byť takto 

správne rozpoznané. 

ORZ pomočou neurónových sietí sa spôsobom fungovania podobajú 

maticovému porovnávaniu obrazu so šablónami, ale v tomto prípade systém 

neobsahuje šablóny písmen priamo, ale tie sú uchované vo váhach synapsií 

neurónových sietí, kde sa dostanú vo fáze trénovania neurónovej siete. Výho- 

dou tejto metódy je, že ak je vhodne použitá, môže byť oveľa flexibilnejšia a 

efektívnejšia ako ostatné metódy. 

Hybridné algoritmy ORZ kombinujú viaceré metódy, a to buď:


- sériovo - metódy sú použité za sebou (napr. najprv sa robí extrakcia 

vlastností z obrazu a v druhej fáze sa použije rozpoznanie písmen ne- 

urónovou sieťou podľa vlastností získaných z obrazu) 

- paralelne - každá z metód sa aplikuje na obraz zvlášť a ako výsledok 

rozpoznania sa použije buď najlepší výsledok, alebo sa výsledky sprie- 

merujú a použije sa priemer 

Kombináciou viacerých algoritmov sa dosahuje lepšia presnosť a flexibilita. 

Na celkovú kvalitu a úspešnost ORZ vplýva kvalita zosnímaného 

obrazu a kvalita predspracovania obrazu. Dobré predspracovanie 

obrazu dokáže zlepšiť úspešnosť rozpoznania o 90%.


2 Prehľad metód predspracovania obrazu 

Táto časť diplomovej práce je zameraná na metódy spracovania a predspra- 

covania obrazu pred optickým rozpoznávaním znakov. Je potrebné mať zá- 

kladné znalosti o týchto metódach, pretože väčšina programov pre optické 

rozpoznávanie znakov z obrazu: 

- potrebuje pre korektné rozpoznanie znakov to, aby pozadie za znakmi 

bolo čo najviac svetlé (najlepšie biele) a znaky samotné boli dostatočne 

tmavé, 

- obsahuje v sebe rôzne metódy predspracovania obrazu. 

Väčšina bežných metód predspracovania obrazu je však účinná len pre nie- 

ktoré druhy obrazu a teda je tiež dôvodom, prečo programy zlyhávajú v 

optickom rozpoznávaní znakov. 

Bežné metódy predspracovania obrazu v programoch pre optické rozpozná- 

vanie znakov sú: 

- prahovanie podľa histogramu 

- vyhladzovanie 

- zostrovanie 

- detekcia hrán 

- odstraňovanie šumu 

- inverzia farieb 

- iné číslicové dvojrozmerné filtre 

V popise jednotlivých metód predspracovania sa bude hovoriť o obraze 

vždy ako o množine bodov definovaných jednou hodnotou - odtieňom šedi.


Je to preto, lebo väčšina proramov pre optické rozpoznávanie znakov pra- 

cuje buď s obrazom v odtieňoch šedi, alebo s obrazom monochromatickým; 

zároveň tým uľahčím popis jednotlivých metód. 

Existujú ďalšie metódy predspracovania obrazu pred optickým rozpoz- 

návaním (napríklad otočenie, rozdelenie obrazu, atď.), ale tieto metódy tu 

nebudú popísané, pretože sa už nevzťahujú na spracovanie obrazu zmenou 

úrovne šedi bodov, ale jedná sa o metódy spôsobujúce zmenu polohy bodov 

v obraze. Táto diplomová práca je zameraná práve na metódy, ktoré menia 

úroveň šedi obrazových bodov. 

2.1 Prahovanie podľa histogramu 

Histogram je definovaný ako graf zobrazujúci počet výskytov jednotlivých 

odtieňov šedi, pričom vľavo sa nachádza výskyt čiernej farby a postupným 

prechodom doprava sa zobrazuje výskyt svetlejších farieb až po bielu, ktorá 

sa nachádza úplne vpravo. 

kde: 

Pre histogram musí platiť vzťah: 

N= 

255 

 

k=0 

- N - celkový počet obrazových bodov (výška * šírka) 

- k - poradie odtieňu šedi (pre bielu farbu je k=0, pre čiernu farbu je 

k=255) 

- hk - počet výskytov odtieňu šedi s poradím k 

Graf histogramu je zobrazený tak, že jednotlivé počty výskytov sú nor- 

malizované normalizačným koeficientom, aby odtieň šedi s najväčším počtom 

výskytu v skúmanom obraze mal maximálnu požadovanú výšku v grafe. 

hk 

(1)


V ideálnom prípade je farba pozadia textu a farba textu samotného roz- 

dielna, navyše pozadie a popredie sú tvorené len jednou farbou(viď obrázok 

2 - vľavo), čo sa v histograme prejaví tak, že je vidno len dve zvislé čiary 

(viď obrázok 2 - v strede). 

Ak je pozadie tvorené kombináciou viacerých odtieňov šedi a písmo sa- 

motné má napríklad zahladené hrany (tzv. anti-aliasing) (viď obrázok 3 - 

vľavo), histogram zobrazuje dve oblasti - jedna vyššia, ktorá predstavuje po- 

zadie (pretože pozadie tvorí približne 90% obrazu) a jedna nižia oblasť, ktorá 

predstavuje výskyt bodov textu (tie majú pokrytie zvyšných 10% obrazu) 

(viď obrázok 3 - v strede). 

Po vytlačení obrazu čierno-bielou tlačiarňou, na ktorom je svetlé pozadie 

a tmavé písmo, na papieri získame obraz, v ktorom sú zdanlivé odtieňe šedi 

vytvorené rôznymi vzormi (viď obrázok 4 - vľavo). Na obraze sa v skutočnosti 

nachádza len jedna farba (čierna), histogram teda zobrazuje len jednu čiaru 

úplne vľavo (viď obrázok 4 - v strede). 

Po zosnímaní tlačeného obrazu scannerom získame obraz (viď obrázok 5 

- vľavo), na ktorom je mierne vidno aj pôvodné vzory, ktorými boli dosia- 

hnuté zdanlivé odtiene šedi, je však aj vidno odtiene šedi, ktoré v skutočnosti 

vytlačené neboli a vznikli optickým snímaním obrazu. Histogram takéhoto 

obrazu zobrazuje, že sa v takomto obraze nachádzajú rôzne odtieňe šedi (viď 

obrázok 5 - v strede). 

Prahovanie je metóda, pri ktorej sa stanoví prah rozhrania čiernej a 

bielej farby (teda najtmavšieho a najsvetlejšieho odtieňu šedi). Matematicky 

je prahovanie definované takto: 

kde: 

px,y= 0: px,y=T 

- px,y - odtieň šedi bodu na súradniciach [x,y]. 

- T - úroveň prahu 

(2)


Prahovanie podľa histogramu sa realizuje tak, že z obrázku sa najprv 

vytvorí histogram a na histograme sa určí úroveň šedi reprezentujúca pozadie 

a úroveň šedi reprezentujúca písmo: 

- obrázok 2 - pozadiu v histograme odpovedá pravá, vyššia čiara, písmu 

odpovedá ľavá, nižšia čiara 

- obrázok 3 - pozadiu v histograme odpovedá pravý, vyšší "kopček", 

písmu odpovedá ľavá, nižšia oblasť 

- obrázok 4 - kedže celý obrázok je tvorený len jedinou farbou (čiernou) 

a pozadie je biele, tak poprediu odpovedá čiara úplne vpravo a písmu 

odpodá čiara úplne vľavo. 

- obrázok 5 - písmo a pozadie sú tvorené z podobných odtieňov šedi, nie 

je možné odlíšiť ktorá časť histogramu zodpovedá pozadiu alebo písmu 

Následne sa zvolí prah v strede týchto dvoch úrovní šedi, čím sa docieli, že 

každý bod s odtieňom šedi pod úrovňou prahu bude čierny a každý bod s 

odtieňom šedi nad úrovňou prahu bude biely. 

Z obrázkov a histogramov je teda zrejmé, že: 

- pre obrázky 2 a 3 je prahovanie podľa histogramu jednoduché a účinné 

- pre obrázok 4 prahovanie podľa histogramu nemá zmysel 

- pre obrázok 5 je prahovanie podľa histogramu neúčinné, resp. nepou- 

žiteľné 

Táto diplomová práca je zameraná na spracovanie obrazu takého, aký je 

znázornený na obrázku 5.


Obr. 2: Zľava doprava: ideálny obraz, histogram obrazu, obraz spracovaný 

prahovaním 

Obr. 3: Zľava doprava: reálny obraz, histogram obrazu, obraz spracovaný 

prahovaním 

Obr. 4: Zľava doprava: tlačený obraz, histogram obrazu, obraz spracovaný 

prahovaním


Obr. 5: Zľava doprava: zosnímaný obraz, histogram obrazu, obraz spracovaný 

prahovaním 

2.2 Vyhladzovanie a zostrovanie obrazu 

Vyhladzovanie spôsobuje, že v obraze sa strácajú ostré prechody. Jedná 

sa o dolnopriepustný dvojrozmerný filter, ktorý spôsobuje zmiznutie vyšších 

frekvencií (prudkých prechodov) z obrazu. 

Vyhladzovanie je definované pomocou matice koeficientov, ktoré sa apli- 

kujú na obrazové body spracovaného obrazu. Ako je uvedené v [13], existujú 

viaceré metódy vyhladzovania obrazu, napríklad: 

⎛ 

1 

⎜ 9 

⎜ 1 

⎝ 9 

1 

9 

1 

9 

1 

9 

1 

9 

⎞ 

1 

9 ⎟ 

1 ⎟ 

9 ⎠ 

1 

9 

spriemerňovanie 

⎛ 

1 

⎜ 16 

⎜ 2 

⎝ 16 

1 

16 

2 

16 

4 

16 

2 

16 

⎞ 

1 

16 ⎟ 

2 ⎟ 

16 ⎠ 

1 

16 

Gaussove rozmazanie 

Zostrovanie spôsobuje, že v obraze sa vytvoria ostré prechody medzi 

farbami. Táto metóda má presne opačný účinok ako vyhladzovanie, dala by 

(3) 

(4)


sa nazvať inverznou metódou (nie je však celkom inverzná, pretože niektoré 

straty v obraze spôsobené vyhladzovaním nedokážu vrátiť). 

Zostrovanie je definované maticou3 ×3 koeficientov, ktoré sú aplikované 

na spracovaný obraz. Existujú viaceré metódy zostrovania, napríklad: 

⎛ 

⎜ 

⎝ 

0 - 2 

0 3 

- 2 

3 

11 

3 - 2 

3 

0 - 2 

3 0 

⎞ 

⎟ 

⎠ 

štandartné zostrovanie 

⎛ ⎞ 

-1 -1 -1 

⎜ ⎟ 

⎜ ⎟ 

⎜ -1 9 -1 ⎟ 

⎝ ⎠ 

-1 -1 -1 

odstraňovanie priemeru 

Vyhladzovanie a zostrovanie obrazu sa používa v tejto kombinácii, 

ak nie je pozadie a písmo tvorené spojitou oblasťou rovnakej (alebo veľmi 

podobnej) úrovne šedi. Vyhladenie teda z nespojitých bodov vytvorí spojitú 

oblasť a zostrenie zdôrazní rozdiely medzi pozadím a písmom. V niektorých 

prípadoch stačí použiť len vyhladenie. Za takýmto spracovaním väčšinou na- 

sleduje ešte prahovanie. 

Na obrázku 6 vidíme, že metóda vyhladenia pomohla pri spracovaní a 

pôvodný obraz mohol byť úspešne spracovaný prahovaním. Problematický je 

však obrázok 7, kde ani metóda vyhladzovania a zostrovania nepomohla pre 

úplné odstránenie pozadia bez straty častí písma. Je však vhodné si všimnúť, 

že metóda vyhladzovania zlepšila výsledky metódy prahovania na obrázku 7. 

2.3 Detekcia hrán 

V niektorých prípadoch spracovania obrazu môže pomôcť detekcia hrán ako 

metóda predspracovania obrazu. Metóda ma koeficienty matice vypočítané 

(5) 

(6)


Obr. 6: Zľava doprava: tlačený obraz, vyhladený obraz, obraz spracovaný 

prahovaním 

Obr. 7: Zľava doprava: zosnímaný obraz, vyhladený obraz, obraz spracovaný 

prahovaním


Obr. 8: Zľava doprava: zosnímaný obraz, obraz po vyhladení a detekcii hrán, 

obraz spracovaný prahovaním 

tak, aby v spracovanom obraze našli zmenu úrovne šedi a vo výstupnom 

obraze ju zvýraznili (platí pre hrany písma); ostatné časti obrázku, kde ne- 

dochádza k zmene úrovne šedi na výstupe ostanú svetlé (platí pre pozadie 

písma). Podľa [13] je matica detekcie hrán napríklad takáto: 

⎛ 

⎜ 

⎝ 

1 1 1 

0 0 0 

-1 -1 -1 

⎞ 

⎟ 

⎠ 

matica detekcie horizontálnych hrán 

Na obrázku 8 v strede vidíme obraz spracovaný detekciou hrán. Je vhodné 

poznamenať, že pred touto detekciou hrán bolo na zosnímanom obraze reali- 

zovať ešte metódu vyhladzovania, pretože pôvodný obraz bol veľmi členitý a 

detekcia hrán našla mnoho falošných hrán, ktoré neboli hranami písma. Na 

záver som ešte aplikoval metódu prahovania (obrázok 8 vpravo). 

Možno by bolo vhodné ešte na výstupný obraz použiť nejakú metódu 

odstraňovania šumu, aby sa stratili osamotené zhluky bodov, ktoré nepatria 

k písmu samotnému. Program pre optické rozpoznávanie znakov by sa však 

v tomto prípade musel vysporiadať z dutým písmom. 

(7)


2.4 Odstraňovanie šumu 

Metódu odstraňovania šumu môžeme realizovať viacerými spôsobmi. Najjed- 

noduchší spôsob je použitie vyhladzovania (viď strana 12), ten však veľmi 

tmavé body neodstráni, ale len ich zjemní (zmení ich úroveň šedi tak, že sú 

svetlejšie). Pre lepšie odstraňovanie šumu sa používajú dvojrozmerné dolnop- 

riepustné filtre (reprezentované maticou koeficientov3 ×3 a väčšou), alebo 

algoritmy na odstraňovanie šumu (v princípe fungujú tak, že rekurzívne počí- 

tajú počet susediacich tmavých bodov a ak je ich počet menší ako stanovený 

prah, tak danú oblasť bodov vymažú). 

Odstraňovanie sumu je vlastne pomocná metóda predspracovania obrazu, 

pretože kvalitu obrazu len dodatočne vylepšuje, ale nerobí hlavné zmeny v 

obraze. 

2.5 Inverzia farieb 

Inverzia farieb, resp. odtieňov šedi sa používa, ak je pozadie písma tmavšie, 

ako písmo samotné. Je potrebné urobiť inverziu farby bodov, ak pokrytie 

tmavými bodmi je viac ako 80% alebo pokrytie smetlými bodmi menšie ako 

20%. Pre inverziu platí vzťah: 

kde p je hodnota úrovne šedi obrazového bodu. 

p=255 − p (8)


3 Návrh predspracovania obrazu pomocou ne- 

urónovej siete 

Táto časť diplomovej práce je zameraná na predspracovanie obrazu pomocou 

neurónovej siete. Obsahuje technické detaily súvisiace s neurónovou sieťou, 

návrhom aplikácie a popis rozhodnutí učinených v jednotlivých častiach ná- 

vrhu tejto metódy a demonštračnej aplikácie. 

3.1 Neurónová sieť ako prostriedok predspracovania ob- 

razu 

Po predošlých častiach poznáme metódty predspracovania obrazu. Väčšina 

týchto metód bola založená na maticovom spracovaní obrazu, pričom bola 

definovaná matica koeficientov spracovania obrazu veľkosti3 ×3 takto: 

K= {kx,y} pre x=1 . . .3, y=1 . . .3 (9) 

Týmito koeficientami sa násobili hodnoty úrovne šedi obrazových bodov a tak 

sa vypočítala nová úroveň šedi pre bod ležiaci v strede maticou spracovanej 

oblasti (teda výstupom bol bod so súradnicami[2,2] vzhľadom k umiest- 

neniu matice v obraze). Táto transformácia vstupných bodov na výstupné 

je znázornená na obrázku 9, pričom do znázornených bodov vľavo vstupujú 

úrovne šedi vstupného obrazu, vpravo získame výstupnú hodnotu úrovne šedi 

a váhy prepojení medzi vstupom a výstupom reprezentujú koeficienty matice 

K. 

Pre lepšie predspracovanie obrazu, ako ponúkajú súčasné metódy pred- 

spracovania, bolo potrebné použiť niečo iné, ako štandartné maticové metódy. 

Spôsobom fungovania k predošlému príkladu sa najviac z prvkov umelej in- 

teligencie blížia neurónové siete, pretože predošlý maticový filter je vlastne 

n-vstupový jednoduchý perceptrón bez aktivačnej funkcie. Použitím neuró- 

novej siete teda môžeme realizovať filtráciu obrazu veľmi podobne ako pri 

maticových metódach, ale s takýmito rozdielmi:


in 

in 

in 

1,1 

1,2 

1,3 

in 

in 

in 

2,1 

2,2 

23 

in 

in 

in 

3,1 

3,2 

3,3 

k 

2,1 

k 

1,3 

k 

3,1 

out 

Obr. 9: Vľavo: vstup úrovní šedi, vpravo: výstupná úroveň šedi 

- nelineárne aktivačné funkcie obsiahnuté v neurónovej sieti môžu zlepšiť 

kontrast výstupného obrazu oproti lineárnej filtrácii, pretože s vhodnou 

kombináciou váh synapsií dve blízke vstupné úrovne šedi môžu mať na 

výstupe viac odlišné úrovne šedi ako pri lineárnej filtrácii 

- nie je potrebné vopred určiť koeficienty spracovania obrazu (váhy sy- 

napsií), ale je ich možné adaptovať pre každý spracovaný obraz indivi- 

duálne 

- rôzne váhy synapsií pre rôzne typy obrazov dosahujú lepšie výsledky 

spracovania ako jedna sada váh synapsií alebo koeficientov matice po- 

užitých pre všetky typy obrazov 

Pre aplikáciu predspracovania obrazu som zvolil doprednú neurónovú sieť 

takto: 

- typ neurónovej siete: dopredná neurónová sieť kvôli podobnosti 

so štandartnými metódami spracovania 

- metóda učenia siete: štandartné spätné šírenie chyby - osved- 

čený a postačujúco efektívny algoritmus


- vstupná vrstva: matica n × n neurónov, znova sa vychádza zo 

štandartných metód spracovania obrazu. Rozmer n bude určený podľa 

experimentov pre dosiahnutie najlepších výsledkov. 

- skrytá vrstva: m, hodnota m bude určená experimentami, prípadne 

overená potreba ďalších skrytých vrstiev. 

- výstupná vrstva: 2 neuróny. Jednoduchým pokusom sa ukázalo, že 

je pre neurónovú sieť je ľahšie realizovať filtráciu jedného bodu s po- 

mocou znalosti jeho okolia, ako filtráciu n × n bodov súčasne. Výstup 

teda obsahuje jeden neurón, ktorého výstup má hodnotu zodpoveda- 

júcu úrovni šedi a druhý neurón má invertovanú hodnotu dozpoveda- 

júcu úrovni šedi. Takáto konfigurácia vychádza z myšlienky, že neuró- 

nová sieť sa bude ľahšie učiť, ak bude mať o výstupe viac informácií. 

- spôsob prepojenia vrstiev: plné prepojenie, tzn. že každý neurón 

vo vrstve má spojenie s každým neurónom z predošlej vrstvy. 

N 

- vstupná funkcia: xj= ini ∗ wij+ φj 

i=1 

- aktivačná funkcia: f(xi)= 

1 

1+e −λ∗x i 

Takáto neurónová sieť je znázornená na obrázku 10, pričom kvôli názornosti 

a bola zvolená vstupná vsrtva veľkosti3×3 ako pri štandartných maticových 

metódach predspracovania obrazu.


in1,1 

in1,2 

in1,3 

in2,1 

in2,2 

in2,3 

in3,1 

in3,2 

in3,3 

h 1 

h 2 

h 3 

out1 

out2 

Obr. 10: Dopredná neurónová sieť pre spracovanie obrazu. Zľava doprava: 

vstupná vrstva, skrytá vrstva, výstupná vrstva. 

3.2 Algoritmus metódy spätného šírenia chyby 

Pre realizovanie filtrácie obrazu potrebujeme okrem konceptu aplikácie, kon- 

ceptu neurónovej siete a popisu vstupných dát ešte popis metódy učenia sa 

neurónovej siete, aby bolo možné toto učenie sa realizovať. Nakoľko na filtrá- 

ciu obrazu by mala postačovať bežná dopredná neurónová sieť, zvolil som ako 

metódu učenia štandartné spätné šírenie chyby, čo je metóda kontrolovaného 

učenia sa neurónovej siete. 

Pretože účelom tejto diplomovej práce nie je skúmanie a ani úprava me- 

tódy spätného šírenia chyby, obmedzím popis metódy na najmenšiu možnú 

mieru. Pre podrobnejší popis tejto metódy, jej odvodenie alebo pre súvi- 

siacu teóriu odporúčam preštudovať uvedenú použitú literatúru, konkrétne 

[1]. Algoritmus metódy spätného šírenia chyby je nasledovný: 

1. Pre každý vstupný vektor realizujem dopredné šírenie signálu neuróno- 

vou sieťou, pričom na výstupe získam výstupný vektor. 

2. Výpočtom určím chybu dosiahnutú na danom vstupnom vektore. 

3. Pre váhy výstupných neurónov vypočítam zmenu δ na základe para- 

metrov učenia a dosiahnutej chyby


4. Pre váhy iných ako výstupných neurónov vypočítam zmenu δ. 

5. Pomocou vypočítaných hodnôt δ a parametrov učenia realizujem zmenu 

váh synapsií každého neurónu. 

6. Postup opakujem pre ďalšie vstupné vektory. 

7. Vypočítam dosiahnutú chybu na vstupných vektoroch z trénovacej mno- 

žiny. 

8. Ak som dosiahol požadovanú chybu, tak výpočet končím, v opačnom 

prípade celý výpočet opakujem. 

Zvolíme si aktivačnú funkciu neurónu takto: 

fakt(x)= 

1 

1+e −x 

(10) 

Priebeh tejto aktivačnej funkcie je zobrazený na obrázku 11 a označuje sa 

’sigmoida’. V prvom kroku metódy spätného šírenia chyby sa používa táto 

aktivačná funkcia pre dosiahnutie nelinearity medzi vstupom a výstupom. 

Vstupná funkcia nech je definovaná takto: 

N 

xj= ini ∗ wij+ φj 

i=1 

(11) 

teda vstupy do neurónu sú prenásobené hodnotami váh synapsií, ktorými 

vstupný signál vstupuje do neurónu, tieto hodnoty sú následne sčítané a je 

prirátaný prah φj. Pre zjednodušenie majú všetky (okrem vstupných) ne- 

uróny prah φj= −1, teda by sa dalo napísať, že pre všetky neuróny, ktoré 

nie sú vstupné, platí: 

N 

xj= ini ∗ wij −1 (12) 

i=1


1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−8 −6 −4 −2 0 2 4 6 8 

Obr. 11: Priebeh aktivačnej funkcie neurónu. Na osi X je vstupná hodnota 

do aktivačnej funkcie, na osi Y je výstupná hodnota z aktivačnej funkcie. 

Po vypočítaní skutočného výstupu z neurónovej siete je potrebné vypo- 

čítať chybu neurónovej siete (krok 2) takto: 

ej= pj − yj 

(13) 

čo je vlastne rozdiel medzi požadovanou hodnotou pj na neuróne j a sku- 

točným výstupom yj. Ešte je potrebné vypočítať celkovú kvadratickú chybu 

(MSE) pre všetky výstupné neuróny takto: 

J= 1 

2 

N 

j=1 

e 2 j =1 

2 

N 

(pj − yj) 

j=1 

2 

(14) 

Pri algoritme sptného šírenia chyby je potrebné poznať aj deriváciu tejto 

aktivačnej funkcie, pretože táto metóda učenia je založená na znalosti, že 

pribeh funkcie najstrmšie klesá v smere gradientu funkcie, ktorému v našom 

prípade zodpovedá derivácia aktivačnej funkcie, teda:


fder(x)= 

e −x 

1+2e −x + e −2x 

Teraz môžeme vypočítať gradient úmerný zmene konkrétnej váhy, a to: 

(15) 

δj= fder(xj).ej= fder(xj).(pj − yj) (16) 

Pre učenie máme zvolený parameter γ, ktorý určuje rýchlosť učenia, ale tiež 

presnosť zmien váh. Pre začiatok učenia je vhodné, aby bol parameter γ 

väčší a teda neurónová sieť rýchlejšie konvergovala k správnym váham, ale po 

určitom počte krokov učenia je potrebné tento parameter zmenšiť, pretože sa 

stav siete nachádza blízko globálneho (alebo lokálneho) minima a je potrebné 

k nemu čo najbližšie dokonvergovať. Štandartne používam parameter γ rovný 

0.2 na začiatku. 

Zmenu váhy synapsie v neurónovej sieti je definovaná takto: 

∆wj= γ.δj.xj 

Pre výpočet novej váhy použijem už len jednoduchý vzťah: 

wj= wj+∆wj 

(17) 

(18) 

Rozšíril som štandartné spätné šírenia chyby o jednoduché pravidlo, ktoré 

zmenší parameter γ na polovicu vždy, ak po 200 krokoch učenia nedošlo ku 

poklesu chyby. Takýto doplnok umožnuje automatické učenie sa siete bez 

zásahu užívateľa.


 

 

 

 

 

Obr. 12: Koncept spracovania obrazu na text 

 

 

3.3 Návrh aplikácie predspracovania obrazu pomocou 

neurónovej siete 

Na obrázku 12 je znázornený koncept spracovania obrazu, ktorý zobrazuje 

úlohu predspracovania obrazu v celom procese optického rozpoznávania zna- 

kov. Napriek tomu, že tento obrázok nezobrazuje kompletnú postupnosť ope- 

rácií (sú vynechané niektoré kroky, napr. optické snímanie obrazu z predlohy, 

atď.), pre ilustráciu je postačujúci. 

Bola navrhnutá aplikácia predspracovania obrazu, pričom jej vývojový 

diagram je znázornený na obrázku 13 a jednotlivé časti tohoto diagramu sú 

následne podrobnejšie popísané. Ešte pred realizáciou aplikácie je potrebné 

sa rozhodnúť pre typ autonómnosti programu pre predspracovanie. Máme 

tieto možnosti: 

1. plne automatická aplikácia s minimálnym riadením užívateľom 

2. polo-automatická aplikácia čiastočne riadená užívateľom 

3. aplikácia úplne riadená užívateľom 

Plne automatická aplikácia 

Plne automatická aplikácia s minimálnym riadením užívateľom je z užívate- 

ľovho pohľadu najlepšia voľba. Síce mu neposkytuje možnosť rozhodovania 

v niektorých krokoch behu programu, čo môže viesť k občasným chybám 

spracovania, ale na druhej strane užívateľ nemusí mať žiadne znalosti a ani 

skúsenosti pre dobré výsledky predspracovania.


ŠTART 

Načítaj 

obrázok 

Preveď úrovne 

šedi na desatinné 

čísla 

Urči typ 

pozadia a 

popredia 

Máme vhodnú 

naučenú NS? 

Načítaj váhy 

NS zo súboru 

Preveď desatinné 

čísla na úrovne 

šedi 

Ulož 

obrázok 

STOP 

áno 

Spracuj 

obraz 

nie 

Vytvor trénovaciu 

a testovaciu množinu 

Trénuj NS 

Ulož váhy 

NS do súboru 

Obr. 13: Vývojový diagram pre aplikáciu predspracovania obrazu


V kroku programu s popisom ’Urči typ pozadia a popredia’ (viď obrázok 

13) je potrebný automatický rozhodovací prvok, ktorý by napríklad mohol 

byť realizovaný pomocou riadiacej neurónovej siete, ak by bolo jadro aplikácie 

realizované pomocou modulárnej neurónovej siete. Tento rozhodovací prvok 

by tiež určoval potrebu učiť pre aktuálny spracúvaný obraz novú neurónovú 

sieť (jedná sa o rozhodnutie v kroku ’Máme vhodnú naučenú NS?’ na obrázku 

13). 

Tiež je potrebné automaticky vytvoriť trénovaciu a testovaciu množinu. 

Problém však je, že aplikácia by sama musela zistiť polohu, typ písma (font) 

a samotný text, aby dokázala vytvoriť trénovaciu množinu so správne umiest- 

nenými tmavými bodmi na výstupe. Ak by toto aplikácia samostatne doká- 

zala, nebolo by potrebné realizovať celé predspracovanie, pretože by táto časť 

takéto predspracovanie zahrňovala. Z tohoto dôvodu by užívateľ musel zadať 

aspoň časť textu ktorý na obrázku vidí a aplikácia by sa mala sama následne 

pokúsiť zistiť umiestnenie textu, typ a veľkosť písma na obrázku. 

Počas vypracúvania tejto diplomovej práce som skúšal algoritmus pre 

automatické zistenie umiestnenia textu na vstupnom obraze, ktorý bol za- 

ložený na zistení minimálnej chyby učenia sa neurónovej siete vo vzťahu k 

umiestneniu textu na vstupnom obraze. Tento algoritmus sa neosvedčil ani 

efektivitou, ani použiteľnou rýchlosťou, preto vytvorenie plne automatickej 

aplikácie nebolo realizované a boli zvažované ďalšie možnosti. 

Poloautomatická aplikácia 

Polo-automatická aplikácia čiastočne riadená užívateľom sa zhoduje v návrhu 

s plne automatickou aplikáciou v časti rozhodovania sa použitia neurónovej 

siete podľa kombinácie pozadia a popredia, líši sa však vo vytváraní tréno- 

vacej a testovacej množiny. 

Ako bolo naznačené v koncepte plne automatickej aplikácie, vytváranie 

trénovacej a testovacej množiny je problematické bez zásahu užívateľa. Pre 

zjednodušenie tohoto problému užívateľ musí okrem napísania časti textu, 

ktorý vidí, správne nastaviť aj jeho font, veľkosť a presné umiestnenie na


vstupnom obrázku. Samotná aplikácia potom z takto získaných informácií 

vytvorí trénovaciu a testovaciu množinu a realizuje trénovanie neurónovej 

siete, ktorá bude následne použitá pre predspracovanie obrazu. 

Aplikácia úplne riadená užívateľom 

Aplikácia úplne riadená užívateľom sa zhoduje s konceptom poloautomatickej 

aplikácie v spôsobe vytvárania trénovacej a testovacej množiny, ale líši sa v 

spôsobe rozhodovania sa použitia vhodnej neurónovej siete. 

V tejto aplikácii teda užívateľ sám vyberá vhodnú naučenú neurónovú sieť 

podľa svojho uváženia a teda sa aj rozhoduje v prípade nedostatočne vhodnej 

neurónovej siete pre učenie novej neurónovej siete pre tento typ vstupného 

obrazu. 

Keďže cieľom tejto diplomovej práce nebolo vytvorenie univerzálnej apli- 

kácie pre predspracovanie obrazu, ale výskum možností použitia neurónových 

sietí a ich následných vlastností a požiadaviek v aplikácii predspracovania ob- 

razu a vytvorenie demonštračnej aplikácie predspracovania obrazu pomocou 

neurónových sietí, bol zvolený tretí typ autonómnosti tejto aplikácie, a to 

aplikácia úplne riadená užívateľom. 

Obr. 14: Ukážka z programu pre predspracovanie obrazu neurónovou sieťou. 

Ďalšie ukážky z programu sa nachádzajú v prílohe A


4 Experimenty na generovanom obraze 

Táto časť diplomovej práce je venovaná experimentom, ktorých účelom je 

zistiť vhodné parametre neurónovej siete, vlastnosti trénovacej množiny a 

zistiť ďalšie znalosti potrebné pre úspešné a postačujúce predspracovanie 

obrazu pred optickým rozpoznávaním znakov. Tento krátky úvod však platí 

aj pre experimenty realizované na snímanom obraze. 

Pre nasledujúce experimenty platia tieto implicitné podmienky, ak nie je 

stanovené inak: 

- typ neurónovej siete: dopredná neurónová sieť 

- algoritmus učenia neurónovej siete: spätné šírenie chyby 

- počiatočný parameter gamma = 0.1 

- automatické zníženie gamma na polovicu, ak za posledných 200 krokov 

učenia nedošlo k zníženiu chyby neurónovej siete 

- celkový počet krokov učenia neurónovej siete: 1000 

- program pre optické rozpoznávanie znakov: ABBYY FineReader 7.0 

Professional Edition - skúšobná 30-dňová verzia 

Experimenty 1 až 5 boli realizované na generovaných obrazových dátach 

vytvorených pomocou simulátora tlače, experimenty 6 až 11 boli realizované 

na reálnych dátach. 

4.1 Generovanie obrazových dát 

Na generovanie obrazových dát pre experimenty 1 až 5 bol vytvorený prog- 

ram ’Image Generator’, ktorého účelom je vytvoriť vždy dvojicu obrázkov vo 

formáte ’Windows Bitmap’ (súbor s príponou ’.bmp’), a to: 

- prvý obrázok má biele pozadie a písmo čiernej farby. Tento obrázok 

slúži na definovanie, ktoré body na výstupe budú tmavé a ktoré budú 

svetlé, teda definujú výstup z neurónovej siete.


- druhý obrázok má pozadie pokryté jednou textúrou a písmo pokryté 

druhou textúrou. Tento obrázok slúži na generovanie vzoriek do tréno- 

vacej a testovacej množiny, pričom jednotlivé body z tohoto obrázku 

sú vstupom do neurónovej siete. 

V rôznych tlačených materiáloch bolo nájdených 19 druhov rôznych tex- 

túr, ktoré boli použité v 25 rôznych kombináciach. Experimenty s generova- 

nými dátami sú realizované na všetkých 25 kombináciach, ak nie je uvedené 

inak. Samotné kombinácie sú zobrazené v tabuľke 1. 

4.2 Vytváranie trénovacej a testovacej množiny 

Na vytváranie trénovacej a testovacej množiny pre neurónovú sieť bol vytvo- 

rený program ’Bitmap To Pattern’, ktorý z dvojice obrázkov vytvorí súbor, 

ktorý obsahuje vzorky trénovacej alebo testovacej množiny, pričom pri vy- 

tváraní týchto dvoch množín je možné vybrať: 

- vstupný obrázok - obrázok, ktorý má pozadie a popredie pokryté tex- 

túrou 

- výstupný obrázok - obrázok s bielym pozadím a čiernym písmom 

- počet vzoriek vo vytváranej množine 

- veľkosť vstupnej vrstvy, pre ktorú je daná množina vytváraná 

- spôsob výberu prvkov do množiny - náhodný alebo riadený (viď expe- 

riment č. 9) 

Vstupným obrázkom bol pre experimenty 1 až 5 obrázok vytvorený prog- 

ramom ’Image Generator’; pre experimenty 6 až 11 to bol obrázok získaný 

optickým snímaním papiera (scanovaním).


1 2 3 4 5 

6 7 8 9 10 

11 12 13 14 15 

16 17 18 19 20 

21 22 23 24 25 

Tabuľka 1: Generovaný obraz: kombinácie pozadia a popredia


4.3 Závislosť úspešnosti učenia na kombinácii popredia 

a pozadia obrazu 

Popis experimentu 

Skúmaním rôznych tlačených predlôh bolo nájdených 25 rôznych kombinácií 

textúr popredia a pozadia, je potrebné zistiť, ako dobre je možné zvládnuť 

spracovanie jednotlivých kombinácií pomocou doprednej neurónovej siete. 

Vstupný a výstupný obraz vytvorený pomocou programu ’Image Generator’, 

ako je popísané v úvodnej časti experimentov na strane 28. 

Použité parametre neurónovej siete: 

- topológia:6 ×6−10 −2 

- gamma = 0.1 

- počet prvkov trénovacej množiny: 2000 

Výsledky 

Pre všetkých 25 kombinácií bola neurónová sieť trénovaná a výsledky boli 

zaznamenané do tabuľky 2. Následne bol ešte vytvorený graf (zobrazený na 

obrázku 15), ktorý zobrazuje závislosť chyby neurónovej siete na kombinácii 

popredia a pozadia. 

Zhodnotenie 

Dospel som k následovným zisteniam: 

- kombinácie, pre ktoré dosiahla neurónová sieť chybu na testovacej mno- 

žine menšiu ako 2%, sú spracovateľné pomocou metódy prahovania. 

Použitie neurónovej siete teda nemá v týchto prípadoch význam, pre- 

tože metóda prahovania je menej výpočtovo náročná ako spracovanie 

neurónovou sieťou. 

- kombinácie, pre ktoré dosiahla neurónová sieť chybu na testovavej mno- 

žine väčšiu ako 2%, ale menšiu ako 4%, je možné ešte spracovať metódou


Poradie Minimálna chyba Po krokoch 

kombinácie na testovacej učenia 

množine [%] 

1 3.3 450 

2 2.45 200 

3 3.4 650 

4 6.4 950 

5 2.0 1000 

6 2.0 850 

7 2.4 700 

8 1.1 300 

9 5.3 600 

10 3.5 350 

11 3.65 550 

12 5.3 600 

13 1.75 250 

14 2.35 450 

15 1.5 450 

16 6.6 950 

17 8.7 900 

18 1.7 700 

19 6.05 500 

20 2.15 600 

21 7.6 900 

22 4.9 850 

23 6.8 750 

24 2.05 550 

25 4.3 650 

Tabuľka 2: závislosti chyby neurónovej siete na kombinácii popredia a pozadia


Chyba [%] 

10 

8 

6 

4 

2 

0 

Testovacia množina 

0 5 10 15 20 25 

poradie kombinácie pozadia a popredia 

Obr. 15: Graf závislosti minimálnej chyby neurónovej siete na testovacej mno- 

žine vzhľadom na kombináciu popredia a pozadia 

prahovania, ale pre dostatočnú kvalitu rozpoznania písmen zo spraco- 

vaného obrazu je vhodné nasadiť ešte metódu redukcie šumu obrazu 

(odstraňovanie bodov, ktoré sú osamotelé), alebo metódu, ktorá by sa 

snažila o rekonštrukciu stratených častí písmen 

- pre tie kombinácie, kde dosiahla neurónová sieť chybu na testovavej väč- 

šiu ako 4%, je metóda prahovania nepoužiteľná, pretože nízka úroveň 

prahu odstraňuje veľkú časť písmen z obrazu a vysoká úroveň prahu 

zase necháva veľkú časť pozadia, čo bráni dobrému rozpoznaniu znakov. 

Napriek tomu, že textúry boli vybrané z podkladov, na ktorých boli tla- 

čené monochromaticky a úrovne šedi boli dosiahnuté tlačou rôznych vzo- 

rov, pri manipulácii s textúrami vznikli mierne zmenené úrovne šedi miesto 

monochromatických vzorov, čo spôsobilo, že generovaný obraz pre niektoré 

kombinácie popredia a pozadia je jednoducho spracovateľný pomocou me- 

tódy prahovania.


4.4 Závislosť úspešnosti učenia na veľkosti vstupnej vrstvy 


Pre návrh predspracovania obrazu pred optickým rozpoznávaním znakov je 

potrebné zistiť, akú veľkú vstupnú vrstvu musí mať neurónová sieť, aby bolo 

možné predspracovanie úspešne realizovať. Úlohou experimentu je tiež zistiť, 

pre akú veľkosť vstupnej vrstvy ešte predspracovanie nefunguje a od akej 

veľkosti vstupnej vrstvy už nenastáva zlepšenie predspracovania. 

Pre tento experiment bola zvolená kombinácia popredia a pozadia číslo 

17, pretože tá sa prejavila v predošlom experimente na strane 31 ako najná- 

ročnejšia na spracovanie. 

Použité parametre neurónovej siete: 

- topológia: N - 10 - 2 

- gamma = 0.1 


Výsledky 

Výsledky tohoto experimentu boli zaznamenané do tabuľky 3, pričom mini- 

málna chyba na testovacej množine predstavuje globálne minimum priebehu 

učenia neurónovej siete v 1000 krokoch. Pre každú veľkosť vstupnej vrstvy 

neurónovej siete bolo potrebné vytvoriť novú trénovaciu a testovaciu mno- 

žinu, čo mohlo spôsobiť mierne rozdiely vo výsledkoch. 

Zhodnotenie 

Skúmaním výsledkov tohoto experimentu som dospel k záveru, že pre genero- 

vaný obraz má vstupná vrstva postačujúcu veľkost 3*3 neuróny. Je evidentné, 

že prvé dve testované veľkosti (1*1 a 2*2 neurónov na vstupe) sú nedosta- 

čujúce, kedže dosiahnutá chyba neurónovej siete pre tieto dve veľkosti je 

omnoho väčšia ako dosiahnuté chyby pre ďalšie veľkosti vstupnej vrstvy.


Veľkosť Minimálna chyba Po krokoch 

vstupnej na testovacej učenia 

vrstvy množine [%] 

1*1 23.8 250 

2*2 13.25 700 

3*3 8.3 350 

6*6 8.55 750 

8*8 7.8 700 

16*16 9.3 950 

24*24 6.7 700 

32*32 8.35 650 

priemer 8.17 683.3 

Tabuľka 3: závislosť úspešnosti učenia na veľkosti vstupnej vrstvy 

Po vylúčení minimálnych chýb neurónových sietí pre rozmery vstupnej 

vrstvy 1*1 a 2*2 z výpočtu priemeru minimálnej chyby má priemer hodnotu 

8.17%, tzn. že po 1000 krokoch učenia je môžné dosiahnuť priemerne takúto 

minimálnu chybu neurónovej siete. V tabuľke 3 sa minimálna dosiahnutá 

chyba neurónovej siete s veľkosťou vstupnej vrstvy 3*3 a väčšej pohybuje v 

okolí tohoto priemeru, teda sa zdá, že zväčšovanie rozmeru vstupnej vrstvy 

nad 3*3 neuróny nemá veľký vplyv na kvalitu spracovania generovaného 

obrazu.


4.5 Závislosť úspešnosti učenia na veľkosti skrytej vrstvy 


Účelom tohoto experimentu je zistiť, akú veľkosť musí mať skrytá vrstva 

neurónovej siete, aby bolo možné predspracovanie realizovať. 

Je vhodné nájsť minimálnu veľkosť skrytej vrstvy, pretože jej veľkosť 

vplýva na dĺžku učenia. Zbytočne veľká skrytá vrstva by spomaľovala učenie, 

čo by mohlo vadiť v aplikáciach, s ktorými užívateľ priamo pracuje a vynucuje 

učenie. 

Veľkosť vstupnej vrstvy neurónovej siete bola zvolená podľa predošlého 

experimentu na strane 34 na 3*3 neuróny. 


17, pretože tá sa prejavila v experimente na strane 31 ako najnáročnejšia na 

spracovanie. 

Parametre neurónovej siete: 

- topológia:3 ×3−N −2 

- gamma = 0.1 


Výsledky 

V tabuľke 4 sú zhrnuté výsledky tohoto experimentu. Zobrazuje dosiahnutú 

minimálnu chybu neurónovej siete pre danú veľkosť skrytej vrstvy. 

Zhodnotenie 

Podľa výsledkov v tabuľke 4 je zrejmé, že jeden neurón ako skrytá vrstva ne- 

stačí. Dva neuróny na skrytej vrstve už sú postačujúce, ale priebeh učenia je 

dosť pomalý. Neurónové siete s väčšími rozmermi skrytej vrstvy sa vyznačujú 

škorším dosiahnutím minimálnej chyby neurónovej siete.



skrytej na testovacej učenia 


1 50.0 1000 

2 9.25 600 

3 7.5 800 

4 8.0 100 

5 7.5 500 

10 7.95 200 

15 7.75 400 

20 7.8 150 

25 8.1 200 

priemer 7.98 368.75 

Tabuľka 4: závislosť úspešnosti učenia na veľkosti skrytej vrstvy 

Pre výpočet priemeru chyby a počtu krokov bol z výpočtu vynechaný 

prvý pokus so skrytou vrstvou veľkou jeden neurón. V blízkosti priemernej 

hodnoty minimálnej chyby sa nachádzajú neurónové siete s veľkosťou skrytej 

vrstvy od 3 neurónov vyššie; v blízkosti k priemernému počtu krokov učenia 

neurónovej siete pre dosiahnutie minimálnej chyby sa nachádzajú neurónové 

siete s veľkosťou skrytej vrstvy 4 a viac, preto by som pre spracovanie gene- 

rovaného obrazu zvolil skrytú vrstvu veľkú aspoň 4 neuróny.


4.6 Závislosť úspešnosti učenia sa na inicializácii neuró- 

novej siete 


Experiment má za úlohu zistiť, ako vplýva inicializácia na učenie sa neuróno- 

vej siete. Toto zistenie má slúžiť aj na utvorenie si predstavy o možnostiach 

výkyvu výsledkov získaných v predošlých a nasledujúcich experimentoch v 

závislosti od inicializácie neurónovej siete. 

takto: 

Parametre neurónovej siete boli zvolené podľa predošlých experimentov 

- topológia:3 ×3−5−2 

- gamma = 0.1 



17, pretože tá sa prejavila v experimente na strane 31 ako najnáročnejšia na 

spracovanie. 

Výsledky 


minimálnu chybu neurónovej siete pre každú inicializáciu, tiež celkovú mi- 

nimálnu, maximálnu a priemernú chybu za všetkých 10 inicializácií. Tieto 

hodnoty boli zobrazené aj grafom na obrázku 16. 

Zhodnotenie 

Výsledky tohoto experimentu ukázali, že dosiahnutá minimálna chyba na 

testovacej množine za istý počet krokov mierne závisí aj od inicializácie ne- 

urónovej siete. Je tiež zrejmé, že od inicializácie viac závisí počet krokov na 

dosiahnutie minimálnej chyby.


Poradové Min. chyba na test. Po krokoch 

číslo množine [%] učenia 

1 8.0 150 

2 7.5 950 

3 7.25 150 

4 8.2 700 

5 8.1 750 

6 7.8 400 

7 7.4 200 

8 7.55 550 

9 8.75 1000 

10 7.65 900 

minimum 7.25 150 

maximum 8.75 1000 

priemer 7.82 575 

Tabuľka 5: závislosť učenia na inicializácii neurónovej siete 

Chyba [%] 

9 

8.8 

8.6 

8.4 

8.2 

8 

7.8 

7.6 

7.4 

7.2 

Chyba na testovacej množine 

Priemerná chyba 

1 2 3 4 5 6 7 8 9 10 

poradie inicializácie NS 

Obr. 16: závislosť učenia na inicializácii neurónovej siete


4.7 Vplyv šumu na schopnosť učenie sa neurónovej siete 


Experiment má za úlohu zistiť, ako vplýva šum v obraze na učenie sa ne- 

urónovej siete a akú minimálnu chybu neurónová sieť vie dosiahnuť pri akej 

úrovni šumu. K realizácii tohoto experimentu došlo z dvoch dôvodov: 

- opticky snímaný obraz nikdy nie je taký presný a kvalitný, ako je obraz 

generovaný, takže je potrebné zistiť, akú mieru skreslenia bude takáto 

neurónová sieť schopná spracovať. 

- generovaný obraz je príliš pravidelný, preto je vhodné obraz pred uče- 

ním mierne skresliť šumom, aby neurónová sieť dosiahla lepšiu kvalitu 

spracovania na reálnom, neideálnom vstupe. 

Pri náhodnom skreslení obrazu šumom existujú dva základné parametre 

nastavenia šumu: 

- percentuálne množstvo pokrytia obrazu šumom - vyjadruje, koľko per- 

cent zo všetkých obrazových bodov bude ovplyvnených šumom 

- veľkosť šumu - je to maximálna hodnota, o koľko môže šum zmeniť 

obrazový bod. Napr. veľkosť šumu 10% znamená, že šum môže daný 

bod zmeniť najviac o 10% maximálnej hodnoty bodu, teda pre 256 

odtieňov šedi je najväčšia zmena obrazového bodu o 25 odtieňov šedi. 

Pre zjednodušenie som použil pokrytie šumu a veľkosť šumu rovnakú pre 

každý krok tohoto experimentu. 

takto: 

Parametre neurónovej siete boli zvolené podľa predošlých experimentov 


- gamma = 0.1 

- počet prvkov trénovacej množiny: 2000


Chyba [%] 

40 

35 

30 

25 

20 

15 

10 

5 

0 


0 10 20 30 40 50 60 

pokrytie a úroveň šumu [%] 

Obr. 17: vplyv šumu na schopnosť učenie sa neurónovej siete 


25, pretože tá sa neprejavila v experimente na strane 31 ako jednoduchá a 

ani ako problematická kombinácia. 

Výsledky 

V tomto experimete boli vyskúšané úrovne šumu od 0% po 60%. Väčšie 

úrovne šumu už nebolo potrebné testovať, pretože pre ne neurónová sieť 

dosahovala chybu, pri ktorej už nebola vhodná na spracovanie vstupného 

obrazu. Po realizácii experimentu boli číselné hodnoty zhrnuté v tabuľke 6 a 

vynesené do grafu na obrázku 17. 

Zhodnotenie 

Z tohoto experimentu vyplynulo, že ak je veľkosť vplyvu šumu a plošné po- 

krytie šumu menšie ako 20%, tak je neurónová sieť schopná učiť sa a spracúva- 

vať obraz bez zväčšených problémov. Teda pre zlepšenie kvality spracúvania 

neurónovou sieťou je možné použiť šum s takýmito parametrami.


Poradové Minimálna chyba Po krokoch Ukážka 

číslo na testovacej učenia vstupného 

učenia množine [%] obrazu 

0 3.35 700 

5 3.35 450 

10 3.65 300 

15 3.4 650 

20 6.45 250 

25 10.85 500 

30 13.5 500 

40 19.3 1000 

50 25.7 750 

60 32.85 1000 

Tabuľka 6: vplyv šumu na schopnosť učenie sa neurónovej siete


Pre veľkosť vplyvu šumu a plošné pokrytie šumu rovné a väčšie ako 20% 

chyba neurónovej siete na testovacej množine lineárne rastie, teda jej schop- 

nosť naučenia sa takto zmenených dát klesá a klesá aj účinnosť spracovania 

obrazu takouto neurónovou sieťou.


5 Experimenty na snímanom obraze 

Hlavným cieľom skúmaného predspracovania obrazu je realizovať úspešné 

predspracovanie snímaného obrazu, keďže taká je predpokladaná jeho reálna 

aplikácia. 

Snímaný obraz je reprezentovaný dvojrozmernou množinou bodov, pri- 

čom každý bod je reprezentovaný buď trojicou intenzít farebných zloženie - 

červenou, zelenou a modrou, alebo úrovňou šedi. Snímaný obraz je získaný 

zo zariadenia pre snímanie obrazu, napríklad zo scanneru alebo z kamery. 

Snímanie obrazu v scanneri prebieha tak, že snímaná strana je osvet- 

lená zo zdroja silného svetelného žiarenia obsahujúce všetky zložky fareb- 

ného spektra čo najrovnomernejšie (väčšinou sa používajú ortuťové výbojky). 

Svetlo sa odráža od povrchu papiera a prechádza šošovkou (alebo šošovkami), 

ktoré sústreďujú svetlo na snímač, čo je polovodičová súčiastka využívajúca 

fotoelektrický jav na prevod intenzity svetla na napätie alebo prúd. 

Presné umiestnenie snímača nad papierom spôsobuje, že sa v zosníma- 

nom obraze môžu objaviť odtieňe šedi, alebo farieb, ktoré sa na snímanom 

papieri síce nevyskytujú, ale vo výslednom zosnímanom obraze vytvárajú 

dojem pôvodného obrazu.


5.1 Závislosť úspešnosti učenia na veľkosti vstupnej vrstvy 


Účelom tohoto experimentu je zistiť, akú veľkosť musí mať vstupná vrstva 


Podľa zvolenej topológie neurónovej siete vieme, že vstupná vrstva tvorí 

štvorcovú masku s rozmerom strany N a bude plnená hodnotami odtieňov 

šedi vstupného obrazu. Tiež vieme, že obraz zosnímaný scannerom pri kon- 

krétnom rozlíšení bude obsahovať obrazové elementy 1 pre imitáciu rôznych 

odtieňov šedi. Je teda zrejmé, že od veľkosti týchto obrazových elementov 

bude závisieť aj veľkosť vstupnej vrstvy. Príliš malá vstupná vrstva nebude 

schopná zachytiť rozdiel medzi rôznymi obrazovými elementami a teda ne- 

bude fungovať s postačujúcou chybou. 

Pre zistenie veľkosti vstupnej vrstvy neurónovej siete použijeme tento 

postup: 

- vytvoríme súbor s testovacou množinou a súbor s trénovacou množinou, 

pričom rozmer vstupných dát v týchto množinách bude N 

- vytvoríme neurónovú sieť, ktorej vstupná vrstva bude mať rozmer N 

- budeme neurónovú sieť učiť 1000 krokov 

- zvýšime číslo N a postup zopakujeme ešte niekoľkokrát 


- topológia: N - 10 - 2 

- gamma = 0.1 


1 body a iné útvary rôznej veľkosti


Výsledky 

V tabuľke 5.1 sú zhrnuté výsledky tohoto experimentu. Je v nej tiež možné 

vidieť spracovaný vstupný obraz pomocou neurónovej siete pri najmenšej do- 

siahnutej chybe z 1000 krokov učenia pre konkrétny rozmer vstupnej vrstvy. 

Zhodnotenie 

Na hodnotách minimálnej chyby neurónovej siete na testovacej množine je 

možné si všimnúť, že prvá testovaná veľkosť vstupnej vrstvy neurónovej siete 

(2*2 neuróny) nie je vhodná pre spracovanie obrazu pri takomto rozlíšení 

2 snímania obrazu scannerom. Chyba má síce hodnotu len 27.7%, ale to 

však nestačí na dostatočnú úroveň spracovania obrazu, aby bol program pre 

optické rozpoznávanie znakov schopný rozpoznať akýkoľvek znak. 

Z ukážiek spracovaných vstupných obrazov je vidno, že s rastúcou veľkos- 

ťou vstupnej vrstvy sa zlepšuje funkcia odstraňovania pozadia a teda priestor 

okolo písmen je svetlejší. Neurónová sieť je teda pri väčšej vstupnej vrstve 

schopná lepšie rozhodnúť, či sa jedná o pozadie, ktoré chceme potlačiť, alebo 

popredie, ktoré chceme zvýrazniť. Zväčšením vstupnej vrstvy zmiznú šmuhy 

a nerovnomernosti tlačeného pozadia a na výstupnom obraze sa neprejavia 

tak intenzívne, ako je to pri menšej vstupnej vrstve. Dobré odstránenie poza- 

dia má následne vplyv na úspešnosť rozpoznania písmen pomocou programu 

pre optické rozpoznávanie znakov. 

Nevýhodou väčšej vstupnej vrstvy však je tendencia potláčať aj popredie, 

teda samotné písmo, čo sa prejavuje nespojitosťou jeho kriviek. Dochádza ku 

strácaniu časti písmen a to má negatívny vplyv na rozpoznávanie znakov. S 

rastúcou vstupnou vrstvou rastú aj veľkosti trénovacích a testovacích množín 

a tiež čas potrebný na dostatočné naučenie sa neurónovej siete. Pre vstupnú 

vrstvu 32*32 neurónov je veľkosť trénovacej množinych so 4000 obsiahnutými 

prvkami približne 41MB, čas učenia pre 1000 krokov bol približne 25 minút 

(použitý procesor: Athlon XP 2000+). 

2 bolo použité rozlíšenie snímania 200 bodov na palec (dpi)


Tabuľka 7: Závislosť úspešnosti rozpoznania znakov na 

vstupnej vrstve 

Veľkosť Min. chyba Po krokoch Úspešnosť Spracovaný 

vstupnej na test. učenia rozpoznania obraz 

vrstvy N množine [%] písmen [%] 

2*2 27.7 850 0 

3*3 15.8 950 63.8 

4*4 13.9 250 54.9 

5*5 15.2 950 62.8 

6*6 14.9 350 77.5 

8*8 16.6 250 85.3 

16*16 9.6 550 88.5 

Tabuľka pokračuje na ďalšej strane


Veľkosť Min. chyba Po krokoch Úspešnosť Spracovaný 

vstupnej na test. učenia rozpoznania obraz 

vrstvy N množine [%] písmen [%] 

24*24 8.8 200 88.5 

32*32 9.3 650 73.3


5.2 Závislosť úspešnosti učenia sa na veľkosti skrytej 

vrstvy 


Účelom tohoto experimentu je zistiť, akú veľkosť musí mať skrytá vrstva 


Je vhodné nájsť minimálnu veľkosť skrytej vrstvy, pretože jej veľkosť 

vplýva na dĺžku učenia. Zbytočne veľká skrytá vrstva by spomaľovala učenie, 

čo by mohlo vadiť v aplikáciach, s ktorými užívateľ priamo pracuje a vynucuje 

učenie. 

stup: 

Pre zistenie veľkosti skrytej vrstvy neurónovej siete použijeme tento po- 

- vytvoríme súbor s testovacou množinou a súbor s trénovacou množinou 

pre neurónovú sieť veľkosťou vstupnej vrstvy 8*8 neurónov. 

- vytvoríme neurónovú sieť, ktorej skrytá vrstva bude mať rozmer N 

- budeme neurónovú sieť učiť 1000 krokov 

- zvýšime číslo N a postup zopakujeme ešte niekoľkokrát 

Veľkosť vstupnej vrstvy neurónovej siete bola zvolená podľa experimentu 

na strane 45 na hodnoty 8*8 neurónov, čo sa zdá byť dobrý kompromis 

medzi rýchlosťou učenia sa neurónovej siete a kvalitou spracovania vstupného 

obrazu. 


- topológia:8 ×8−N −2 

- gamma = 0.1 

- počet prvkov trénovacej množiny: 2000



skrytej na testovacej učenia 


1 100 1000 

2 14.5 800 

3 14.6 550 

5 14.4 750 

10 13.0 400 

25 11.75 350 

50 12.25 500 

75 12.8 1000 

100 12.1 300 

Tabuľka 8: závislosť úspešnosti učenia sa na veľkosti skrytej vrstvy 

Výsledky 


minimálnu chybu neurónovej siete pre danú veľkosť skrytej vrstvy. Experi- 

ment bol zastavený po časti so 100 neurónmi v skrytej vrstve. 

Zhodnotenie 

Podľa tabuľky 8 je možné vidieť, že pre úlohu predspracovania obrazu pred 

optickým rozpoznávaním znakov je postačujúca neurónová sieť s veľkosťou 

2 neuróny. S rastúcim počtom neurónov na skrytej vrstve sa mierne zlepšuje 

schopnosť neurónovej siete dokonalejšie sa naučiť filtrovať vstupné obrazové 

dáta. 

Neurónová sieť s veľkosťou skrytej vrstvy 10 neurónov je schopná do- 

statočne plniť úlohu predspracovania. Ďalšie zväčšovanie skrytej vrstvy už 

nespôsobuje výrazné zlepšenie predspracovania, ale výrazné spomalenie uče- 

nia sa siete.


5.3 Vplyv veľkosti trénovacej množiny na kvalitu spra- 

covania obrazu 


Účelom tohoto experimentu je zistiť, aká veľkosť trénovacej množiny je po- 

trebná, aby bolo spracovanie obrazu čo najlepšie možné. 

Je zrejmé, že aj veľkosť trénovacej množiny vplýva na rýchlosť učenia sa 

neurónovej siete. Hovorí však aj o minimálnych rozmeroch obrazu, z ktorého 

môže byť vytvorená trénovacia množina, pretože veľkosť tohoto obrazu obme- 

dzuje počet možných jedinečných (teda neopakujúcich sa) prvkov trénovacej 

množiny. 

platí: 

kde 

Vo všeobecnosti teda pre počet jedinečných prvkov trénovacej množiny 

K=(V − N).(S − N) (19) 

- K - počet jedinečných prvkov trénovacej množiny 

- V - výška obrazu v bodoch, z ktorého chceme vytvoriť trénovaciu mno- 

žinu 

- S - šírka obrazu v bodoch, z ktorého chceme vytvoriť trénovaciu mno- 

žinu 

- N - veľkosť strany štvorcovej vstupnej vrstvy 

Tento vzťah platí pre vytváranie prvkov trénovacej množiny bez "dokladania" 

vpravo a dole. 


- topológia:8 ×8−10 −2 

- gamma = 0.1


Veľkosť Minimálna chyba Po krokoch Úspešnosť 

trénovacej na testovacej učenia rozpoznania 

množiny množine [%] písmen [%] 

100 17.0 650 1.04 

300 19.6 350 28.2 

500 15.2 450 35.6 

700 14.7 250 59.7 

1000 13.3 950 50.3 

2000 13.0 1000 71.7 

4000 13.5 900 82.7 

8000 15.75 850 87.9 

12000 16.6 600 85.3 

Tabuľka 9: vplyv veľkosti trénovacej množiny na kvalitu spracovania obrazu 

Výsledky 

Boli urobené experimenty pre počet prvkov v trénovacej množine od 100 až 

po 12000, pričom v tabuľke 9 sú zhrnuté dosiahnuté minimálne chyby a tiež 

úspešnosti rozpoznania znakov. Experiment bol zastavený po časti s 12000 

prvkami v trénovacej množine, lebo ďalšie zvyšovanie počtu prvkov nepri- 

nieslo žiadne zlepšenie spracovania obrazu a ani rozpoznania písmen. Ďalej 

nasledujú obrázky 18 až 23, ktoré zachytávajú spracovaný obraz a výsledky 

rozpoznávania textu. Závislosť počtu prvkov v trénovacej množine, dosiahnu- 

tej minimálnej chyby na testovacej množine a úspešnosti rozpoznania znakov 

zobrazuje graf na obrázku 24. 

Zhodnotenie 

Ako je z výsledkov zobrazených v tabuľke 9 a z obrázkov 18 až 23 vidno, 

pre úspešnosť rozpoznania písmen aspoň 50% je potrebné, aby bola trénova- 

cia množina veľká aspoň 700 prvkov. Pre zlepšenie rozpoznávania znakov je 

vhodné, aby bola trénovacia množina ešte väčšia; najlepšia sa ukázala tréno-


Obr. 18: Spracovaný a rozpoznaný text. Počet prvkov v trénovacej množine: 

100. Úspešnosť rozpoznania: 1.04% 




1000. Úspešnosť rozpoznania: 50.3%







12000. Úspešnosť rozpoznania: 85.3%


Chyba [%] 

100 

80 

60 

40 

20 

Chyba na trénovacej množine 

Úspešnosť rozpoznania znakov 

0 

100 1000 10000 

počet vzoriek v trénovacej množine 

Obr. 24: Závislosť počtu prvkov v trénovacej množine, dosiahnutej minimál- 

nej chyby na testovacej množine a úspešnosti rozpoznania znakov


vacia množina s 8000 prvkami. Ďalšie zvyšovanie počtu prvkov už nezlepšuje 

spracovanie obrazu a tak ani nezvyšuje úspešnosť rozpoznania znakov. 

Z úspešnosti rozpoznania znakov, počtu prvkov v trénovacej množine 

a dosiahnutej najmenšej chybe na testovacej množine je možné si všimnúť 

ešte zmenu závislosti úspešnosti rozpoznania s najmenšou chybou neurónovej 

siete. Teda od 100 do 2000 prvkov v trénovacej množine je možné povedať, že 

s klesajúcou chybou na testovacej množine rastie úspešnosť rozpoznania zna- 

kov. Od 2000 po 12000 prvkov v trénovacej a testovacej množine však platí, 

že dosiahnutá minimálna chyba rastie s rastúcim počtom prvkov v trénovacej 

a testovacej množine, ale úspešnosť rozpoznania znakov narastá. Zväčšenie 

chyby na testovacej množine je pravdepodobne spôsobené prvkami, ktoré nie 

je neurónová sieť schopná dostatočne správne spracovať; väčšia testovacia 

množine môže obsahovať viac prvkov, ktoré neurónová sieť nespracúva dobre 

v pomere ku prvkom, ktoré spracúvava dobre. 

Na obrázkoch 18 až 24 je tiež možné sledovať, že aj keď chyba neurónovej 

siete na testovacej množine je skoro rovnaká, spracovanie obrazu je lepšie s 

neurónovou sieťou trénovanou na väčšej trénovacej množine. Teda sa dá pove- 

dať, že chyba dosiahnutá na testovacej množine nie je vhodným ukazateľom 

úspešnosti rozpoznania písmen.


5.4 Vplyv distribúcie prvkov v trénovacej množine na 

kvalitu spracovania obrazu 


Dôvodom, prečo bol tento experiment realizovaný, je možnosť viacerých spô- 

sobov, ako sú prvky do trénovacej množiny vyberané. Chceme teda zistiť, 

aký vplyv má spôsob výberu prvkov na kvalitu spracovaného obrazu. 

Existujú dva základné spôsoby výberu prvkov do trénovacej množiny: 

- náhodný - prvky sú do trénovacej množiny vyberané náhodne 

- riadený - na výber prvkov do trénovacej množiny sú použité nejaké 

pravidlá 

V prípade predspracovania a spracovania obrazu pomocou neurónovej 

siete sme si definovali na výstupe tmavé body (popredie, písmo) a svetlé 

body (pozadie). Podľa počtu prvkov v trénovacej množine, ktoré reprezentujú 

tmavé body a svetlé body, môžeme hovoriť o distribúcii týchto prvkov v 

trénovacej množine. 


- topológia:8 ×8−10 −2 

- gamma = 0.1 

Výsledky 

Číselné výsledky tohoto experimentu sú zhrnuté v tabuľke 10. Experimenty 

boli urobené pre náhodný a riadený výber prvkov do trénovacej a testovacej 

množiny, a to pre 1000 a 4000 prvkov, aby bolo možné porovnať prípadné 

rozdiely. Ďalej nasledujú obrázky 25 a 26 , ktoré zobrazujú spracovaný obraz a 

rozpoznané znaky. Boli zobrazené obrázky len pre veľkosť trénovacej množiny 

1000 prvkov, pretože pre 4000 prvkov v trénovacej množine nie je vidno veľký 

rozdiel.


Veľkosť Typ Výskyt Výskyt Min. Počet Úspešnosť 

trén. výberu tmavých svetlých chyba. krokov rozpozn. 

množiny prvkov bodov [%] bodov [%] [%] učenia písmen [%] 

1000 náhodný 10.0 90.0 3.6 700 4.2 

1000 riadený 50.0 50.0 13.3 950 50.3 

4000 náhodný 11.1 89.9 5.8 950 76.9 

4000 riadený 50.0 50.0 13.6 900 82.7 

Tabuľka 10: vplyv distribúcie bodov na kvalitu spracovania obrazu 

Obr. 25: Spracovaný a rozpoznaný text. Typ výberu prvkov: náhodný. Počet 

prvkov v trénovacej množine: 1000. Úspešnosť rozpoznania: 4.2% 

Obr. 26: Spracovaný a rozpoznaný text. Typ výberu prvkov: riadený. Počet 

prvkov v trénovacej množine: 1000. Úspešnosť rozpoznania: 50.3%


Zhodnotenie 

Z tabuľky 10 a obrázkov 25 a 26 vyplýva, že riadený výber prvkov do trénova- 

cej množiny má veľký vplyv na spracovanie obrazu a následné rozpoznávanie 

znakov, ak je veľkosť trénovacej množiny malá. Dôvodom je, že malá tréno- 

vacia množina obsahuje pri náhodnom výbere prvkov malé množstvo prvkov 

s výstupným bodom tmavej farby, preto neurónová sieť nie je dostatočne tré- 

novaná na spracovanie tmavých bodov a má tendenciu zasvetľovať písmo a 

vynechávať jeho časti. Pri výstyke 10.0% tmavých bodov v trénovacej mno- 

žine s 1000 prvkami je ich počet 100, čo je zjavne nedostatočné pre dobré 

spracovanie obrazu. Teda pre malú trénovaciu množinu je výhodné, aby bol 

výber prvkov do nej riadený a distribúcia čiernych a bielych bodov bola 50% 

a 50%. Takýto výber zlepšil rozpoznanie znakov o 46%. 

Ak je však počet prvkov v trénovacej množine oveľa väčší (napr. 4000 

prvkov), tak spôsob výberu nemá taký veľký vplyv na spracovanie obrazu a 

rozpoznanie znakov (rozdiel je len 5.8% v prospech riadeného výberu), ale 

napriek tomu je vhodné ho použiť, pretože prináša zlepšenie výsledkov.


5.5 Závislosť výsledkov spracovania od poradia lokál- 

neho minima 


Úlohou tohoto experimentu je zistiť, či skoršie lokálne minimum (skoršie v 

zmysle počtu krokov učenia) nie je lepšie ako neskoršie lokálne minimum. 

V niektorých prípadoch aplikácií neurónových sietí sa vyskytli takéto javy, 

predpokladá sa, že je to dôsledok preučenia. Typickým príznakom takétoho 

preučenia je, že napriek znovu klesajúcej chybe na testovacej množine vo 

fáze učenia, chyba neurónovej siete v skutočnej aplikácii je väčšia, ako keď 

sa použije neurónová sieť, ktorá dosiahla lokálne minimum pred opätovným 

klesaním chyby počas fázy trénovania. 



- gamma = 0.1 

- počet prvkov v trénovacej množine: 2000 

Výsledky 

Výsledky tohoto experimentu bolí získané tak, že neurónová sieť bola učená 

na trénovacej množine v 1000 krokoch, z chyby na testovacej a na tréno- 

vacej množine bol vytvorený graf (zobrazený na obrázku 27), boli určené 

prvé, druhé a tretie lokálne minimá z grafu priebehu učenia a boli porovnané 

dosiahnuté výsledky. 

Zhodnotenie 

Ako je zrejmé podľa ukážok obrázkov v tabuľke 11, je zjavné, že v tomto 

prípade učenia poradie lokálneho minima nemá vplyv na kvalitu spracovania. 

Jediný rozdiel v kvalite spracovania spôsobuje lepšie naučená neurónová sieť,


chyba [%] 

100 

80 

60 

40 

20 

0 

Trénovacia množina 


1. lok. min. 

0 200 400 600 800 1000 

počet cyklov učenia 

2. lok. min. 3. lok. 

Obr. 27: Graf priebehu učenia neurónovej siete 

Poradie Minimálna chyba Počet Spracovaný 

lokálneho na testovacej krokov obraz 

minima množine [%] učenia 

1. 16.6 250 

2. 14.6 550 

3. 13.1 800 

Tabuľka 11: závislosť výsledkov spracovania od poradia lokálneho minima


a teda lepšie výsledky dosahuje pri menšej percentuálnej chybe na testovacej 

množine, čo je očakávateľné. 

5.6 Porovnanie úspešnosti rôznych programov pre optické 

rozpoznávanie znakov 


V predošlých experimentoch bol vždy pre otpické rozpoznávanie znakov pou- 

žitý program ABBYY FineReader 7.0. Tento experiment má porovnať rôzne 

daľšie programy tohoto druhu, aby sa zistilo, či nie je možné s iným progra- 

mom dosiahnuť lepšie výsledky. 

Pre tento experiment bol použitý spracovaný obraz z experimentu na 

strane 51 s počtom prvkov v trénovacej množine 8000, pretože tento obraz sa 

javil ako najlepšie predspracovaný a tým pádom najviac vhodný pre optické 

rozpoznávanie znakov. 

V tomto experimente teda nebola použitá neurónová sieť, ale už len vý- 

sledok jej predspracovania. 

Výsledky 

Boli vyskúšané rôzne programy pre optické rozpoznávanie znakov, ich úspeš- 

nosť bola zaznamenaná v tabuľke 12. Boli použité skúšobné verzie týchto 

programov. 

Zhodnotenie 

Ako najlepšie programy pre optické rozpoznávanie znakov sa prejavili AB- 

BYY FineReader a TOCR. Ostatné programy nedosiahli také dobré výsledky. 

Je vhodné ešte spomenúť niektoré fakty: 

- SimpleOCR sa snaží na rozpoznané písmená napasovať anglické slová 

čo môže zlepšiť úspešnosť rozpoznania anglického textu. Pre slová, pri


Názov programu Verzia Úspešnosť [%] 

SimpleOCR 3.1 45.5 

Cuneiform 6.0 21.9 

ABBYY FineReader 7.0 87.9 

OCR-TextScan 2 Word 1.0 0.0 

Readiris Pro 9.0 32.9 

DocScan Pro OCR 6.1 0.0 

Image2PDF 1.8 0.0 

TOCR 2.0 86.4 

TopOCR 2.0 22.5 

TypeReader Professional 6.0 65.4 

Tabuľka 12: porovnanie úspešnosti rôznych programov pre optické rozpozná- 

vanie znakov 

Obr. 28: ABBYY FineReader - spracovaný a rozpoznaný text


Obr. 29: TOCR - spracovaný a rozpoznaný text 

ktorých si nie je istý, ponúka možnosť výberu jedného zo skupiny naj- 

viac podobných slov. 

- DocScan Pro OCR odmietol na takto predspracovanom obraze rozpoz- 

návať písmená, teda jeho úspešnosť bola stanovená na 0%. 

- TOCR (Transym OCR) dosiahol veľmi čistý výstup textu a i keď má o 

1.5% nižšiu úspešnosť ako ABBYY FineReader, mne sa zdal na optické 

rozpoznávanie písmen vhodnejši.


6 Celkové zhodnotenie 

Realizovanými experimentami som sa snažil zistiť potrebné parametre pre 

úspešné predspracovanie obrazu neurónovou sieťou. 

Ukázalo sa, že jednoduché generovanie obrazu za účelom simulácie obrazu 

získaného tlačou a zosnímaním obrazu nebolo ekvivalentnou náhradou sku- 

točne zosnímaného obrazu, postačilo však pre experimenty s rôznymi kombi- 

náciami textúry pozadia a písma a pre základné experimenty vzťahujúce sa 

na parametre neurónovej siete, ako napr. veľkosť vstupnej a skrytej vsrtvy, 

odskúšanie rôznych topológií neurónovej siete (vstup vektoru bodov do siete, 

vstup matice bodov do siete, výstup jedného bodu zo siete, výstup matice 

bodov zo siete). 

Experimentami som dospel k zisteniu, že pre úlohu spracovania a pred- 

spracovania obrazu neurónovou sieťou sa najviac osvedčila topológia s mati- 

cou bodov na vstupe a s jedným bodom na výstupe, čo je topológia inšpi- 

rovaná maticovými konvolučnými filtrami spomenutými v teoretickej časti 

popisujúcej tieto filtre v úlohe štandartných metód predspracovania obrazu. 

Na generovanom obraze bol testovaný vplyv šumu na schopnosť siete 

spracovať obraz, pretože je predpoklad, že ak ideálne dáta v trénovacej mno- 

žine mierne zašumíme, dosiahne sa zlepšenie spracovania reálneho, snímaného 

obrazu. Experiment ukázal, že do úrovne 15% šumu (čo je veľkosť zmeny ob- 

razových bodov a distribúcia šumu v priestore) je predspracovanie účinné bez 

badateľného zhoršenia chyby neurónovej siete pri trénovaní. Pri spracúvaní 

výsledného obrazu však nebolo zistené zlepšenie. 

Účelom tejto diplomovej práce bolo skúmať predspracovanie snímaného 

obrazu pred optickým rozpoznávaním znakov, preto bola viac ako polovica 

experimentov zameraná práve na snímaný obraz. 

Pre snímaný obraz bolo potrebné znovu realizovať niektoré experimenty 

týkajúce sa topológie neurónovej siete (veľkosť vstupnej a skrytej vrstvy), 

pretože snímaný obraz sa v porovnaní s generovaným obrazom vyznačoval 

mierne inými vlastnosťami. Ukázalo sa, že vstupná vrstva o veľkosti16 × 

16 neurónov, skrytá vrstva s veľkosťou 10 neurónov a výstupná vrstva s 2


neurónmi je postačujúca a vhodná topológia pre predspracovanie obrazu a 

jej použitím sa dá dosiahnuť 88.5% úspešnosť rozpoznania znakov z takto 

predspracovaného obrazu po 1000 krokoch učenia. 

Potrebné pre úspešnosť predspracovania obrazu sa ukázali aj experimenty 

týkajúce sa parametrov trénovacej množiny. Potvrdilo sa tvrdenie, že väčšia 

trénovacia množina je dôvodom menšieho počtu potrebných krokov učenia 

ako pri menšej trénovacej množine pre dosiahnutie rovnakej chyby. Dospel 

som však ešte k zisteniu, že trénovacia množina musí byť dostatočne veľká 

(v našom prípade aspoň 8000 prvkov), aby obsiahla všetky potrebné znalosti 

z obrazu pre kvalitné predspracovanie obrazu. Pre menšie trénovacie mno- 

žiny predspracovanie tiež funguje, ale dosahuje horšiu úspešnosť rozpoznania 

znakov z predspracovaného obrazu. 

Skúmal som ešte distribúciu prvkov v trénovacej množine a experiment 

potvrdil, že riadený výber prvkov do trénovacej množiny zlepšuje kvalitu 

spracovania, čo je najviac zreteľné pri menších trénovacích množinách, kde 

môže byť zlepšenie až 45%. Pri väčšej trénovacej množine bolo zlepšenie len 

5.8%, čo však predstavuje tiež podstatné zlepšenie, pretože je náročnejšie 

dosiahnuť zlepšenie pri malej chybe siete, ako pri veľkej chybe siete. 

Nakoniec som realizoval ešte porovnanie rôznych programov pre optické 

rozpoznávanie znakov a najlepšiu úspešnosť rozpoznania znakov dosiahli prog- 

ramy ABBYY FineReader 7.0 a Transym OCR (TOCR) 2.0.


7 Záver 

V tejto diplomovej práci zameranej na predspracovanie obrazu pred optickým 

rozpoznávaním znakov boli zdokumentované rôzne pokusy a metódy, ktoré 

boli odskúšané v úlohe predprespracovania. 

Zistené potrebné parametre neurónovej siete a celého systému predspra- 

covania obrazu neurónovou sieťou je možné nájsť v kapitolách venovaných 

experimentom so systémom, prípadne v celkovom zhodnotení v zhustenej 

forme. 

Všetky stanovené body tejto diplomovej práce boli úspešne splnené a 

dostatočne zdokumentované. Bolo vytvorených niekoľko pomocných aplikácií 

použitých pri experimentoch a jedna aplikácia ako finálny produkt diplomovej 

práce za účelom demonštrovať samotné predspracovanie obrazu. 

Podľa môjho názoru adaptívne metódy nelineárnej filtrácie obrazu (napr. 

pomocou neurónových sietí) majú veľký potenciál a preto by bolo vhodné 

venovať im väčšiu pozornosť. Výsledky tejto diplomovej práce ukázali, že pou- 

žitie neurónových sietí je výhodné, ale relatívne pomalé, preto by bolo možno 

vhodné zamerať časť výskumu aj na zrýchlenie dopredného šírenia signálu, 

prípadne na lepšiu implementáciu algoritmu dopredného šírenia signálu pre 

dosiahnutie vyššej rýchlosti spracovania.


Literatúra 

[1] P. Sinčák, G. Andrejková: Neurónové siete - inžiniersky prístup (dopredné 

neurónové siete) č.1. 

ELFA Press, 1996 

[2] P. Sinčák, G. Andrejková: Neurónové siete - inžiniersky prístup (rekurentné a 

modulárne neurónové siete) č.2. 

ELFA Press, 1996 

[3] R. Jakša: Neuronriadenie: využitie neurónových sietí v inteligentnom riadení 

Dizertačná práca, Technická univerzita Košice, 1999 

[4] M. Užák: Vizualizácia a interakcia v procese učenia neurónových sietí 

Diplomová práca, Technická univerzita Košice, 2005 

[5] Trevor Clarkson: Applications of Neural Networks in Telecommunications 

Strand, London WC2R 2LS, UK, 2000 

[6] D. de Ridder, R. P.W. Duin, M. Egmont-Petersen, L. J. van Vliet, P. W. 

Verbeek: Nonlinear image processing using artificial neural networks, 2003 

[7] R. Chellappa, K. Fukushima, A. K. Katsaggelos, S.Y. Kung, Y. Lecun, N. M. 

Nasrabadi, T. A. Poggio: Applications of Artificial Neural Networks to Image 

Processing 

IEEE transactions on image processing, vol. 7, no. 8, august 1998 

[8] S.Y. Kung, J. N. Hwang: Neural Networks for Intelligent Multimedia Proces- 

sing 

Proceedings of the IEEE, vol. 86, no. 6, june 1998 

[9] Optical character recognition 

http://en.wikipedia.org/wiki/Optical_character_recognition 

[10] Mustek, Inc.: Understanding OCR 

http://www2.mustek.com/Class/ocrinfo.html 

[11] Eric W. Brown: Character Recognition by Feature Point Extraction 

http://www.ccs.neu.edu/home/feneric/charrec.html, 1992


[12] Abdel Belaid: OCR: Print 

INRIA, Nancy, Lorraine, France 

http://cslu.cse.ogi.edu/HLTsurvey/ch2node5.html CRIN/CNRS 

[13] Christian Graus: Image Processing for Dummies with C# and GDI+ Part 2 

- Convolution Filters 

http://www.codeproject.com/script/ann/ 

ServeHTML.aspx?C=False&id=786&cb=4088493


Zoznam obrázkov 

1 Priebeh rozpoznania znakov na obraze . . . . . . . . . . . . . 3 

2 Zľava doprava: ideálny obraz, histogram obrazu, obraz spra- 

covaný prahovaním . . . . . . . . . . . . . . . . . . . . . . . . 11 

3 Zľava doprava: reálny obraz, histogram obrazu, obraz spraco- 

vaný prahovaním . . . . . . . . . . . . . . . . . . . . . . . . . 11 

4 Zľava doprava: tlačený obraz, histogram obrazu, obraz spra- 


5 Zľava doprava: zosnímaný obraz, histogram obrazu, obraz spra- 


6 Zľava doprava: tlačený obraz, vyhladený obraz, obraz spraco- 

vaný prahovaním . . . . . . . . . . . . . . . . . . . . . . . . . 14 

7 Zľava doprava: zosnímaný obraz, vyhladený obraz, obraz spra- 


8 Zľava doprava: zosnímaný obraz, obraz po vyhladení a detekcii 

hrán, obraz spracovaný prahovaním . . . . . . . . . . . . . . . 15 

9 Vľavo: vstup úrovní šedi, vpravo: výstupná úroveň šedi . . . . 18 

10 Dopredná neurónová sieť pre spracovanie obrazu. Zľava do- 

prava: vstupná vrstva, skrytá vrstva, výstupná vrstva. . . . . . 20 

11 Priebeh aktivačnej funkcie neurónu. Na osi X je vstupná hod- 

nota do aktivačnej funkcie, na osi Y je výstupná hodnota z 

aktivačnej funkcie. . . . . . . . . . . . . . . . . . . . . . . . . 22 

12 Koncept spracovania obrazu na text . . . . . . . . . . . . . . . 24 

13 Vývojový diagram pre aplikáciu predspracovania obrazu . . . 25 

14 Ukážka z programu pre predspracovanie obrazu neurónovou 

sieťou. Ďalšie ukážky z programu sa nachádzajú v prílohe A . 27 

15 Graf závislosti minimálnej chyby neurónovej siete na testova- 

cej množine vzhľadom na kombináciu popredia a pozadia . . . 33 

16 Závislosť učenia na inicializácii neurónovej siete . . . . . . . . 39 

17 Vplyv šumu na schopnosť učenie sa neurónovej siete . . . . . . 41


18 Spracovaný a rozpoznaný text. Počet prvkov v trénovacej mno- 

žine: 100. Úspešnosť rozpoznania: 1.04% . . . . . . . . . . . . 53 










žine: 12000. Úspešnosť rozpoznania: 85.3% . . . . . . . . . . . 54 

24 Závislosť počtu prvkov v trénovacej množine, dosiahnutej mi- 

nimálnej chyby na testovacej množine a úspešnosti rozpozna- 

nia znakov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

25 Spracovaný a rozpoznaný text. Typ výberu prvkov: náhodný. 

Počet prvkov v trénovacej množine: 1000. Úspešnosť rozpoz- 

nania: 4.2% . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

26 Spracovaný a rozpoznaný text. Typ výberu prvkov: riadený. 

Počet prvkov v trénovacej množine: 1000. Úspešnosť rozpoz- 

nania: 50.3% . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

27 Graf priebehu učenia neurónovej siete . . . . . . . . . . . . . . 61 

28 ABBYY FineReader - spracovaný a rozpoznaný text . . . . . 63 

29 TOCR - spracovaný a rozpoznaný text . . . . . . . . . . . . . 64 

30 Aplikácia po spustení. . . . . . . . . . . . . . . . . . . . . . . 74 

31 Je potrebné otvoriť spracúvaný obrázok. . . . . . . . . . . . . 74 

32 Spracúvaný obrázok sa sa zobrazí na vstupnej aj výstupnej 

časti aplikácie. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

33 Pri trénovaní je potrebné zvoliť oblasť trénovania. . . . . . . . 75 

34 Do riadku vpravo dole sa vpíše časť textu, ktorý je na vstup- 

nom obrázku. . . . . . . . . . . . . . . . . . . . . . . . . . . . 76


35 Text je potrebné umiestniť presne tam, kde sa na obrázku 

nachádza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

36 Je možné zvoliť veľkosť a typ fontu. . . . . . . . . . . . . . . . 77 

37 V celej trénovacej oblasti je potrebné prekryť každý text na 

obrázku. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

38 Potom je potrebné stlačiť tlačidlo ’Train’ pre začatie tréno- 

vania. V modrom okienku hore sa zobrazuje odhadnutý čas 

ukončenia trénovania. . . . . . . . . . . . . . . . . . . . . . . . 78 

39 Nakoniec sa zobrazí dosiahnutá chyba neurónovej siete. . . . . 78 

40 Po stlačení tlačidla ’Proc’ je potrebné vybrať neurónovú sieť, 

ktorú použijeme na samotné prespracovanie obrazu. . . . . . . 79 

41 Priebeh spracovania obrazu sa zobrazuje hore v percentách. . . 79 

42 V pravej časti aplikácie vidíme spracovaný obrázok. . . . . . . 80 

43 Spracovaný obrázok uložíme s ľubovoľným názvom. . . . . . . 80 

44 This is what you get when you scan the printed text. . . . . . 83 

45 Image after smoothing (mid) and thresholding (right). . . . . . 84 

46 Schematical drawing of a 2D image filter. . . . . . . . . . . . . 85 

47 Schematical drawing of neural network . . . . . . . . . . . . . 85 

48 Workflow chart of Image PreProcessing application. . . . . . . 87 

49 Screenshot from the Image PreProcessing application. . . . . . 88 

50 Example of some foreground and background combinations . . 89 

51 Graph of relation between combination of textures and the 

minimal error reached on the neural network. . . . . . . . . . 89


Zoznam tabuliek 

1 Generovaný obraz: kombinácie pozadia a popredia . . . . . . . 30 

2 Závislosti chyby neurónovej siete na kombinácii popredia a 

pozadia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

3 Závislosť úspešnosti učenia na veľkosti vstupnej vrstvy . . . . 35 

4 Závislosť úspešnosti učenia na veľkosti skrytej vrstvy . . . . . 37 

5 Závislosť učenia na inicializácii neurónovej siete . . . . . . . . 39 

6 Vplyv šumu na schopnosť učenie sa neurónovej siete . . . . . . 42 

7 Závislosť úspešnosti rozpoznania znakov na vstupnej vrstve . . 47 

8 Závislosť úspešnosti učenia sa na veľkosti skrytej vrstvy . . . . 50 

9 Vplyv veľkosti trénovacej množiny na kvalitu spracovania obrazu 52 

10 Vplyv distribúcie bodov na kvalitu spracovania obrazu . . . . 58 

11 Závislosť výsledkov spracovania od poradia lokálneho minima . 61 

12 Porovnanie úspešnosti rôznych programov pre optické rozpoz- 

návanie znakov . . . . . . . . . . . . . . . . . . . . . . . . . . 63


A Ukážka aplikácie ’Image PreProcessor’ 

Obr. 30: Aplikácia po spustení. 

Obr. 31: Je potrebné otvoriť spracúvaný obrázok.


Obr. 32: Spracúvaný obrázok sa sa zobrazí na vstupnej aj výstupnej časti 

aplikácie. 

Obr. 33: Pri trénovaní je potrebné zvoliť oblasť trénovania.


Obr. 34: Do riadku vpravo dole sa vpíše časť textu, ktorý je na vstupnom 

obrázku. 

Obr. 35: Text je potrebné umiestniť presne tam, kde sa na obrázku nachádza.


Obr. 36: Je možné zvoliť veľkosť a typ fontu. 

Obr. 37: V celej trénovacej oblasti je potrebné prekryť každý text na obrázku.


Obr. 38: Potom je potrebné stlačiť tlačidlo ’Train’ pre začatie trénovania. V 

modrom okienku hore sa zobrazuje odhadnutý čas ukončenia trénovania. 

Obr. 39: Nakoniec sa zobrazí dosiahnutá chyba neurónovej siete.


Obr. 40: Po stlačení tlačidla ’Proc’ je potrebné vybrať neurónovú sieť, ktorú 

použijeme na samotné prespracovanie obrazu. 

Obr. 41: Priebeh spracovania obrazu sa zobrazuje hore v percentách.


Obr. 42: V pravej časti aplikácie vidíme spracovaný obrázok. 

Obr. 43: Spracovaný obrázok uložíme s ľubovoľným názvom.


B Abstrakt diplomovej práce v anglickom 

jazyku


Image preprocessing for optical character 

Abstract 

recognition using neural networks 

Author: Miroslav NOHAJ, jookie@szm.sk 

Supervisor: Rudolf JAKŠA, jaksa@neuron.tuke.sk 

Primary task of this master’s thesis is to create a theoretical and practical 

basis of preprocessing of printed text for optical character recognition using 

forward-feed neural networks. Demonstration application was created and its 

parameters were set according to results of realized experiments. 

Project definition and task determination 

1. Write a introduction about the problematics of optical character re- 

cognition of characters and the methods of image preprocessing before 

optical character recognition. 

2. Design a system for image preprocessing using neural networks. 

3. Implement the designed system and simulator of printed text. 

4. Realize experiments to determine the settings of the system and to 

compare the different approaches. 

5. Evaluate the realized experiments and their possible practical use. 

6. Write a documentation according to the supervisor’s instructions. 

Introduction 

Almost everyone who is working with computers has to input some text to the 

computer from the paper. There is not only one way to do that. The smartest


Obr. 44: This is what you get when you scan the printed text. 

way is to scan the document and let software for optical character recognition 

(shortened: OCR) transform the scanned image into editable text. The OCR 

software can use methods like: 

- matrix comparation of image with letter examples from library 

- feature extraction from image 

- recognition of characters using neural networks 

- hybrid and combined methods 

- other methods 

Each method listed above has some advantages and disagvantages, so if you 

are using OCR software which uses any of those methods, you know what 

you can expect. Flexibility of the methods listed above varies from one to 

another, but even the less flexible method’s success can be improved using 

image preprocessing before the OCR. 

The most used methods of image preprocessing before OCR are: 

- thresholding based on histogram 

- smoothing 

- other 2D matrix filters 

I won’t describe any of these methods of preprocessing here because they’re 

pretty much known to the public.


Obr. 45: Image after smoothing (mid) and thresholding (right). 

On the picture 42 on the left is what you will get if you will scan the 

printed text. Note that the scanned image contains levels of gray that were 

never printed and that were never designed on the screen of the computer. 

Image like this is not thresholdable - the threshold is useless and the OCR 

can’t be used. 

If you would apply a light smoothing couple times on the image on the 

picture 44 or a heavy smoothing once, you can get a result like this one: 

As you can see, the smoothing (in some sort) converted the different levels 

of gray into less levels of more similiar levels of gray. On the image on the 

picture 45 in the middle a threshold can be applied with better results than 

on the image on the left. But as you can see, with threshold you will loose 

some parts of the text (picture 45 on the right) or you will fail to remove 

some parts of the background (but the text will not loose anything). So this 

is the case when the different method of preprocessing must be used. 

Design and implementation 

Most of the standart and well known methods works by determining the new 

value of the level of shade of the image pixel by multiplying the current level 

of shade of the pixel and its neighbours by some coeficients. These coeficients 

are described in a convolution matrix.This matrix can be displayed as a set 

of input pixels connected with the output pixel with lines with wieghts. (See 

the picture 46) In artificial inteligence, the most similiar thing to this filter 

is a forward-feed neural network, because: 

- the input can be organized in the mask of N × N


in 

in 

in 

1,1 

1,2 

1,3 

in 

in 

in 

2,1 

2,2 

23 

in 

in 

in 

3,1 

3,2 

3,3 

k 

2,1 

k 

Obr. 46: Schematical drawing of a 2D image filter. 

in1,1 

in1,2 

in1,3 

in2,1 

in2,2 

in2,3 

in3,1 

in3,2 

in3,3 

1,3 

k 

3,1 

h 1 

h 2 

h 3 

out 

out1 

out2 

Obr. 47: Schematical drawing of neural network 

- the output can be one (or more) pixels 

- the signal flows from the input to the output 

- the input and output are connected with lines which have weights 

So a very similiar forward-feed neural network to the 2D filter can look like 

one shown on the picture 47. I’ve chosen the parameters of used neural ne- 

twork: 

- type of neural network: forward-feed full-connection neural network 

- learning method: standart error back-propgation 

- input layer of N × N neurons 

- hidden layer of M neurons 

- output layer of 2 neurons (one for direct level of shade and one for 

inverted level of shade)


- activation function: f(xi)= 1 

1+e −λ∗x i 

Note that parameters M and N were determined by experiments. 

The ’Image PreProcessing’ application was designed for the purpose of 

image preprocessing using neural networks, the workflow chart is shown on 

the picture 48. The application can be done in three different ways: 

- fully automatic application 

- half-automatic application 

- manualy controled application 

On the picture 48 are two boxes which are affected by these three different 

ways. Determine background and foreground combination is done 

automaticaly in the concept of fully automatic and half-automatic aplica- 

tions and it would require some logic to compare the current foreground 

and background to known combinations of foreground and background (this 

could be done by modular neural network). Create training and testing 

pattern would need computer vision and OCR itself to determine the text 

on the original picture, that’s why it is automatic only in the concept of 

fully automatic application. Because the main target of this masters thesis 

was to do research on image preprocessing using neural networks and not 

to make the best preprocessing application, I decided to use the concept of 

manualy controled application for my ’Image PreProcessor’. This way user 

has to input the text he sees on the picture and place the text exactly over 

the text on the picture and then the application can create the training and 

testing pattern. You can see a screenshot from the ’Image PreProcessor’ on 

the picture 49. 

Experiments 

Some experiments must have been realised to determine some parameters 

of the Image PreProcessing system and its neural network. On more scan- 

ned documents I have found 25 different combinations of background and


START 

Load 

Image 

Convert shades of 

gray to floating 

point numbers 

Determine background 

and foreground 

combination 

Do we have NN 

trained? 

Process 

image 

STOP 

yes 

Load NN 

weights 

Convert floating 

point numbers to 

shades of gray 

Save 

image 

no 

Create training and 

testing pattern 

Train NN 

Save NN 

weights 

Obr. 48: Workflow chart of Image PreProcessing application.


Obr. 49: Screenshot from the Image PreProcessing application. 

foreground. I created a ’Printed text simulator’ which generates images with 

text which is texturised with the textures found in the scanned documents. 

Examples of the generated pictures are on picture 50. 

The first experiment was intended to determine which combination of 

foreground and background on the generated image is the most problematic. 

As the graph on picture 51 shows that combination number 17 is the most 

problematic, so it was chosen for the next set of experiments on generated 

images. The next experiments showed that the neural network must have the 

input layer of size at least3 ×3 neurons to work sufficiently on the generated 

image and the hidden layer of size at least 3 neurons. 

I was also testing how the initialization of neural network affects the 

learning of neural network and also the final achieved minimal error of the 

neural network. I’ve found out that the average minimal error on the 17th 

combination of foreground and background was 7.82% and that it may vary 

about 1% because of different initialization. 

The other experiment showed that the neural network can process well 

the image with 15% or less of noise. 

I have done also experiments on the scanned image with the scanning


Obr. 50: Example of some foreground and background combinations 

error [%] 

10 

8 

6 

4 

2 

training pattern 

0 

0 5 10 15 20 25 

foreground and background combination 

Obr. 51: Graph of relation between combination of textures and the minimal 

error reached on the neural network.


resolution of 200 dpi 3 . The experiments showed that the best size of input 

layer of neural network is16 ×16 neurons with this this scanned image in 

this scanning resolution. Also the size of hidden layer was determined and 

the experiment showed that the hidden layer should have at least 10 neurons. 

There were done some experiments with the training pattern generating. 

If the image preprocessing has to be good enough, the training pattern should 

have at least 8000 samples and their distribution should be controled. 

The best recognition success that was achieved after image preprocessing 

was 87.9% of letters correctly recognized. The software used for OCR was 

ABBYY FineReader 7.0 (trial version). 

Contribution to the research domain 

This master’s thesis does a research of image preprocessing before optical 

character recognition using neural networks. It is a benefit to the research 

domain because the image preprocessing using neural networks isn’t ade- 

quately examined and it has a lot of potential. I think that the nonlinear 

adaptive filtering which can be done using neural networks is much more 

better than linear filtering and it is the future of the image processing and 

preprocessing. You can find some theoretical and practical basics in this mas- 

ter’s thesis about this topic. 

Conclusion 

As this master’s thesis shows, the neural networks can be used for image 

preprocessing pretty well with many advantages over normal image prepro- 

cessing methods. For more information about mentioned experiments and 

application please read the full master’s thesis (in slovak language). 

3 dots per inch


References 

[1] P. Sinčák, G. Andrejková: Neurónové siete - inžiniersky prístup (dopredné ne- 

urónové siete) č.1., ELFA Press, 1996 

[2] P. Sinčák, G. Andrejková: Neurónové siete - inžiniersky prístup (rekurentné 

a modulárne neurónové siete) č.2., ELFA Press, 1996 

[3] R. Jakša: Neuronriadenie: využitie neurónových sietí v inteligentnom riadení, 

Dizertačná práca, Technická univerzita Košice, 1999 

[4] M. Užák: Vizualizácia a interakcia v procese učenia neurónových sietí, Dip- 

lomová práca, Technická univerzita Košice, 2005 

[5] Trevor Clarkson: Applications of Neural Networks in Telecommunications, Strand, 

London WC2R 2LS, UK, 2000 

[6] D. de Ridder, R. P.W. Duin, M. Egmont-Petersen, L. J. van Vliet, P. W. Ver- 

beek: Nonlinear image processing using artificial neural networks, 2003 

[7] R. Chellappa, K. Fukushima, A. K. Katsaggelos, S.Y. Kung, Y. Lecun, N. 

M. Nasrabadi, T. A. Poggio: Applications of Artificial Neural Networks to Image 

Processing, IEEE transactions on image processing, vol. 7, no. 8, august 1998 

[8] S.Y. Kung, J. N. Hwang: Neural Networks for Intelligent Multimedia Proces- 

sing, Proceedings of the IEEE, vol. 86, no. 6, june 1998 

[9] Optical character recognition 

http://en.wikipedia.org/wiki/Optical_character_recognition 

[10] Mustek, Inc.: Understanding OCR 

http://www2.mustek.com/Class/ocrinfo.html 

[11] Eric W. Brown: Character Recognition by Feature Point Extraction 

http://www.ccs.neu.edu/home/feneric/charrec.html, 1992


[12] Abdel Belaid: OCR: Print, INRIA, Nancy, Lorraine, France 

http://cslu.cse.ogi.edu/HLTsurvey/ch2node5.html CRIN/CNRS 

[13] Christian Graus: Image Processing for Dummies with C# and GDI+ Part 

2 - Convolution Filters 

http://www.codeproject.com/script/ann/ 

ServeHTML.aspx?C=False&id=786&cb=4088493

Predspracovanie obrazu pre optické rozpoznávanie ... - TUKE

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?