Odkrivanje zakonitosti v podatkih Urnik Seznam študentov Cilji ... - IJS

Odkrivanje zakonitosti 

v podatkih 

predavateljici: 

prof. dr. Nada Lavrač, doc. dr. Dunja Mladenić 

Bucik Janez 

Ferjančič Uroš 

Koblar Valentin 

Korečič Bojan 

Lazar Marko 

Malik Gregor 

Milanović Daniela 

Morenčič Janoš 

Sever Kristjan 

Srebrnič Vidojka 

Štokelj Matjaž 

asistenta: 

Petra Kralj, Blaž Fortuna 

Institut Jožef Stefan 

Ljubljana, Slovenija 

Seznam študentov 

Vsebina – Analiza tabelaričnih podatkov 

(N. Lavrač, P. Kralj) 

I. Uvod 

• Odkrivanje zakonitosti v 

podatkovnih bazah (Data 

Mining, Knowledge 

Discovery in Databases), 

strojno učenje in 

statistika 

• Metode in primeri 

• Aplikacije odkrivanja 

znanja v projektu Sol-Eu- 

Net 

II. Napovedna indukcija 

• Naivni Bayesov klasifikator 

• Učenje odločitvenih 

dreves 

• Učenje klasifikacijskih 

pravil 

• Evalvacija klasifikatorjev 

III.Opisna indukcija 

• Napovedna vs. Opisna 

indukcija 

• Odkrivanje podskupin 

• Učenje povezovalnih pravil 

• Razvrščanje v skupine 

IV. Relacijsko učenje, 

Literatura, Povzetek 

V. Praktične vaje 

• Uporaba orodij za rudarjenje 

podatkov (WEKA, Orange) 

1 

3 

5 

Urnik 

• ponedeljek, 5.3. - Nada Lavrač, 4 ure 

• ponedeljek, 12.3. - Nada Lavrač, 4 ure 

• petek, 16.3., računalniška učilnica - Petra Kralj, 3 ure 

• ponedeljek, 19.3. - Dunja Mladenić, 4 ure 

• petek, 23.3., računalniška učilnica - Petra Kralj, 3 ure 

• ponedeljek, 26.3. - Dunja Mladenić, 4 ure 

• petek, 30.3., računalniška učilnica - Blaž Fortuna, 4 

ure 

• seminar petek 11.5. – Nada Lavrač, Petra Kralj, 4 ure 

Cilji in vsebina predmeta 

Osnovni cilj predmeta je predstaviti metode in tehnike 

podatkovnega rudarjenja in odkrivanja zakonitosti v 

podatkih ter študente usposobiti za reševanje problemov 

analize podatkov na področju raziskovanja, industrijskih, 

upravljalskih in družboslovnih aplikacij. 

Študenti bodo seznanjeni z osnovami podatkovnega 

rudarjenja in odkrivanja zakonitosti v podatki ter s 

postopkom odkrivanja zakonitosti v podatkih po 

standardih CRISP-DM metodologije. 

Predstavili bomo metode in orodja podatkovnega rudarjenja 

in odkrivanja zakonitosti v podatkih (učenje 

klasifikacijskih in asociacijskih pravil, odločitvenih 

dreves, razvrščanje v skupine, odkrivanje podskupin, 

učenje relacijskih modelov, analiza tekstovnih podatkov), 

hevristike, postopke ocenjevanja kvalitete naučenih 

vzorcev ter metodologijo evalvacije rezultatov. 

Študente bomo tudi usposobili za praktično uporabo 

izbranih orodij rudarjenja podatkov. 

Prvi del: Uvod 

• Odkrivanje zakonitosti v podatkovnih 

bazah (Data Mining, Knowledge 

Discovery in Databases), strojno 

učenje in statistika 


• Aplikacije odkrivanja znanja v 

projektu Sol-Eu-Net 

2 

4 

6 

1

Odkrivanje zakonitosti v 

podatkih (KDD) 

“Odkrivanje zakonitosti v podatkih je 

proces identifikacije veljavnih, novih, 

potencialno uporabnih in razumljivih 

vzorcev v podatkih.” 

Usama M. Fayyad, Gregory Piatesky-Shapiro, Pedhraic Smyth: The KDD Process for Extracting 

Useful Knowledge form Volumes of Data. Comm ACM, Nov 96/Vol 39 No 11 



• Povzetek: Odkrivanje zakonitosti v podatkih je 

proces gradnje modelov in identifikacije 

zanimivih vzorcev v podatkih. 

• Proces vključuje več faz: 

– razumevanje in priprava podatkov 

– analiza podatkov (data mining, machine 

learning, statistics) 

– evalvacija in uporaba odkritih vzorcev 

• Analiza podatkov: ključna faza, le 15%-25% 

celotnega KDD procesa 

Proces odkrivanja znanja iz 

podatkov 

• tabela n-terk, relacijska podatkovna baza, 

tekst, slike, podatkovna skladišča 

7 

9 

11 



“Odkrivanje zakonitosti v podatkih je 

proces identifikacije veljavnih, novih, 

potencialno uporabnih in razumljivih 

vzorcev v podatkih.” 

proces: iterativni proces čiščenja podatkov in luščenja 

koristnih informacij/znanja iz podatkov 

veljavnost: omogoča posplošitve tudi za prihodnost 

novost: doslej še neznane relacije v podatkih 

uporabnost: koristnost za reševanje zastavljene naloge 

razumljivost: omogoča človeško razumevanje in nova 

spoznanja 

Usama M. Fayyad, Gregory Piatesky-Shapiro, Pedhraic Smyth: The KDD Process for Extracting 

Useful Knowledge form Volumes of Data. Comm ACM, Nov 96/Vol 39 No 11 


podatkov 


podatkov 



• izbor podmnožice podatkov in spremenljivk 

8 

10 

12 

2


podatkov 




• čiščenje podatkov, izločanje šuma, obravnava 

manjkajočih vrednosti 


podatkov 

• Data Mining (DM): uporaba algoritmov za 

analizo podatkov: iskanje vzorcev izbrane 

oblike (odločitvena drevesa, pravila, ...), 

glede na tip naloge (klasifikacija, 

napovedovanje,razvrščanje v skupine, ...) 


podatkov 

• Data Mining (DM) – uporaba algoritmov za 




predikcija, razvrščanje v skupine, ...) 

• izbor/evaluacija glede na dane kriterije, druge 

izluščene vzorce, ekspertno znanje ... 

• vključitev znanja v SW za reševanje problema 

13 

15 

17 


podatkov 




• čiščenje podatkov, izločanje šuma, obravnava 

manjkajočih vrednosti 

• transformacija v obliko, ki jo zahteva izbrani 

algoritem za analizo podatkov 


podatkov 

• Data Mining (DM) – uporaba algoritmov za 




napovedovanje, razvrščanje v skupine, ...) 

• izbor/evaluacija glede na dane kriterije, druge 

izluščene vzorce, ekspertno znanje ... 

CRISP-DM 

• Cross-Industry Standard Process for DM 

• 18-mesečni projekt, delno financiran s strani 

Evropske komisije, 1997-98 

• NCR, ISL (Clementine), Daimler-Benz, OHRA 

(Dutch health insurance companies) in več kot 80 

članski SIG 

• Cilj: standardizacija procesa DM (DM from art to 

engineering) 

• Širši pogled na rudarjenje podatkov (data mining) 

kot je definiran v Fayyad et al.: CRISP-DM 

obravnava rudarjenje podatkov (DM) kot KDD 

proces 

14 

16 

18 

3

CRISP Data Mining Process 

• DM Tasks 

Primeri nalog 

• Napovedovanje 

– klasifikacija in predikcija 

učenje odločitvenih dreves 

in klasifikacijskih pravil 

– regresijska analiza, ... 

– relacijska analiza podatkov 

(ILP) 

• Opisovanje 

– analiza povezav 

učenje povezovalnih pravil 

– razvrščanje v skupine 

– odkrivanje podskupin, ... 

• Analiza teksta, spletnih strani, 

slik, ... 

Opisna indukcija: 

Formulacija problema 

+ 

- 

- - 

x 

+ 

+ 

x 

x 

x 

x 

• Podana je: 

– množica postavk (meritev, 

opazovanj – angl. items): 

• pozitivni primeri E + 

– predznanje B 

– jezik za opis hipotez LH – relacija pokritosti 

• Poišči 

+ + 

+ 

H 

+ 

– Najbolj specifično hipotezo H ∈ LH , tako da (pri danem B) H 

pokriva vse pozitivne primere 

– V logiki to zahtevo izrazimo tako, da iščemo tako hipotezo H, da 

velja ζα ∀c ∈ H, da je c resničen v nekem izbranem modelu B∪E 

(npr. v najmanjšem Herbrandovem modelu M(B∪E)) 

+ x x 

19 

H 

21 

23 









Napovedna indukcija: 

Formulacija problema 

• Podana je: 

– množica primerov (meritev, opazovanj, …) 

• pozitivni primeri E + 

• negativni primeri E- + 

– predznanje B 

+ 

– jezik za opis hipotez L H 

H 

- 

- 

– relacija pokritosti 

• Poišči: 

– hipotezo H ∈ L H , tako da (pri danem B) H pokriva 

vse pozitivne primere in nobenih negativnih 

primerov 

– V logiki to zahtevo izrazimo tako, da iščemo tako 

hipotezo H, da velja 

• e ∈ E + : B ∧ H |= e (H je kompletna) 

• e ∈ E - : B ∧ H |= e (H je konsistentna) 

Napovedovanje kot 

naloga strojnega učenja: 

• Dana je množica učnih primerov (tabela n-terk 

vrednosti atributov označenih z imenom razreda) 

– A1 A2 A3 Razred 

– primer1 v1,1 v1,2 v1,3 C1 – primer2 v2,1 v2,2 v2,3 C2 – . . 

• S postopkom generalizacije iz primerov (indukcija) 

poišči hipotezo (klasifikacijska pravila, odločitveno 

drevo, ...), ki pojasnjuje učne primere, npr. pravila 

oblike: 

– (Ai = vi,k ) & (Aj = vj,l ) & ... Razred = Cn + 

- 

+ 

20 

22 

24 

4

Primer: izbor kontaktnih leč 

Oseba Starost Dioptrija Astigmat. Solzenje Leče 

O1 mlad kratko ne zmanjšano NE 

O2 mlad kratko ne normalno MEHKE 

O3 mlad kratko da zmanjšano NE 

O4 mlad kratko da normalno TRDE 

O5 mlad daleko ne zmanjšano NE 

O6-O13 ... ... ... ... ... 

O14 pr_st_dal daleko ne normalno MEHKE 

O15 pr_st_dal daleko da zmanjšano NE 

O16 pr_st_dal daleko da normalno NE 

O17 st_daleko kratko ne zmanjšano NE 

O18 st_daleko kratko ne normalno NE 

O19-O23 ... ... ... ... ... 

O24 st_daleko daleko da normalno NE 

Klasifikacijska pravila 

• Tip naloge: napovedovanje in klasifikacija 

• Opisni jezik: pravila X R, če X potem R 

•X konjunkcija vrednosti atributov, R razred 

• Primer: Kontaktne leče 

1.solzenje=zmanjšano leče=NE 

2. solzenje=normalno & astigmatizem=da & 

dioptrija=dalekovidnost leče=NE 

3. solzenje=normalno & astigmatizem=ne 

leče=MEHKE 

4. solzenje= normalno & astigmatizem=da & 

dioptrija=kratkovidnost leče=TRDE 

Odločitvena drevesa 

• Primer: ocenjevanje kupcev 

slab 

= ženski 

Starost 

≤ 49 > 49 

dober 

Spol 

= moški 

slab 

25 

27 

29 



• Opisni jezik: odločitvena drevesa 

notranja vozlišča: atributi, veje: vrednosti 

atributov, listi: razred 

zmanjšano 

NE 

solzenje 

normalno 

astigmatizem 

ne da 

MEHKE 

kratkovidnost 

TRDE 

dioptrija 

Primer: ocenjevanje kupcev 

Kupec Spol Starost Dohodek Poraba Ocena 

c1 moški 30 214000 18800 dober 

c2 ženski 19 139000 15100 dober 

c3 moški 55 50000 12400 slab 

c4 ženski 48 26000 8600 slab 

c5 moški 63 191000 28100 dober 

O6-O13 ... ... ... ... ... 

c14 ženski 61 95000 18100 dober 

c15 moški 56 44000 12000 slab 

c16 moški 36 102000 13800 slab 

c17 ženski 57 215000 29300 dober 

c18 moški 33 67000 9700 slab 

c19 ženski 26 95000 11000 slab 

c20 ženski 55 214000 28800 dober 

dalekovidnost 

Odločitveno in regresijsko drevo 

za ocenjevanje kupcev 

slab 

= ženski 

Starost 

≤ 49 > 49 

dober 

16500 

Spol 

≤ 108000 

Starost 

= moški 

slab 

≤ 42.5 > 42.5 

Dohodek 

26700 

NE 

> 108000 

12000 

26 

28 

30 

5

ID 


• Primer: Ocenjevanje kupcev 

1. Dohodek > 108000 Ocena = dober 

2. Starost ≥ 49 & Dohodek > 57000 Ocena = dober 

3. Starost ≤ 56 & Dohodek < 98500 Ocena = slab 

4. Dohodek < 51000 Ocena = slab 

5. 33 < Starost ≤ 42 Ocena = slab 

6. DEFAULT Ocena = dober 

Povezovalna pravila 

za ocenjevanje kupcev 

• Starost > 52 & Ocena = slab Spol = moški 

• Starost > 52 & Ocena = slab 

Spol = moški & Dohodek ≤ 73250 

• Spol = moški & Starost > 52 & 

Dohodek ≤ 73250 Ocena = slab 

... 

3478 

3479 

... 

... 

Smith 

Doe 

... 

ID 

... 

Name 

3478 

3479 

... 

First 

name 

... 

John 

Jane 

... 

Zip 

... 

34667 

43666 

... 

Street 

... 

38, 

Lake 

Dr 

45, 

Sea Ct 

... 

City 

... 

Sampleton 

Invention 

... 

Zip 

... 

34677 

43666 

... 

Sex 

... 

male 

female 

... 

Social 

status 

... 

single 

marred 

... 

... 

i60- 

70k 

i80- 

90k 

Tabela 1: Osnovna tabela kupcev 

Sex 

... 

m 

f 

... 

Soc St 

... 

si 

ma 

... 

Income 

... 

60-70 

80-90 

... 

Age 

... 

32 

45 

... 

Income 

... 

... 

Age 

... 

32 

45 

... 

Club 

... 

me 

nm 

Club 

status 

... 

member 

nonmember 

... 

Resp 

... 

nr 

re 

... 

31 

33 

Response 

... 

no 

response 

response 

... 


• Tip naloge: opisovanje 

• Opisni jezik: pravila X Y, če X potem Y 

X, Y konjunkcija postavk (binarnih atributov) 

• Primeri: 

– Trgovina: 

pivo & Coca-Cola arašidi & čips (0.05, 0.65) 

– Zavarovalništvo: 

posojilo = da & varčevanje = da 116 

zavarovanje = da 95 (0.82) 

• Podpora: Po(X,Y) = #XY/#D = p(XY) 

• Zaupanje: Za(X,Y) = #XY/#X = p(XY)/p(X) = 

p(Y|X) 

Analiza relacijskih podatkov: 

Induktivno logično programiranje 

• Analiza podatkov 

shranjenih v 

relacijskih 

podatkovnih 

bazah 

• Učenje iz več 

relacijskih tabel: 

večrelacijsko 

učenje ali 

induktivno 

logično 

programiranje 

ID 

... 

3478 

3479 

... 

Kako izrazimo neko lastnost dane relacije ? 

Tabela 2. Tabela za analizo 35 

customer(_,_,f,_,_,_,_,_). 

36 

Zip 

... 

34667 

43666 

... 

Sex 

... 

m 

f 

... 

Soc St 

... 

si 

ma 

... 

Income 

... 

60-70 

80-90 

... 

Age 

... 

32 

45 

... 

Logični izrazni jezik: Prolog 

Club 

... 

me 

nm 

Tabela kupcev predstavljena v logični obliki 

Format: Prologova dejstva (facts): 

customer(Id,Zip,Sex,SoSt,In,Age,Club,Re) 

Prologova dejstva za opis podatkov v Tabeli 2: 

customer(3478,34667,m,si,60-70,32,me,nr). 

customer(3479,43666,f,ma,80-90,45,nm,re). 

... 

Resp 

... 

nr 

re 

... 

32 

34 

6

Analiza relacijskih podatkov: 

Induktivno logično programiranje 

Podatkovne baze: 

• ime relacije p 

• attribut relacije p 

• n-terka < v1, ..., vn > = 

vrstica v relacijski tabeli 

• relacija p = množica n-terk 

= relacijska tabela 

Logično programiranje: 

• predikatni simbol p 

• argument predikata p 

• osnovno dejstvo p(v1, ..., vn) 

• definicija predikata p 

• množica osnovnih dejstev 

• Prologov stavek ali množica 

Prologovih stavkov 

Primer definicije predikata: 

good_customer(C) :customer(C,_,female,_,_,_,_,_), 

order(C,_,_,_,creditcard). 

Področja aplikacij analize podatkov 

• Bančništvo in finance (analiza strank, investicij, 

odobravanje posojil, …) 

• Zavarovalništvo (analiza strank, …) 

• Telekomunikacije (odkrivanje zlorab, …) 

• Trgovina (organizacija ponudbe v samopostrežnih 

trgovinah, določitev lokacije trgovin, analiza dobrih 

strank – kako zadržati stranko, kako ji ponuditi 

dodatne usluge, kako identificirati potencialne kupce 

za kataloško prodajo, ...) 

• Medicina in zdravstvo (napovedovanje stroškov 

hospitalizacije, odkrivanje novih diagnostičnih 

dejavnikov ter novih diagnostičnih in prognostičnih 

pravil, …) 

• Znanosti o okolju (ocenjevanje onesnaženosti voda, 

napovedovanje povečevanja gozdnih površin, ...) 

Povezana področja 

Statistika, 

strojno učenje, 

razpoznavanje 

vzorcev in 

mehko računanje* 

• tehnike za 

klasifikacijo in 

zajemanje znanja 

iz podatkov 

obravnava 

besedil 

podatkovne 

baze 

statistika 

odkrivanje 

zakonitosti 

strojno 

učenje 

mehko 

vizualizacija 

računanje 

razpoznavanje 

vzorcev 

37 

39 

Analiza relacijskih podatkov 

Večrelacijsko učenje 

omogoča reševanje 

kompleksnih 

relacijskih 

problemov: 

• časovni podatki: 

časovne vrste v 

medicini, analizi 

prometa, ... 

• strukturirani podatki: 

predstavitev molekul 

in njih. lastnosti v 

proteinskem 

inženirstvu, 

biokemiji, ... 

Tehnologija 

podatkovnih baz in 

podatkovna 

skladišča 

• učinkovito 

shranjevanje, 

doseganje in 

manipuliranje s 

podatki 

Class 

Element 

AtomType 

Charge 

Molecule 

1 

1 

Has 

M 

Atom 

Bond 


obravnava 

besedil 

podatkovne 

baze 

1 

statistika 

odkrivanje 


BondType 

strojno 

učenje 

Ind1 

IndA 

Lumo 

LogP 

mehko 

vizualizacija 

računanje 

razpoznavanje 

vzorcev 


Obravnava besedil 

(tekst, WWW) 

• analiza spletnih 

strani 

• kategorizacija 

besedil 

• zajemanje, 

filtriranje in 

strukturiranje 

informacij 

• procesiranje 

naravnega jezika 

obravnava 

besedil 

podatkovne 

baze 

statistika 

odkrivanje 


* nevronske mreže, mehka logika, genetski algoritmi, verjetnostno sklepanje 41 

42 

strojno 

učenje 

mehko 

vizualizacija 

računanje 

razpoznavanje 

vzorcev 

38 

40 

7

Vizualizacija 

• grafično 

prikazovanje 

podatkov in 

izluščenega 

znanja 


obravnava 

besedil 

podatkovne 

baze 

statistika 

odkrivanje 


strojno 

učenje 

mehko 

vizualizacija 

računanje 

razpoznavanje 

vzorcev 

Prikazovanje 

odločitvenih dreves 

Vizualno programiranje - 

Clementine 

43 

45 

47 

Prikazovanje podatkov 

Prikazovanje povezovalnih pravil 

Prikaz odkritih podskupin in 

vizualno programiranje - Orange 

44 

46 

48 

8

Odkrivanje 

zakonitosti z 

uporabo 

metod 

strojnega 

učenja 

Povezava s 

statistiko 

Naš zorni kot 

obravnava 

besedil 

podatkovne 

baze 


statistika 

odkrivanje 


strojno 

učenje 

mehko 

vizualizacija 

računanje 

razpoznavanje 

vzorcev 








Projekt Sol-Eu-Net 

• Komercialni cilji 

– izdelava uporabniških aplikacij, konzultacije 

– ustanovitev virtualnega podjetja za 

komercializacijo ekspertnih znanj na področju 

analize podatkov in odločanja 

Memebrs : 

Suppliers 

Material 

Information 

Members : 

Processors 

VE Coordinator 

Members : 

Retailers, 

Warehouses 

Members : 

Customers 

49 

51 

53 

Strojno učenje in statistika 

• Obe področji imata dolgoletno tradicijo 

razvoja induktivnih tehnik za analizo podatkov. 

– omogočata sklepanje iz lastnosti vzorca (podatkov) 

na lastnosti populacije 

• KDD = statistika + marketing ? 

• KDD = statistika + ... + strojno učenje 

• Uporabi statistiko za preverjanje danih 

hipotez ter za analizo podatkov, če podatki 

– zadoščajo vrsti predpostavk: o distribuciji, 

neodvisnosti, naključnem vzorčenju, itd. 

• Uporabi strojno učenje za generiranje hipotez 

– ki so preproste in razumljive 

– lahko tudi iz majhne količine podatkov 


• Evropski projekt 5. OP “Data Mining & Decision 

Support for Business Competitiveness: A 

European Virtual Enterprise”, 2000-2002 

• Koordinator IJS, 12 partnerjev (8 akademskih in 

4 podjetja), 3 MIO EURO, cilji: 

– ustanovitev in koordinacija evropske mreže 

institucij s komplementarnimi orodji in znanji 

– razvoj in uporaba lastnih in komercialnih orodij 

za prototipno reševanje realnih problemov 

analize podatkov in odločanja 

– prenos DM in DS znanj v prakso 


nekaj prototipnih aplikacij 

• Mediana - analiza branosti, gledanosti in 

poslušanosti slovenskih medijev 

• Traffic – analiza prometnih nesreč v Veliki 

Britaniji 

• Komisija evropske unije - avtomatska 

konstrukcija ontologij evropskih projektov iz 

spletnih opisov, identifikacija klik (skupin 

inštitucij v konzorcijih evropskih projektov) 

50 

52 

54 

9

Mediana 

prototipna študija 

• Analiza podatkov o branosti, gledanosti in 

poslušanosti slovenskih medijev, Mediana BGP 

• Recenzirana polletna poročila 

• Cilj pilotne študije: iz podatkov odkriti kaj 

zanimivega, kasneje razviti nekaj ciljnih 

aplikacij 

• Sodelavci: Grobelnik, Zupanič, Škrjanc, 

Mladenić (IJS), Božič Marolt, Zdovc 

(Mediana) 

Podatki Mediana BGP 

• ankete o gledanosti, branosti in poslušanosti od l. 

1992, okrog 1200 vprašanj (branost, ..., interesi, ...) 

• podatki za leto 1998, okrog 8000 anket 

• zelo kvalitetni in čisti podatki 

• tabela n-terk (vrstice: anketirani, stolpci: atributi, 

pri klasifikacijskih nalogah določimo razred) 


• Tip naloge: opisovanje 

• Opisni jezik: pravila X Y, če X potem Y 

X, Y konjunkcija postavk (binarnih atributov) 

• Primeri: 

– Trgovina: 

pivo & Coca-Cola arašidi & čips (0.05, 0.65) 

– Zavarovalništvo: 

posojilo = da & varčevanje = da 116 

zavarovanje = da 95 (0.82) 

• Podpora: Po(X,Y) = #XY/#D = p(XY) 

• Zaupanje: Za(X,Y) = #XY/#X = Po(X,Y)/Po(X) = 

55 

57 

Podatki Mediana BGP 

• ankete o gledanosti, branosti in poslušanosti od l. 

1992, okrog 1200 vprašanj (branost, ..., interesi, ...) 

Študija Mediana BGP 

• Cilji študije: odkriti še neznane relacije med posameznimi 

mediji, odkriti podskupine ljudi s podobnimi interesi 

– Katere tiskane medije berejo bralci posameznega 

časnika/revije? 

– Kakšne so lastnosti bralcev/gledalcev/poslušalcev 

določenega medija? 

– Katere lastnosti ločijo bralce različnih časnikov? 

• Tipi modelov: opisovanje (povezovalna pravila) in 

napovedovanje (odločitvena drevesa, klasifikacijska 

pravila) 


Večina bralcev Marketing magazina, Financ, 

Razgledov, Denarja in Vipa bere tudi Delo. 

1. bere_Marketing magazin 116 

bere_Delo 95 (0.82) 

2. bere_Finance 223 bere_Delo 180 (0.81) 

3. bere_Razgledi 201 bere_Delo 157 (0.78) 

4. bere_Denar 197 bere_Delo 150 (0.76) 

5. bere_Vip 181 bere_Delo 134 (0.74) 

= p(XY)/p(X) = p(Y|X) 59 

60 

56 

58 

10


Večina bralcev Sare, Ljubezenskih zgodb, 

Dolenjskega lista, Omame in Delavske enotnosti 

bere tudi Slovenske novice. 

1. bere_Sara 332 bere_Slovenske novice 211 (0.64) 

2. bere_Ljubezenske zgodbe 283 

bere_Slovenske novice 174 (0.61) 

3. bere_Dolenjski list 520 


4. bere_Omama 154 bere_Slovenske novice 90 (0.58) 

5. bere_Delavska enotnost 177 


Odločitveno drevo 

Klasifikacija v bralce Dela ali Slovenskih novic 

Analiza prometnih nesreč v VB 

Naročilo v sklopu projekta Karakteristike 

cestišč in prometna varnost v VB za 

naročnika Hampshire County Council 

• Analiza podatkovne baze prometnih nesreč STATS19 

• Cilji aplikacije: 

– Identifikacija trendov - sprememb značilnosti 

nesreč v zadnjih 20 letih, kot posledice 

izboljšanja stanja cestišč (avtocest) in izboljšanja 

varnosti avtomobilov 

– Odkrivanje podskupin: 

• pravil, posebnosti in zakonitosti, ki bi omogočila 

zmanjšanje števila nesreč 

61 

63 


Več kot pol bralcev Sportskih novosti bere tudi 

Slovenskega delničarja, Salomonov oglasnik in 

Lady. 

1. bere_Sportske novosti 303 

bere_Slovenski delnicar 164 (0.54) 


bere_Salomonov oglasnik 155 (0.51) 


bere_Lady 152 (0.5) 


Značilnosti bralcev Slovenskih novic (izluščene iz klas. 

pravil) 

Dokaj redno berejo časnike in radi posedijo v kavarnah, 

slaščičarnah, lokalih... In ne berejo Sport_novosti 

(ted_bere_casnike >4) and (kavarne1) and (bere_Sport_novosti==F) 

bere_Novice (331, 0.889) 

Berejo Slovenski Delničar, Jano, ... 

(bere_Slov_deln)>0) and (bere_Jana)>0) and 

(bl_znam_casnikov>12) and (bl_znam_casnikov 0)) and (hrvasko>0) and (bere_Dnevnik==T) 

bere_Novice (140, 0.775) 

Podatkovna baza STATS19 

• Relacijska podatkovna baza data vseh nesreč in poškodb v VB v 

obdobju 1979-1999 

• 3 povezane tabele podatkov 

Accident ACC7999 

(~5 mil. nesreč, 

30 spremenljivk) 

Kje ? Kdaj ? Koliko ? 

Vehicle VEH7999 

(~9 mil. vozil, 

24 spremenljivk ) 

Katera vozila ? Kakšno 

gibanje ? Kakšne posledice 

... 

Casualty CAS7999 

(~7 mil. poškodb, 

16 spremenljivk) 

Kdo je bil poškodovan ? Kakšne 

poškodbe ? ... 

• iskanje vzrokov nesreč 65 

66 

62 

64 

11

Razumevanje podatkov: 

Preprost prikaz podatkov 

270000 

260000 

250000 

240000 

230000 

220000 

79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 

Year of Accident 

Preproste statistične analize 

in vizualizacija 

• Uporabne za razumevanje podatkov 

• Distribucija števila nesreč v raznih 

časovnih obdobjih (leto, mesec, dan v 

tednu, ura) 

Distribucija Dan/Ura 

1. Največ nesreč je zjutraj in pozno popoldne (“Rush Hour”), 

najslabše je ob petkih popoldne 

2. Manj prometa in manj nesreč je ponoči in ob vikendih 

SUN 

MON 

TUES 

WED 

THU 

FRI 

SAT 

67 

69 

71 

Analiza kvalitete podatkov: 

Prikaz kraja nesreče 

Distribucija Dan/Mesec 

SAT 

Jan Feb Mar Apr May Jun July Aug Sept Oct Nov Dec 

Največ nesreč je ob delovnikih (pon.– petek) pozimi, 

predvsem ob petkih 

Odkrivanje podskupin z 

učenjem pravil 

• Cilj: odkriti opise podskupin podatkov v obliki 

kratkih, človeku razumljivih pravil 

– Vhod: množica primerov s podano ciljno 

spremenljivko (lastnost, ki jo proučujemo) 

– Izhod: opisi “zanimivih” podskupin 

primerov v obliki kratkih pravil, ki 

•pokrivajo čimveč učnih primerov 

•imajo čimbolj različno porazdelitev 

vrednosti ciljne spremenljivke glede na 

učno množico (Wrobel 1997, Kloesgen 

1997) 

SUN 

MON 

TUES 

WED 

THU 

FRI 

68 

70 

72 

12

Nekaj odkritih pravil 

• Povezovalna pravila: 

– Verjetnost težke ali smrtne prometne nesreče je na cesti “K8” 

2.2 krat večja kot povprečna verjetnost istega tipa nesreče v 

VB 

– Verjetnost nesreče s smrtnim izidom je na cesti “K7” 2.8 krat 

večja kot povprečna verjetnost istega tipa nesreče v VB (ko je 

cesta suha in omejitev hitrosti = 70 milj/h). 

• Odkrivanje podskupin: 

– Nesreča je težka ali smrtna, če je bilo v nesreči poškodovano 

le eno vozilo 

– Nesreča je lahka, če je bilo v nesreči poškodovanih več vozil 

(>2) in malo poškodovanih oseb. 

Priprava podatkov 

YEAR 

pfc 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 

a 10023 9431 9314 8965 8655 9014 9481 9069 8705 8829 9399 9229 8738 8199 7453 7613 7602 7042 7381 7362 6905 

b 6827 6895 6952 7032 6778 6944 6387 6440 6141 5924 6331 6233 5950 6185 5910 6161 5814 6263 5881 5855 5780 

c 2409 2315 2258 2286 2022 2169 2212 2096 1989 1917 2137 2072 2032 1961 1653 1526 1552 1448 1521 1408 1234 

MONTH 

pfc jan feb mar apr may jun jul aug sep oct nov dec 

a 72493 67250 77434 73841 78813 78597 80349 74226 79362 85675 84800 76282 

b 2941 2771 3145 3317 3557 3668 3988 4048 3822 3794 3603 3481 

c 9261 8574 9651 9887 10649 10590 10813 11299 10810 11614 10884 10306 

DAY OF WEEK 

12 Sunday Monday Tuesday Wednesday Thursday Friday Saturday 

a 96666 132845 137102 138197 142662 155752 125898 

b 5526 5741 5502 5679 6103 7074 6510 

c 15350 17131 16915 17116 18282 21000 18544 

HOUR 

pfc 0 1 2 3 4 5 6 7 8 … 16 17 18 19 20 21 22 23 

a 794 626 494 242 166 292 501 1451 2284 … 3851 3538 2557 2375 1786 1394 1302 1415 

b 2186 1567 1477 649 370 521 1004 4099 7655 … 11500 11140 7720 7129 5445 4396 3946 4777 

c 2468 1540 1714 811 401 399 888 3577 8304 … 12112 12259 8701 7825 6216 4809 4027 4821 

Rezultat združevanja v skupine: 

dinamika po letih 

• Siva: tipična področja v 

VB, zmanjševanje letnega 

števila nesreč 

• Bela: področja, kjer se 

letno število nesreč 

povečuje 

73 

75 

77 

Iskanje podobnih podskupin: 

analiza kratkih časovnih vrst 

• Nova metoda za hierarhično združevanje 

kratkih časovnih vrst v skupine 

• Identifikacija področij v VB (skupine 

policijskih okrožij) s podobno dinamiko po 

številu prometnih nesreč 

• Analiza za različna časovna obdobja (leto, 

mesec, dan, ura) 


dinamika po letih 


dinamika po mesecih 

Bela: Obalna področja 

(11) 

Siva: Tipična 

področja VB (36) 

Temno sive: Področje 

Londona (2) 

Črna: Izjeme ? (2) 

74 

76 

78 

13

Uporabljene metode analize 

podatkov 

• odkrivanje povezovalnih pravil 

• odkrivanje podskupin 

• relacijska analiza podatkov 

• … 

• analiza tekstovnih podatkov 

–več o tem področju D. Mladenić 

Analiza dokumentov o 

evropskih projektih 

• Vir podatkov: Evropska komisija 

• Cilji analize: 

– Izdelava ontologije vsebin evropskih projektov – 

cilj je boljše obvladovanje obsežne množice 

tekstovnega materiala 

– Vizualizacija vsebin projektov 

– Povezanost institucij - analiza sodelovanj med 

institucijami, ki sodelujejo na evropskih projektih 

– Identifikacija zaključenih skupin institucij (klike) 

– Identifikacija institucij, relevantnih za določeno 

vsebinsko področje 

– Simulacija verjetnih sodelovanj v IST 6OP 

Primer podatkov – interna 

EC baza 

Tabela vseh IST projektov – za vsak projekt podan seznam partnerjev 

79 

81 

83 

Analiza besedil in svetovnega spleta 

(Text & Web Mining ) 

• Količina besedil na elektronskih mediji dnevno 

narašča 

– elektronska pošta, poslovni dokumenti, 

svetovni splet, organizirane baze besedil,... 

– veliko informacij je skritih v besedilih in 

svetovnem spletu (tudi obiskanost strani) 

• Tehnologije odkrivanja znanja omogočajo 

reševanje zanimivih in zahtevnih problemov: 

– filtriranje spletnih informacij, 

vizualizacija besedil, razvrščanje 

dokumentov v skupine,... 



Uporabili smo vse projekte 5. OP iz interne baze 

EC (september, 2002): 2786 projektov v 

katerih sodeluje 7886 organizacij 

Dvavirapodatkov: 

• Tabela IST projektov 5OP iz interne baze EC: 

– Project Ref., Acronym, Key Action, Unit, Officer 

– Org. Name, Country, Org Type, Role in project 

• Seznam IST projektov opisanih z 1-2 strani 

besedila na svetovnem spletu (Cordis 

http://dbs.cordis.lu/fep/FP5/FP5_PROJl_sea 

rch.html) 

Primer podatkov – svetovni splet 

Naslov 

projekta 

Akronim 

projekta 

Opis projekta 

80 

82 

84 

14



Del omrežja zaavtomobilsko 

industrijo (>6) 

št. sodelovanj 

na projektih 

Sodelovanje med državami 

• 6788: GERMANY - GERMANY 

• 6212: ITALY - ITALY 

• 4168: FRANCE - FRANCE 

• 4064: UNITED KINGDOM - UNITED KINGDOM 

• 3749: GERMANY - ITALY 

• 3566: GERMANY - UNITED KINGDOM 

• 3200: FRANCE - GERMANY 

• 3046: ITALY - UNITED KINGDOM 

• 2920: SPAIN - SPAIN 

• 2597: FRANCE - ITALY 

• 2514: ITALY - SPAIN 

• 2375: FRANCE - UNITED KINGDOM 

• 2298: GERMANY - SPAIN 

• 1946: GREECE - GREECE 

• 1669: SPAIN - UNITED KINGDOM 

• 1592: FRANCE - SPAIN 

• 1488: GERMANY - NETHERLANDS 

• 1387: GERMANY - GREECE 

• 1285: GREECE - ITALY 

• 1168: NETHERLANDS - UNITED KINGDOM 

• 1140: GREECE - UNITED KINGDOM 

• 1054: FINLAND - GERMANY 

• 1010: ITALY – NETHERLANDS 

85 

87 

89 

Vizualizacija področij (25 skupin) 

Mobile 

computing 

Knowledge 

Management 

Transport 

Electronics 

Data 

analysis 

Health 

Povezanost pomembnih institucij (>10) 

No. of joint 

projects 

Telecommunication 

Sodelovanje med državami (top 12) 

Most active 

country 

Number of 

collaborations 

86 

88 

90 

15

št. ljudi na 

eno sodelovanje 

Sodelovanje med državami 

(na prebivalca) 

• 1. 5470 ppc ( 1946 colab.): GREECE - GREECE (pop.: 10645343) 

• 2. 6933 ppc ( 4 colab.): SAN MARINO - SAN MARINO (pop.: 27730) 

• 3. 8150 ppc ( 636 colab.): FINLAND - FINLAND (pop.: 5183545) 

• 4. 9291 ppc ( 6212 colab.): ITALY - ITALY (pop.: 57715625) 

• 5. 12265 ppc ( 6788 colab.): GERMANY - GERMANY (pop.: 83251851) 

• 6. 13725 ppc ( 2920 colab.): SPAIN - SPAIN (pop.: 40077100) 

• 7. 14210 ppc ( 54 colab.): CYPRUS - CYPRUS (pop.: 767314) 

• 8. 14339 ppc ( 4168 colab.): FRANCE - FRANCE (pop.: 59765983) 

• 9. 14709 ppc ( 4064 colab.): UNITED KINGDOM - UNITED KINGDOM (pop.: 59778002) 

• 10. 15415 ppc ( 530 colab.): AUSTRIA - AUSTRIA (pop.: 8169929) 

• 11. 17012 ppc ( 266 colab.): NORWAY - NORWAY (pop.: 4525116) 

• 12. 17356 ppc ( 592 colab.): BELGIUM - BELGIUM (pop.: 10274595) 

• 13. 17638 ppc ( 414 colab.): SWITZERLAND - SWITZERLAND (pop.: 7301994) 

• 14. 19266 ppc ( 834 colab.): NETHERLANDS - NETHERLANDS (pop.: 16067754) 

• 15. 19903 ppc ( 446 colab.): SWEDEN - SWEDEN (pop.: 8876744) 

• 16. 19956 ppc ( 14 colab.): ICELAND - ICELAND (pop.: 279384) 

• 17. 22004 ppc ( 244 colab.): DENMARK - DENMARK (pop.: 5368854) 

• 18. 24781 ppc ( 78 colab.): SLOVENIA - SLOVENIA (pop.: 1932917) 

• 19. 25514 ppc ( 402 colab.): CZECH REPUBLIC - CZECH REPUBLIC (pop.: 10256760) 

• 20. 26216 ppc ( 54 colab.): ESTONIA - ESTONIA (pop.: 1415681) 

• 21. 31316 ppc ( 124 colab.): IRELAND - IRELAND (pop.: 3883159) 

• 22. 37601 ppc ( 3749 colab.): GERMANY - ITALY (pop.: 140967476=83251851+57715625) 

• 23. 38573 ppc ( 3046 colab.): ITALY - UNITED KINGDOM (pop.: 

117493627=57715625+59778002) 

• 24. 38899 ppc ( 2514 colab.): ITALY - SPAIN (pop.: 97792725=57715625+40077100) 

• 25. 39086 ppc ( 258 colab.): PORTUGAL - PORTUGAL (pop.: 10084245) 

91 

Relevantne institucije za področje 

Primer odkrivanja zakonitosti v podatkih - uporabljene ključne besede: 

“knowledge discovery text mining classification machine learning data mining data 

analysis personalization decision support”: 

Drugi del: Napovedna indukcija 

• Naivni Bayeson klasifikator 

•Učenje odločitvenih dreves 

•Učenje klasifikacijskih pravil 


93 

95 

Sodelovanje znotraj države (Slovenija) 

Aplikaciji “Project Intelligence” 

in “IST-World” 

• Project intelligence: Demonstracija sistema, 

poročila in rezultati analize projektov IST 

5.OP so na voljo na http://pi.ijs.si/ 

• Nova aplikacija IST-World za 6.OP je na 

http://www.ist-world.org/ 

• Uporabno za iskanje partnerjev projektov 

• Približno 1000 povpraševanj dnevno 

Bayesovsko učenje 

• Bayesovske metode - preproste a zelo 

močne klasifikacijske metode 

– temeljijo na uporabi Bayesove formule 

p( 

D | H ) 

p ( H | D) 

= 

p( 

H ) 

p( 

D) 

• Glavne metode: 

– Naivni Bayesov klasifikator 

– Delno-naivni Bayesov klasifikator 

– Bayesovske mreže * 

* jih ne obravnavamo v teh predavanjih 

92 

94 

96 

16

Naivni Bayesov klasifikator 

• Verjetnost razreda pri danih vrednostih atributov 

p( 

v1... 

vn 

| c j ) 

p( c j | v1... 

vn 

) = p( 

c j ) ⋅ 

p( 

v1... 

vn 

) 

• Za vse Cjizračunaj verjetnost p(Cj ) pri danih vrednostih 

vi vseh atributov, ki opisujejo primer, ki ga želimo 

klasificirati (pri tem predpostavimo pogojno neodvisnost 

atributov pri ocenjevanju p(Cj ) in p(Cj |vi )) 

p( 

c j | vi 

) 

p( 

c j | v1... 

vn 

) ≈ p( 

c j ) ⋅∏ 

i p( 

c j ) 

• Izhod je CMAP z maksimalno posteriorno verjetnostjo 

razreda: 

C MAP = arg maxCj 

p( 

c j | v1... 

vn 

) 

Delno-naivni Bayesov klasifikator 

• Naivno Bayesovsko ocenjevanje verjetnosti 

(zanesljivo) 

p( 

c j | vi 

) p( 

c j | vk 

) 

⋅ 

p( 

c ) p( 

c ) 

• Delno-naivno Bayesovsko ocenjevanje 

verjetnosti (manj zanesljivo) 

j 

p( 

c | v , v ) 

j 

i 

p( 

c ) 

Ocenjevanje verjetnosti: intuicija 

• Eksperiment z N poskusi, n uspešnimi 

• Ocenimo verjetnost uspeha v naslednjem poskusu 

• Relativna frekvenca: n/N 

– ocena je zanesljiva pri velikem številu poskusov 

– Nezanesljiva pri majhnem številu, npr., 1/1=1 

• Laplace: (n+1)/(N+2), (n+1)/(N+k), k razredov 

– Predpostavlja enakomerno distribucijo razredov 

• m-ocena: (n+m.pa) /(N+m) 

– Apriorna verjetnost uspeha pa, parameter m 

(utež apriorni verjetnosti, t.j. število ‘virtualnih’ 

primerov) 

j 

k 

j 

97 

99 

101 

= 

Naivni Bayesov klasifikator - 

izpeljava 

p( 

c j ⋅v1... 

vn 

) p( 

v1... 

vn 

| c j ) ⋅ p( 

c j ) 

p( 

c j | v1... 

vn 

) = 

= 

= 

p( 

v ... v ) p( 

v ... v ) 

∏ 

i 

p( 

vi 

| c j ) ⋅ p( 

ci 

) 

p( 

c j ) 

= 

p( 

v ... v ) p( 

v ... v ) 

∏ 

p( 

vi 

) 

= p( 

c j ) ⋅ 

p( 

v ... v ) 

1 

1 

n 

n 

1 

∏ 

n 

1 

∏ 

p( 

c j | vi 

) 

≈ p( 

c j ) ⋅ 

p( 

c ) 

i j 

n 

1 

n 

p( 

c j | vi 

) ⋅ p( 

vi 

) 

= 

p( 

c ) 

i j 

∏ 

p( 

c | v ) 

i j 

j 

i 

p( 

c ) 

Ocenjevanje verjetnosti 

• Relativna frekvenca: 

n( 

c j , vi 

) 

p ( c j | vi 

) = 

n( 

v ) 

• apriorna verjetnost: Laplace-ov zakon 

• m-ocena: 

p ( c 

j 

) 

= 

i 

n ( c j ) + 1 

n + k 

n ( c j , v i ) + m ⋅ p ( c j ) 

p ( c j | v i ) = 

n ( v ) + m 

i 

j = 1. . k 

Pojasnjevanje odgovorov 

Bayesovega klasifikatorja 

• Temelji na informacijski teoriji 

– Pričakovano število bitov potrebnih za kodiranje nekega 

sporočila = optimalni dolžini kode -log p bitov za sporočilo, 

katerega verjetnost je p (*) 

• Pojasnjevanje na osnovi vsote informacijskih 

prispevkov (information gains) posameznih vrednosti 

atributov v i (Kononenko and Bratko 1991, Kononenko 1993) 

− log( 

p( 

c | v ... v )) = 

= − log( p( 

c )) − 

j 

n 

∑ 

i= 

1 

* log p označuje binarni logaritem 

j 

1 

n 

( − log p( 

c ) + log( p( 

c | v )) 

j 

j 

i 

98 

100 

102 

17

Primer pojasnjevanja delno-naivnega 

Bayesovega klasifikatorja 

Prognostika pri zdravljenju zlomljenega kolka 

Razred = no (“brez komplikacij”, najverjetnejši razred, 2 razredni problem) 

Attribute value For decision Against 

(bit) (bit) 

Age = 70-80 0.07 

Sex = Female -0.19 

Mobility before injury = Fully mobile 0.04 

State of health before injury = Other 0.52 

Mechanism of injury = Simple fall -0.08 

Additional injuries = None 0 

Time between injury and operation > 10 days 0.42 

Fracture classification acc. To Garden = Garden III -0.3 

Fracture classification acc. To Pauwels = Pauwels III -0.14 

Transfusion = Yes 0.07 

Antibiotic profilaxies = Yes -0.32 

Hospital rehabilitation = Yes 0.05 

General complications = None 0 

Combination: 0.21 

Time between injury and examination < 6 hours 

AND Hospitalization time between 4 and 5 weeks 

Combination: 0.63 

Therapy = Artroplastic AND anticoagulant therapy = Yes 

Naivni Bayesov klasifikator 

• Naivni Bayesov klasifikator lahko uporabljamo 

– ko imamo dovolj veliko število učnih primerov za 

zanesljivo ocenjevanje verjetnosti 

• Dosega dobro klasifikacijsko točnost 

– uporabljamo ga kot ‘gold standard’ za primerjavo 

pri ocenjevanju drugih kompleksnejših 

klasifikatorjev 

• Odpornost na šumne podatke: 

– Zanesljivo ocenjevanje verjetnosti 

– Uporablja vso razpoložljivo informacijo 

• Uspešnost pri aplikacijah 

– Klasifikacija Web strani in dokumentov 

– Medicinska diagnostika in prognostika, … 

Izboljšanje klasifikacijske točnosti z 

uporabo m-ocene 

Relative freq. m-estimate 

Primary tumor 48.20% 52.50% 

Breast cancer 77.40% 79.70% 

hepatitis 58.40% 90.00% 

lymphography 79.70% 87.70% 

103 

105 

107 

Information gain 

Vizualizacija informacijskih 

prispevkov za/proti C i 

50 

40 

30 

20 

10 

0 

-10 

-20 

-30 

-40 

1 2 

C1 C2 

Izbrane medicinske domene 

Primary Breast thyroid Rheumatology 

tumor cancer 

#instan 339 288 884 355 

#class 22 2 4 6 

#attrib 17 10 15 32 

#values 2 2.7 9.1 9.1 

majority 25% 80% 56% 66% 

entropy 3.64 0.72 1.59 1.7 




• Algoritem za učenje odločitvenih 

dreves 

• Hevristike in mere kvalitete 



v1 

v2 

v3 

v4 

v5 

v6 

v7 

104 

106 

108 

18



• Opisni jezik: odločitvena drevesa 

notranja vozlišča: atributi, veje: vrednosti 

atributov, listi: razred 

zmanjšano 

NE 

solzenje 

normalno 

Učenje odločitvenih dreves 

• ID3 (Quinlan 1979), CART (Breiman s sod. 1984), C4.5, 

WEKA 

• če vsi primeri iz S pripadajo istemu razredu C j 

– potem označi ta list s C j 

– sicer 

• izberi ‘najinformativnejši’ atribut A z vrednostmi 

v1, v2, … vn 

•razdeli učno množico S na S1,… , Sn glede na 

astigmatizem 

ne 

MEHKE 

da 

dioptrija 

vrednosti v1,…,vn 

• rekurzivno zgradi poddrevesa 

T1,…,Tn za S1,…,Sn 

A 

v1 

... 

vn 

kratkovidnost 

dalekovidnost 

• generiraj drevo T: 

T1 ... Tn 

TRDE NE 109 

110 

Ocena informativnosti atributov 

• Glavna izbira v ID3: Kateri atribut izbrati kot test v danem vozlišču 

odločitvenega drevesa ? Atribut, ki je najkoristnejši za čimtočnejšo 

klasifikacijo primerov. 

• Definiramo statistično oceno informativnosti atributa, ki meri kako 

dobro atribut ločuje med primeri, ki pripadajo različnim razredom 

• Informativnost merimo kot zmanjšanje entropije učne množice 

primerov (entropija je mera “nečistosti” učne množice: E(S) = - p + 

log2p + -p-log2p- ) 

• Najinformativnejši atribut: 

– uporabi atribut v vozlišču 

1 

0,9 

drevesa, razbij S na S1,S2 

0,8 

0,7 

– izberi A, ki maksimizira 

0,6 

informacijski prispevek 

0,5 

0,4 

Max Gain(S,A) 

0,3 

| Sv 

| 

Gain( S, 

A) 

= E( 

S) 

− ∑ ⋅ E( 

Sv 

) 

| S | 

v∈Values( 

A) 

Entropy(S) 

0,2 

0,1 

0 

0 0,2 0,4 0,6 0,8 1 p+ 

Odločitveno drevo: PlayTennis 

Sunny 

Outlook 

Overcast 

Rain 

Humidity Yes 

Wind 

High Normal Strong Weak 

No Yes No Yes 

- vsako notranje vozlišče je atributni test 

- vsaka veja pripada vrednosti atributa 

- vsaka pot je konjunkcija vrednosti atributov 

- vsak list označuje pripadnost danemu razredu 

111 

113 

Tabela učnih primerov: 

Igranje tenisa (PlayTennis) 

Day Outlook Temperature Humidity Wind PlayTennis 

D1 Sunny Hot High Weak No 

D2 Sunny Hot High Strong No 

D3 Overcast Hot High Weak Yes 

D4 Rain Mild High Weak Yes 

D5 Rain Cool Normal Weak Yes 

D6 Rain Cool Normal Strong No 

D7 Overcast Cool Normal Strong Yes 

D8 Sunny Mild High Weak No 

D9 Sunny Cool Normal Weak Yes 

D10 Rain Mild Normal Weak Yes 

D11 Sunny Mild Normal Strong Yes 

D12 Overcast Mild High Weak Yes 

D13 Overcast Hot Normal Weak Yes 

D14 Rain Mild High Strong No 

Odločitveno drevo: PlayTennis 

Sunny 

Outlook 

Overcast 

Rain 

Humidity Yes 

Wind 


No Yes No Yes 

Odločitvena drevesa predstavljajo disjunkcijo konjunkcij vrednosti atributov, ki 

opisujejo učne primere danega razreda. Primer: opis razreda Yes: 

(Outlook=Sunny ∧ Humidity=Normal) 

V (Outlook=Overcast) 

V (Outlook=Rain ∧ Wind=Weak) 

112 

114 

19

PlayTennis: Drugi opisni formalizmi 

• Logični izraz za PlayTennis=Yes: 

– (Outlook=Sunny ∧ Humidity=Normal) ∨ (Outlook=Overcast) ∨ 

(Outlook=Rain ∧ Wind=Weak) 

• If-then pravila: 

– IF Outlook=Sunny ∧ Humidity=Normal THEN PlayTennis=Yes 

– IF Outlook=Overcast THEN PlayTennis=Yes 

– IF Outlook=Rain ∧ Wind=Weak THEN PlayTennis=Yes 

– IF Outlook=Sunny ∧ Humidity=High THEN PlayTennis=No 

– IF Outlook=Rain ∧ Wind=Strong THEN PlayTennis=Yes 

PlayTennis: Entropija 

• Učna množica S: 14 primerov (9 poz., 5 neg.) 

• Oznaka: S = [9+, 5-] 

• E(S) = - p + log 2p + - p - log 2p - 

• Izračun entropije, če verjetnost ocenimo z 

relativno frekvenco 

• E([9+,5-]) = - (9/14) log 2 (9/14) - (5/14) log 2 (5/14) 

= 0.940 

⎛ | S+ 

| | S+ 

| ⎞ ⎛ | S− 

| | S− 

| ⎞ 

E( 

S) 

= −⎜ 

⋅log 

⎟ − ⎜ ⋅log 

⎟ 

⎝ | S | | S | ⎠ ⎝ | S | | S | ⎠ 

Informacijski prispevek kot 

preiskovalna hevristika 

• Informacijski prispevek (information gain) je mera s katero 

poskušamo minimizirati število testov potrebnih za 

klasifikacijo novega primera 

• Gain(S,A) – predvideno zmanjšanje entropije množice S 

zaradi razbitja na podmnožice glede na vrednosti atributa A 

| Sv 

| 

Gain( S, 

A) 

= E( 

S) 

− ∑ ⋅ E( 

Sv 

) 

| S | 

v∈Values( 

A) 

• Najinformativnejši atribut: max Gain(S,A) 

115 

117 

119 

PlayTennis: Uporaba odločitvenega 

drevesa za klasifikacijo 

Sunny 

Outlook 

Overcast 

Rain 

Humidity Yes 

Wind 


No Yes No Yes 

Ali je sobotno jutro OK za igranje tenisa ? 

Outlook=Sunny, Temperature=Hot, Humidity=High, Wind=Strong 

PlayTennis = No, ker Outlook=Sunny ∧ Humidity=High 

PlayTennis: Entropija 

• E(S) = - p + log 2 p + -p - log 2 p - 

• E(9+,5-) = -(9/14) log 2 (9/14) - (5/14) log 2 (5/14) = 0.940 

Outlook? 

Humidity? 

Wind? 

Sunny 

Overcast 

Rain 

High 

Normal 

Weak 

Strong 

{D1,D2,D8,D9,D11} [2+, 3-] E=0.970 

{D3,D7,D12,D13} [4+, 0-] E=0 

{D4,D5,D6,D10,D14} [3+, 2-] E=0.970 

[3+, 4-] E=0.985 

[6+, 1-] E=0.592 

[6+, 2-] E=0.811 

[3+, 3-] E=1.00 

Informacijski prispevek kot 

preiskovalna hevristika 

• Kateri atribute je informativnejši, A1 ali A2 ? 

[9+,5−], Ε = 0.94 

Α1 

[6+, 2−] [3+, 3−] 

Ε=0.811 Ε=1.00 

[9+,5−], Ε = 0.94 

• Gain(S,A1) = 0.94 – (8/14 x 0.811 + 6/14 x 1.00) = 0.048 

• Gain(S,A2) = 0.94 – 0 = 0.94 A2 ima max Gain 

Α2 

[9+, 0−] [0+, 5−] 

Ε=0.0 Ε=0.0 

116 

118 

120 

20

PlayTennis: Informacijski prispevek 

| Sv 

| 

Gain( S, 

A) 

= E( 

S) 

− ∑ ⋅ E( 

Sv 

) 

| S | 

v∈Values( 

A) 

• Vrednosti(Wind) = {Weak, Strong} 

Wind? 

Weak 

Strong 

[6+, 2-] E=0.811 

[3+, 3-] E=1.00 

– S = [9+,5-], E(S) = 0.940 

– Sweak = [6+,2-], E(Sweak ) = 0.811 

– Sstrong = [3+,3-], E(Sstrong ) = 1.0 

– Gain(S,Wind) = E(S) - (8/14)E(Sweak ) - (6/14)E(Sstrong ) = 

0.940 - (8/14)x0.811 - (6/14)x1.0=0.048 


Outlook? 

Rain 

{D4,D5,D6,D10,D14} [3+, 2-] E > 0 ??? 

Overcast 

{D3,D7,D12,D13} [4+, 0-] E = 0 OK – razred Yes 

Sunny 

{D1,D2,D8,D9,D11} [2+, 3-] E > 0 ??? 

• Kateri atribut je najboljši v tem vozlišču drevesa? 

– Gain(S sunny , Humidity) = 0.97-(3/5)0-(2/5)0 = 0.970 MAX ! 

– Gain(Ssunny ,Temperature) = 0.97-(2/5)0-(2/5)1-(1/5)0 = 0.570 

– Gain(Ssunny ,Wind) = 0.97-(2/5)1-(3/5)0.918 = 0.019 

Rezanje odločitvenih dreves 

• Razširitve ID3 za obravnavo šumnih podatkov: 

– cilj je, da se izognemo pretiranemu prilagajanju 

(overfitting) učni množici 

• Porezana drevesa so: 

– manj točna na učnih podatkih 

– točnejša pri klasifikaciji novih primerov 

121 

123 

125 


• Kateri atribut je najboljši? 

– Gain(S,Outlook)=0.246 MAX ! 

– Gain(S,Humidity)=0.151 

– Gain(S,Wind)=0.048 

– Gain(S,Temperature)=0.029 

Klasifikacija z odločitvenimi drevesi 

Odločitvena drevesa lahko uporabljamo za klasifikacijo če: 

• Klasifikacijski problem tak, da zahteva klasifikacijo 

danega primera v enega od diskretne množice 

klasifikacijskih razredov (medicinska diagnostika, 

klasifikacija prosilcev za posojilo, … 

• Primeri opisani z vrednostmi končne množice atributov 

(diskretnih ali realnih vrednosti) 

• Ciljna funkcija je diskretna (boolova ali večvrednostna, 

če ima ciljni atribut realne vrednosti gre za problem 

učenja regresijskih dreves) 

• Učenje disjunktivnih konceptov 

• Učni primeri so lahko šumni (napake v klasifikaciji in/ali 

napačne vrednosti atributov) 

• Učni primeri lahko vsebujejo manjkajoče vrednosti 

atributov 

Obravnava šumnih podatkov z 

rezanjem dreves 

Vzroki za nepopolnost podatkov: 

1. Naključne napake (šum) v 

učnih primerih 

– napake v vrednostih atributov 

– napake v klasifikaciji 

primerov 

2. Premalo primerov 

(incompleteness) 

3. Neprimerna or. Nezadostna 

množica atributov 

(neeksaktnost) 

4. Manjkajoče vrednosti 

atributov v učni množici 

122 

124 

Obravnava nepopolnih podatkov tipa 1- 

3: 

• pre-pruning (stopping criteria) 

• post-pruning / rule 

truncation 

Obravnava manjkajočih vrednosti: 

Rezanje dreves preprečuje, da bi se 

odločitveno drevo pretirano 

prilagodilo napakam v učni množici. 

Tako sprostimo zahtevo po 

kompletnosti (pokrivanje vseh poz. 

primerov) in konsistentnosti (nepokritost 

neg. primerov) opisov v 

ID3 

126 

21

Rezanje dreves 

• Kaj bi se zgodilo pri dodajanju novega primera D15 

Sunny, Hot, Normal, Strong, PlayTennis=No 

Sunny 

Outlook 

Overcast 

Rain 

Humidity Yes 

Wind 


No 

Yes 

{D9,D11} 

Odločitveno drevo za določitev lokacije 

primarnega tumorja 

• 339 primerov 

• 228 za učenje, 111 za testitanje 

• Točnost naučenega drevesa: brez rezanja: 41%, z rezanjem: 45% 

histological type 

degree of 

differentiation 

good 

fair, poor 

degree of 

bone 

differentiation 

yes 

no 

fair 

poor 

kidney stomach 

adeno 

axilla sex 

yes 

no 

m 

No 

epidermoid, anaplasti 

head, neck 

breast colon lung gallbladder 

neck 

lung 

Yes 

sex 

lung 

Prilagajanje podatkom (overfitting) in 

klasifikacijska točnost 

• Tipična relacija med velikostjo drevesa in 

klasifikacijsko točnostjo 

0.9 

0.85 

0.8 

0.75 

0.7 

0.65 

0.6 

0.55 

yes 

0.5 

0 20 40 60 80 100 120 

f 

m 

no 

On training data 

On test data 

• Vprašanje: kako doseči optimalno rezanje 

dreves ? 

f 

127 

129 

131 

Odločitveno drevo za napovedovanje 

ponovitve raka na dojki 

no_recur 4 

recurrence 1 

Tumor_size 

Age no_recur 125 

recurrence 39 

no_recur 4 

Degree_of_malig 

< 3 ≥ 3 

Involved_nodes 

< 15 ≥ 15 < 3 ≥ 3 

< 40 ≥40 

no_rec 4 rec1 

• Opis domen 

no_recur 30 

recurrence 18 

Medicinske aplikacije 

domain #cls #atts #val/att #inst. maj.cl.(%) entropy(bit) 

THYR 4 15 9.1 884 56 1.59 

PRIM 22 17 2.2 339 25 3.89 

BREA 2 10 2.7 288 80 1.73 

LYMP 4 18 3.3 148 55 1.28 

RHEU 6 32 9.1 355 66 0.93 

BONE 2 19 4.5 270 65 0.93 

HEPA 2 19 3.8 155 79 0.74 

DIAB 2 8 8.8 768 65 0.93 

HEART 2 13 5 270 56 0.99 

• Ocenjevanje točnosti 

no_recur 27 

recurrence 10 

classifier primary tumor breast cancer 

thyroid rheumatology 

naïve Bayes 49% 1.60bit 78% 0.08bit 70% 0.79bit 67% 0.52bit 

Assistant 44% 1.38bit 77% 0.07bit 73% 0.87bit 61% 0.46bit 

physicians 42% 1.22bit 64% 0.05bit 64% 0.59bit 56% 0.26bit 

Rezanje dreves 

Mehanizmi za preprečevanje pretiranega 

prilagajanja podatkom: 

– Pre-pruning; prenehaj z gradnjo ko izboljšave 

niso več statistično signifikantne ali ko listu 

pripada premalo primerov 

– Post-pruning: najprej zgradi drevo, nato reži 

veje 

Izbor najboljšega drevesa 

– Merjenje na učni množici ali na 

ločeni validacijski množici 

Pre-pruning 

Post-pruning 

128 

130 

132 

22






Učenje klasifikacijskih pravil 

• Predstavitev množice pravil 

• Dva pristopa k učenju: 

–Naučeno odločitveno drevo prevedi v 

množico klasifikacijskih pravil 

–Nauči se množice klasifikacijskih pravil 

• Hevristike, preveliko prilagajanje podatkom 

(učni množici), rezanje pravil 

Primer: ocenjevanje kupcev 

Kupec Spol Starost Dohodek Poraba Ocena 

c1 moški 30 214000 18800 dober 

c2 ženski 19 139000 15100 dober 

c3 moški 55 50000 12400 slab 

c4 ženski 48 26000 8600 slab 

c5 moški 63 191000 28100 dober 

O6-O13 ... ... ... ... ... 

c14 ženski 61 95000 18100 dober 

c15 moški 56 44000 12000 slab 

c16 moški 36 102000 13800 slab 

c17 ženski 57 215000 29300 dober 

c18 moški 33 67000 9700 slab 

c19 ženski 26 95000 11000 slab 

c20 ženski 55 214000 28800 dober 

133 

135 

137 

Učenje odločitvenih dreves 

vs. učenje klasifikacijskih pravil: 

Razbijanje vs. pokrivanje 

• Splitting (ID3) 

• Covering (AQ, CN2) 

+ + 

- 

+ + 

- 

+ 

+ 

- 

- 

+ 

- 

- 

+ + 

+ + 

- 

- 

+ 

+ 

- 

- - 

+ 

- 

Predstavitev množice pravil 

• Množica pravil je disjunktna množica konjunktivnih pravil 

• Standardna oblika pravil: 

IF Condition THEN Class 

Class IF Conditions 

Class ← Conditions 

IF Outlook=Sunny ∧ Humidity=Normal THEN 

PlayTennis=Yes 

IF Outlook=Overcast THEN PlayTennis=Yes 

IF Outlook=Rain ∧ Wind=Weak THEN PlayTennis=Yes 

• Oblika CN2 pravil: 

IF Conditions THEN BestClass [ClassDistr] 

• Množica pravil : {R1, R2, R3, …, DefaultRule} 

Ocenjevanje kupcev: 

klasifikacijska pravila 

Neurejena pravila (neodvisna, lahko s presekom): 

Income > 108000 => BigSpender = yes 

Age ≥ 49 & Income > 57000 => BigSpender = yes 

Age ≤ 56 & Income < 98500 => BigSpender = no 

Income < 51000 => BigSpender = no 

33 < Age ≤ 42 => BigSpender = no 

DEFAULT BigSpender = yes 

134 

136 

138 

23

Primer: izbor kontaktnih leč 

Oseba Starost Dioptrija Astigmat. Solzenje Leče 

O1 mlad kratko ne zmanjšano NE 

O2 mlad kratko ne normalno MEHKE 

O3 mlad kratko da zmanjšano NE 

O4 mlad kratko da normalno TRDE 

O5 mlad daleko ne zmanjšano NE 

O6-O13 ... ... ... ... ... 

O14 pr_st_dal daleko ne normalno MEHKE 

O15 pr_st_dal daleko da zmanjšano NE 

O16 pr_st_dal daleko da normalno NE 

O17 st_daleko kratko ne zmanjšano NE 

O18 st_daleko kratko ne normalno NE 

O19-O23 ... ... ... ... ... 

O24 st_daleko daleko da normalno NE 

Izbor kontaktnih leč: 

odločitveni seznam (decision list) 

Pravila oblike if-then-else 

IF solzenje=zmanjšano THEN leče=NE 

ELSE /* solzenje=normalno */ 

IF astigmatizem=ne THEN leče=MEHKE 

ELSE /* astigmatizem=da */ 

IF spect. pre.=myope THEN leče=TRDE 

ELSE /* dioptrija=kratkovidnost */ 

leče=NE 

Učenje posameznega pravila s 

hevrističnim preiskovanjem 

Lenses = hard IF true [S=5, H=4, N=15] 

... 

Lenses = hard 

Lenses = hard 

IF Astigmatism = no 

IF Tearprod. = reduced 

[S=5, H=0, N=7] 

Lenses = hard Lenses = hard [S=0, H=0, N=12] 

IF Astigmatism = yes IF Tearprod. = normal 

[S=0, H=4, N=8] 

[S=5, H=4, N=3] 

Lenses = hard 

IF Tearprod. = normal 

AND Spect.Pre. = myope 

Lenses = hard 

[S=2, H=3, N=1] 

IF Tearprod. = normal 

Lenses = hard 

Lenses = hard 

AND Astigmatism = yes 

IF Tearprod. = normal IF Tearprod. = normal 

[S=0, H=4, N=2] 

AND Spect.Pre. = hyperm. AND Astigmatism = no 

[S=3, H=1, N=2] [S=5, H=0, N=1] 

139 

141 

143 

Izbor kontaktnih leč: 

klasifikacijska pravila 

• solzenje=zmanjšano leče=NE [S=0,H=0,N=12] 

• solzenje=normalno & astigmatizem=ne 

leče=MEHKE [S=5,H=0,N=1] 

• solzenje= normalno & astigmatizem=da & 

dioptrija=kratkovidnost leče=TRDE 

[S=0,H=3,N=2] 

• solzenje=normalno & astigmatizem=da & 

dioptrija=dalekovidnost leče=NE 

[S=0,H=1,N=2] 

• Verjetnostna klasifikacija novega neznanega primera: 

če je klasificirani primer pokrit z več različnimi 

pravili in ga pravila klasificirajo v različne razrede, 

primer klasificiramo v največkrat klasificirani razred 

Osnovni prekrivni algoritem (AQ, 

Michalski 1969,86) 

+ + 

for vsak razred Ci do 

- 

+ + 

– Ei := Pi U Ni (Pi poz., Ni neg.) 

+ 

– RuleBase(Ci) := prazna 

+ 

- 

– repeat {learn-set-of-rules} 

• learn-one-rule R (R pokriva nekaj pozitivnih in 

nobenih negativnih primerov) 

• Dodaj R v RuleBase(Ci) 

• Izbriši iz Pi vse pozitivne primere, ki jih pokriva R 

– until Pi = prazna 

- 

- - 

- 

+ 



Play tennis = yes 

IF Wind=weak 

[6+,2−] (8) 


IF Wind=strong 

[3+,3−] (6) 

Play tennis = yes IF 


IF Humidity=normal, 

Wind=weak 



Wind=strong 

[9+,5−] (14) 


IF Humidity=high 


[3+,4−] (7) 

IF Humidity=normal 

[6+,1−] (7) 

140 

142 




Outlook=rain 


Outlook=sunny 

144 

[2+,0−] (2) 

... 

24



PlayTennis = yes [9+,5-] (14) 

PlayTennis = yes ← Wind=weak [6+,2-] (8) 

← Wind=strong [3+,3-] (6) 

← Humidity=normal [6+,1-] (7) 

← … 

PlayTennis = yes ← Humidity=normal 

Outlook=sunny [2+,0-] (2) 

← … 

Estimating accuracy with probability: 

A(Ci ← Conditions) = p(Ci | Conditions) 

Estimating probability with relative frequency: 

covered pos. ex. / all covered ex. 

[6+,1-] (7) = 6/7, [2+,0-] (2) = 2/2 = 1 

Evalvacija klasifikatorjev 

• Uporaba naučenih modelov 

– Odkrivanje novega znanja (odl. drevesa, pravila) 

– Klasifikacija novih objektov (Bayes, odl. drevesa, pravila) 

• Evalvacija kvalitete klasifikatorjev 

– Točnost (Accuracy), Napaka (Error = 1 – Accuracy) 

– Klasifikacijska točnost na učni množici + procent pravilno 

klasificiranih primerov 

• Razbij množico primerov na učno množico (training set, npr. 

70%) za učenje klasifikatorja, in na testno množico (test set, 

npr.30%) za testiranje točnosti klasifikatorja 

• Prečno preverjanje (10-fold cross validation, leave-one-out, ...) 

– Razumljivost (npr. mera kompaktnosti modelov) 

– Informacijska vsebina (information score), signifikanca, … 

• Razdeli 

•Nauči 

• Testiraj 

T 1 T 2 T 3 

D\T 1=D 1 D\T 2=D 2 D\T 3=D 3 

T 1 T 2 T 3 

D 

145 

147 

149 






– Klasifikacijska točnost (accuracy) in 

napaka (error) 

–Prečno preverjanje 

(n-fold cross-validation) 

Prečno preverjanje 

(n-fold cross validation) 

• Metoda za ocenjevanje točnosti klasifikatorjev 

• Razdeli množico primerov D v n disjunktnih, (skoraj) 

enako velikih podmnožic (folds) T i tako da je D = U T i 

• for i = 1, ..., n do 

– Konstruiraj učno množico iz n-1 foldov: Di = D\T i 

– nauči se klasifikatorja H i iz primerov v Di 

– Uporabi fold T i za testiranje točnosti H i 

• Oceni klasifikacijsko točnost klasifikatorja tako, da 

izračunaš povprečje po desetih foldih T i 

(Ne)točnost 

• Denimo da dva različna klasifikatorja dosežeta 

80% točnost na testni množici, ali je njuna 

kvaliteta vedno enaka ? 

– Npr. klasifikator 1 pravilno klasificira 40 od 50 pozitivnih 

primerov in 40 od 50 negativnih; klasifikator 2 pa 

pravilno klasificira 30 od 50 pozitivnih in 50 od 50 

negativnih 

• Na testni množici ki ima več negativnih kot pozitivnih 

primerov je klasifikator 2 boljši 

• Na testni množici ki ima več negativnih kot pozitivnih 

primerov je klasifikator 1 boljši, razen če … 

• … razmerje pozitivnih postane tako veliko da je 

klasifikator ‘vedno pozitivni’ najboljši! 

• Povzetek: Klasifikacijska točnost ni vedno 

najboljša mera kvalitete klasifikatorjev 

146 

148 

150 

25

Kontingenčna tabela 

(confusion matrix, contingency table) 

Predicted positive Predicted negative 

Positive examples True positives False negatives 

Negative examples False positives True negatives 

Classifier 1 


Positive examples 40 10 50 

Negative examples 10 40 50 

50 50 100 

Classifier 2 




30 70 100 

ROC krivulja: konveksna ovojnica 

najboljših klasifikatorjev 

true positive rate 

100% 

80% 

60% 

40% 

20% 

0% 

0% 20% 40% 60% 80% 100% 

false positive rate 

Napovedna vs.opisna indukcija 

• Napovedna indukcija (predictive induction): 

Indukcija (učenje) modelov iz klasificiranih primerov s 

ciljem napovedovanja ter klasifikacije novih primerov 

– Učenje odločitvenih dreves, učenje klasifikacijskih pravil 

– Naivni Bayesov klasifikator, ANN, SVM, ... 

– Učenje modelov (hipotez) iz podatkov 

• Opisna indukcija (descriptive induction): 

Odkrivanje zanimivih skupin in pogostih vzorcev v podatkih z 

namenom odkrivanja zakonitosti v podatkih 

– Odkrivanje podskupin, razvrščanje v skupine (clustering), 

učenje povezovalnih pravil (association rule learning), … 

– Pojasnjevalna analiza podatkov (exploratory data analysis) 

151 

153 

155 

• True positive rate = 

#true pos. /#pos. 

– TP 1 = 40/50 = 80% 

– TP 2 = 30/50 = 60% 

• False positive rate = 

#false pos. /#neg. 

– FP 1 = 10/50 = 20% 

– FP 2 = 0/50 = 0% 

• ROC krivulja 

narisana v ROC 

prostoru z FP rate 

na X osi in TP rate 

na Y osi 

ROC krivulja 

Classifier 1 


Positive examples 

Negative examples 

40 

10 

50 

10 

40 

50 

50 

50 

100 

Classifier 2 




30 70 100 

true positive rate 

100% 

80% 

60% 

40% 

Confirmation rules 

20% 

WRAcc 

CN2 

0% 

0% 20% 40% 60% 80% 100% 

false positive rate 

Tretji del: Opisna indukcija 

• Napovedna vs. opisna indukcija 

•Učenje povezovalnih pravil 


•Razvrščanje v skupine 

Napovedna vs. opisna indukcija 

v učenju pravil 

• Napovedna indukcija: Gradnja množice pravil 

(ruleset), ki jih uporabimo kot model za 

napovedovanje in klasifikacijo novih primerov 

• Opisna indukcija: Gradnja posameznih pravil 

(rules), ki opisujejo zanimive zakonitosti, skupine 

ali vzorce v podatkih 

• Razlike: 

– Različni cilji, različne hevristike, različni kriteriji za 

ocenjevanje naučenih pravil 

152 

154 

156 

26

Nadzorovana vs. nenadzorovana 

indukcija v učenju pravil 

• Nadzorovano učenje (supervised induction): 

Učenje pravil iz klasificiranih primerov (vsak učni primer 

pripada nekemu razredu) – ponavadi se uporablja v 

napovedni indukciji 

• Nenadzorovano učenje (unsupervised induction): 

Učenje pravil iz neklasificiranih primerov (za učne 

primere pripadnost razredu ni podana) – ponavadi se 

uporablja v opisni indukciji 

• Izjema: Odkrivanje podskupin 

Odkrivanje posameznih pravil, ki opisujejo zanimive 

zakonistosti v podatkih iz klasificiranih primerov 

Povezovalna pravila (association rules) 

• X ⇒ Y . . . if X then Y 

• X in Y sta množici postavk (itemsets) 

• Intuitivni pomen: transakcije ki vsebujejo X najpogosteje vsebujejo tudi Y 

• Postavke (Items) – binarni atributi (features) 

– Medicina: moški, ženska,glavobol, število_otrdelih_sklepov_manjše_od_1, … 

– Trženje: CocaCola. Arašidi, pivo, … 

• Transakcije (transactions) – množice postavk (itemsets), zapisi v transakcijski 

tabeli (database records) 

i1 i2 ……………… i50 

t1 1 0 0 

t2 0 1 0 

… … … ... 

• Povezovalna pravila (Association rules) 

spondylitic ⇒ arthritic & stiff_gt_1 [70%, 5%] 

arthrotic & spondylotic ⇒ stiff_less_1 [90%,20%] 

Učenje povezovalnih pravil 

• Velike množice postavk so tiste, ki nastopajo v vsaj MinPodpora transakcij 

• Vse podmnožice velike množice postavk so tudi velike množice postavk 

(npr. če se A,B pojavljata v vsaj MinPodpora transakcij, se A in B tudi) 

• Ta lastnost je osnova za učinkovito implementacijo algoritmov za iskanje 

povezovalnih pravil (linearni v številu transakcij) 

• Postopek učenja: 

– Izberi MonPodpora, MinZaupanje 

– Poišči vse velike množice postavk MP, za katere velja 

Po(MP) > MinPodpora 

– Vsako veliko množico postavk MP razdeli na XY, MP = XY 

• izračunaj Za(X,Y) = p(XY)/p(X) = Po(XY)/Po(X) 

• če Za(X,Y) > MinZaupanje potem velja X ⇒ Y 

157 

159 

161 






Učenje povezovalnih pravil 

• Naloga učenja povezovalnih pravil (oblika pojasnjevalna 

indukcije): 

– Input: množica transakcij D 

– Poišči: Vsa povezovalna pravila za katere v množici transakcij D 

velja 

• Podpora pravila > MinPodpora (MinSup) 

• Zaupanje > MinZaupanje (MinConf) 

– Podpora: pravilo ima podporo (support) s če velja da s% vseh 

transakcij (množic postavk) v D vsebuje X in Y 

Po(X,Y) = #XY/#D = p(XY) 

– Zaupanje: Pravilo ima zaupanje (confidence) c če velja da c% 

vseh transakcij (množic postavk) v D ki vsebujejo X vsebujejo 

tudi Y 

Za(X,Y) = #XY/#X = p(XY)/p(X) = p(Y|X) 

– Popolno (nehevristično) preiskovalnje celotnega prostora postavk 

160 

Učenje povezovalnih pravil: Primeri 

• Primeri povezovalnih pravil 

– Analiza nakupov (market basket analysis) 

• beer & coke ⇒ peanuts & chips (80%, 13%) 

(IF beer AND coke THEN peanuts AND chips) 

• Confidence 80%: 80% of customers that buy beer and 

coke also buy peanuts and chips 

• Support 13%: 13% of all customers buy all four items 

– Zavarovanje (insurance) 

• mortgage & loans & savings ⇒ insurance (62%, 2%) 

• Confidence 62%: 62% of all customers that have 

mortgage, loan and savings also have insurance 

• Support 2%: 2% of all customers have all four 

158 

162 

27






Vizualizacija odkritih podskupin 

Odkrivanje rizičnih podskupin v TP/FP 

prostoru: SD algoritem 

• Cilj je odkrivanje kratkih opisov podskupin 

• Primer - Medicinska aplikacija: Odkrivanje obolelih 

(CHD – coronary heart disease) 

• Metoda hevrističnega preiskovanja posameznih pravil z 

maksimalno vrednostjo hevristike 

q = TP/(FP+g) 

TP – true positives: pravilno klasificirani pozitivni primeri 

(pravilno klasificirani oboleli pacienti z diagnoyo CHD) 

FP - false positives: nepravilno klasificirani negativni primeri 

klasificirani v razred, ki ga karakterizira pravilo (zdrave osebe, 

nepravilno klasificirane v razred CHD) 

g - generalizacijski parameter 

163 

165 

167 

Odkrivanje podskupin vs. 

učenje klasifikacijskih pravil 

• Klasifikator – model (množica pravil) 

– Vsako pravilo v klasifikatorju naj bo čimbolj čisto 

– Množica pravil tvori model domene 

• Opisi podskupin – vzorci (posamezna pravila) 

– Pravila niso čista, pokrivajo pa signifikantno večje 

število pozitivnih primerov z dano lastnostjo, ki jo 

proučujemo 

– Vsako pravilo je neodvisni vzorec 

positives 

negatives 

true 

positives 

false 

pos. 

Odkrivanje rizičnih skupin 

pacientov 

Cilj: Odkriti skupine pacientov z visoko rizičnostjo 

za koronarno bolezen (CHD), za A, B, C: 

• Glavni faktorji za skupino A1: 

CHD 46 

Podporni faktorji za A1: 

stress, smoking, hypertension, overweight 

• Glavni faktorji za A2: 

CHD 25 & age > 63 

Podporni faktorji za A2: ... 

• Glavni faktorji (odkriti z metodo za odkrivanje kratkih, 

značilnih pravil), Podporni faktorji (določeni s statistično 

analizo) 

Mera za kvaliteto pravil 

q = TP/(FP+g) 

• Pravila z visoko q vrednostjo pokrivajo veliko 

število primerov ciljnega razreda in majhno število 

primerov neciljnega razreda 

• Tolerirano število pokritih neciljnih primerov 

modeliramo z velikostjo parametra g 

– Če je g majhen (< 1) dobimo zelo specifična pravila (low 

false alarm rate) 

– Če je g velik (> 10) dobimo zelo senzitivna splošna 

pravila 

164 

166 

168 

28

Statistična karakterizacija 

podskupin 

• Izhajamo iz dobljenih kratkih pravil 

• Za vsak rizični faktor (značilko) 

izračunamo statistično signifikantnost 

značilke glede na pozitivne primere (CHD 

paciente pravilno vključene v podskupino) in 

negativne primere (zdrave osebe) s ℵ 2 

testom z 95% mero zaupanja 

Hierarhično razvrščanje v skupine 

Združevanje najbližjega para v novo skupino 

Ci 

Cj 

( i, j) 

C C d 

( i, k) 

C C d 

( j, k) 

C C d 

Ck 

• Minimiziraj podobnost 

(razdaljo) znotraj 

skupine 

• Maksimiziraj razdaljo 

med skupinami 

Pregled snovi 

• Odkrivanje zakonitosti v podatkih 

– Pojmi: Data Mining, Knowledge Discovery in Databases, strojno učenje, 

statistika 


• Napovedna indukcija 

– Naivni Bayesov klasifikator (je klasifikator a ne generira eksplicitnega 

modela) 

– Učenje odločitvenih dreves 

• Hevristike, konstrukcija dreves, klasifikacija z odločitvenimi drevesi, 

klasifikacijska točnost, transformacija dreves v pravila, pretirano 

prilagajanje učni množici (overfitting), rezanje dreves (pruning) 

– Učenje klasifikacijskih pravil 

• Pokrivni algoritem, konstrukcija posameznih pravil, hevristike, 

spreminjanje trenutne učne množice (current training set) 

• Metodologija evalvacije 

• Opisna indukcija 

– Učenje povezovalnih pravil 

• Algoritem za učenje pravil, podpora, zaupanje 

– Odkrivanje podskupin 

– Razvrščanje v skupine (le na kratko) 

169 

171 

173 






Hierarhično razvrščanje v skupine 

•Algoritem 

Vsak primer je ločena skupina Ci; 

repeat 

poišči najbližji par Ci in Cj; 

združi Ci in Cj v novo 

skupino Cr = Ci U Cj; 

določi različnost med 

Cr in ostalimi skupinami; 

until 

ostane ena sama skupina; 

• Dendrogram: 

170 

172 

29

Odkrivanje zakonitosti v podatkih Urnik Seznam študentov Cilji ... - IJS

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?