stopaprocentowawzrostzysk przedsi¦biorstwaspadekCeny akcjispadaj¡poziomcen akcjispadek Ceny akcjispadaj¡wzrost spadekstopaprocentowaCeny akcjirosn¡Rysunek 1: Drzewo decyzyjne - klasykacyjnewzrostwzrostzysk przedsi¦biorstwa1. Maj¡c zbiór obiektów S, sprawd¹, czy nale»¡ one do tej samej klasy. Je±litak, to zako«cz prac¦.2. W przeciwnym przypadku rozwa» wszystkie mo»liwe podziaªy zbioru S napodzbiory S 1 , S 2 , ...S n tak, aby byªy one jak najbardziej jednorodne.3. Dokonaj oceny jako±ci ka»dego z tych podziaªów zgodnie z przyj¦tym kryteriumi wybierz najlepszy z nich.4. Podziel zbiór S w wybrany sposób.5. Wykonaj kroki 1-4 rekurencyjnie dla ka»dego z podzbiorów.Na podstawie drzewa klasykacyjnego mo»na ªatwo sformuªowa¢ reguªy przynale»no±ciobiektów do klas w odniesieniu do drzewa przedstawionego na rysunku1:ˆ W przypadku spadku cen akcji: "je»eli stopa procentowa ro±nie i zyskiprzedsi¦biorstw spadaj¡ to ceny akcji spadaj¡"ˆ w przypadku wzrostu cen akcji: "je»eli stopa procentowa spada, lub je±listopa procentowa ro±nie ale jednocze±nie rosn¡ zyski przedsi¦biorstw rosn¡to ceny akcji rosn¡."2.2 Rodzaje drzew klasykacyjnychRó»nice dotycz¡ postaci funkcji oceniaj¡cej jako±ci podziaªu, sposobu klasykacjiobiektów o brakuj¡cych warto±ciach cech, itd.Najbardziej elementarny podziaª drzew decyzyjnych to podziaª na:ˆ drzewa binarne, w których z ka»dego wewn¦trznego w¦zªa wychodz¡ jedyniedwie kraw¦dzie,2
ˆ drzewa niebinarne - gdzie z w¦zªa mog¡ wychodzic wi¦cej ni» dwie kraw¦dzie.Tabela 1 2 prezentuje znane algorytmy budowy drzew klasykacyjnych z podziaªemna binarne i dowolne. Najpopularniejsze stosowane algorytmy to:Tablica 1: Rodzaje algorytmów tworzenia drzew decyzyjnychNAZWA ROK AUTORZY RODZAJ DRZEWACLS 1996 Hunt,Marin, Stone binarneACLS 1982 Paterson, Niblett binarneID3 1983 Quinlan dowolneCART 1984 Brieman, FriedmanOlshen, Stone binarneASSISTANT 1985 Kononenko binarneID4 1986 Schlimmer, Fisdher dowolnePLS 1986 Rendell dowolneC4 1987 Quinlan dowolneGID 3 1988 Chengf, Fayyad,Irani dowolneID5 1989 Utgo dowolneLMDT 1991 Brodley, Utgo binarne, wielowymiaroweCHAID 1993 SPSSInc. dowolneIND 1993 Bruntine, Caruana dowolneSADT 1993 Heat,Kasif,Salzberg binarne, wielowymiaroweSE-LEARN 1993 Rymonn dowolneOC1 1994 Murthy binarne, wielowymiarowe1. ID3 - cechuj¡cy si¦ prostot¡, ale wymagaj¡cy kompletnych danych i niepozwalaj¡cy na szum w danych. Ponadto zakªada, »e dane s¡ danymidyskretnymi, nie za± ci¡gªymi.2. C 4.5 - b¦d¡cy rozszerzeniem algorytmu ID3 i rozwi¡zuj¡cy wi¦kszo±¢problemów algorytmu ID3 (braki w danych, dane ci¡gªe, mo»liwo±¢ przycinaniadrzew gdy si¦ zbytnio rozrastaj¡ (ang. pruning)).3. CART (Classication and Regression Trees) - stosuje w budowie drzewaindeks Giniego, miar¦ entropii i reguª¦ podziaªu na dwie cz¦±ci (twoingrule). Cech¡ charakterystyczn¡ metody jest nadmierny rozrost drzewai przycinanie (pruning) poszczególnych gaª¦zi w celu redukcji opisu li±ci(przy nieznacznym wzro±cie bª¦du klasykacji). Pozwala to na porównaniemodelu rozbudowanego i modelu ze zredukowan¡ liczb¡ w¦zªów, czasamibowiem o jako±ci drzewa nie decyduje trafno±¢ predykcji, ale przydatno±¢wygenerowanych reguª.4. CHAID to algorytm AID (Automatic Interaction Detection) wykorzystuj¡cytest niezale»no±ci chi-kwadrat. Na ka»dym etapie podziaªu drzewatworzy si¦ tabel¦ kontyngencji, w której zestawia si¦ zmienn¡ obja±nian¡(zale»n¡) i obja±niaj¡c¡. Je±li zmienna obja±niana ma d > 2 kategorii,a obja±niaj¡ca c > 2 kategorii, to d¡»y si¦ do redukcji tabeli kontyngencjio wymiarach d × c do bardziej istotnej (z punktu widzenia testu2ródªo: Gatnar E.: Symboliczne metody klasykacji danych, PWN, 1998, Polska3