12.07.2015 Views

Drzewa klasyfikacyjne 1 Wprowadzenie 2 Drzewa klasyfikacyjne

Drzewa klasyfikacyjne 1 Wprowadzenie 2 Drzewa klasyfikacyjne

Drzewa klasyfikacyjne 1 Wprowadzenie 2 Drzewa klasyfikacyjne

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

dochodyniskie wysokie ±rednienie tak studenttaktak nienieRysunek 2: Drzewo decyzyjne dla poj¦cia "kupuj¦ komputer".atrybutów do budowy korzenia drzewa s¡ nast¦puj¡ce:Gain(S, student) = 0.348 oraz Gain(S,pªe¢) = 0.004.Podzbiory przykªadów przypisane gaª¦ziom odpowiadaj¡cym warto±ciom niskieoraz wysokie maj¡ jednoznaczne przydziaªy do klas decyzyjnych, dlatego te ga-ª¦zie mo»na zako«czy¢ li±¢mi etykietowanymi odpowiednio klasami tak i nie. Wprzypadku podzbiorów przykªadów S rednie = {1, 2, 6, 8} nale»y rekurencyjniewywoªa¢ algorytm. Z dwóch rozwa»anych atrybutów korzystniejszy przyrostinformacji pozwala osi¡gn¡¢ atrybut student, którego warto±ci jednoznacznierozdzielaj¡ podzbiór przykªadów na klas¦ tak(przykªady 1,6) oraz klas¦ nie(odpowiednio pozostaªe przykªady 2,8) .3.1.1 Problem z miar¡ Information GainNiestety miara przyrostu informacji (ang. gain) maj¡c dwa atrybuty do wyboru,wybierze ten o wi¦kszej liczbie warto±ci. Nie jest to po»¡dana wªa±ciwo±¢,zwªaszcza w sytuacjach mocnego zró»nicowania liczno±ci dziedzin atrybutówopisuj¡cych analizowane przykªady. Je±li rozwa»ymy skrajny przypadek, w którympewien atrybut b, oznaczaj¡cy np. dat¦ urodzin, ma tyle ró»nych warto±ci,ile jest przykªadów ucz¡cych, atrybut ten zostanie wybrany do zbudowania testuw w¦¹le drzewa, gdy» maksymalizuje on warto±¢ miary Gain(S, b). W rezultacieka»dy z podzbiorów S i zawiera¢ b¦dzie pojedynczy przykªad, co doprowadzido stworzenia pªaskiego i równocze±nie bardzo szerokiego drzewa. Takie drzewoodwzorowuje dane ucz¡ce, lecz niestety jest maªo czytelne dla u»ytkownika i równocze±nienie jest u»yteczne do predykcji klasykacji tych przykªadów, które nies¡ reprezentowane w zbiorze ucz¡cym. Je±li rozwa»ymy test z wykorzystaniematrybutu b, który oznaczaª pytanie o dat¦ urodzin, to zauwa»my, ze takie pytaniepozostanie bez odpowiedzi dla nowych przykªadów z inn¡ warto±ci¡ datyni» te, które wyst¡piªy w zbiorze ucz¡cym.3.1.2 Inne miary wyboru atrybutów do podziaªu drzewaW±ród innych mo»liwych do zastosowania miar wyboru atrybutu do podziaªudrzewa s¡:ˆ Split information zwana podziaªem informacji zaproponowana przezQuinlana, oceniaj¡ca podziaª zbioru przykªadów ze wzgl¦du na warto±ci z6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!