12.07.2015 Views

Klastrowanie, klasyfikacja

Klastrowanie, klasyfikacja

Klastrowanie, klasyfikacja

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ANALIZA GRUPY GENÓWANALIZA SKUPIEŃ


Na poprzednim wykładzie … skrótKtóre geny znajdujące się na mikromacierzy uległy zróżnicowanejekspresji?


Cała populacja vs wybrane osobniki• Nie możemy zbadać całejpopulacji chorych na raka• Wybieramy reprezentacjękilku (dziesięciu) osobników• Uogólniamy wyniki na całąpopulację pacjentów chorychna raka


Hipoteza zerowaH 0 zakłada że geny nie uległy zróżnicowanej ekspresjiZbiór A – gen nie uległ zróżnicowanej ekspresji po chemiiZbiór B – gen nie uległ zróżnicowanej ekspresji dla wszystkichpacjentów z białaczką typu ALL i AMLJeśli H 0 jest prawdziwa, to znaczy że nie została stwierdzona istotnastatystycznie zmiana w ekspresji.


Testy statystyczneKażdy test hipotezy zerowej tworzy model, który wyznaczaprawdopodobieństwo obserwowanej statystyki, np. średniezróżnicowanie ekspresji genów, które jest co najmniej takekstremalne jak obserwowane statystyki w danych.To prawdopodobieństwo to p-value . Im mniejsze tym mniejprawdopodobne, że obserwowane dane pojawiły się przypadkowo itym bardziej pewne wyniki.Zakładamy że dla genów z niską wartością p-value jest małoprawdopodobne, aby obserwowana zróżnicowana ekspresja pojawiłasię przypadkowo, a zatem jest skutkiem biologicznego efektu, którytestujemy.p-value = 0.01 oznacza że mamy 1% szansy na obserwowaniezróżnicowanej ekspresji przez przypadek


Odrzucenie hipotezyzerowejNie-odrzucenie hipotezyzerowejHipoteza zerowa (H 0 )jest prawdziwaFalse positiveBłąd I typuTrue positivepoprawneHipoteza zerowa (H 0 )jest fałszywaTrue negativepoprawneFalse negativeBłąd II typuSwoistość -specificityMoc testu -sensitivity


Testy parametryczne (dla danych z rozkładem normalnym)test t sparowanytest t niesparowanyTesty nieparametryczneTest Wilcoxona dla par obserwacji(Wilcoxon sign-rank test)Test Manna-Whitneya = test sumy rangWilcoxona(Wilcoxon rank-sum test)Bootstrap – pozwala ominąćzałożenie o rozkładzienormalnym danych(mulitifactor)Anovagdy mamy więcejniż 2 warunki (2rodzaje próbek)do porównaniaeBayes – gdy jest zbytmało powtórzeń i niemożna wyznaczyćwariancjimodel liniowyorazzłagodzona statystyka t


Wielokrotne testowanie - problem• Z definicji p-value, każdy gen ma 1% szansy posiadania wartościp


Kontrolowanie false positives• Family-wise error rate (FWER)- Prawdopodobieństwo co najmniej jednego błędu I typu pomiędzy genamiwybranymi jako znacząceFWER = Pr(FP > 0)Bonferroni• False discovery rate (FDR)- Oczekiwana proporcja błędów I typu spośród odrzuconychFDR = E Q , gdzie Q =FPR, jeśli R > 00, jeśli R = 0BenjaminiHochbergR – to suma False Positive i True Negative (czyli wszystkich z odrzuconą hipotezą)


Na dzisiejszym wykładzie …Będziemy szukać związku pomiędzy grupami genów, a nie badaćróżnicową ekspresję dla pojedynczego genu


Dwa sposoby patrzenia na dane• Patrzymy na związek między genamiwykorzystując ekspresję każdejpróbki jako pomiar genu• Patrzymy na związek międzypróbkami używając ekspresji każdegogenu jako miarę dla każdej próbki• z naukowego punktu widzenia jest to odrębna analiza• z punktu widzenia metod to jest to samo


Klasyfikacja dla mikromacierzyKlasyfikacja PRÓBEK• Odróżnia pomiędzy znanymi typami komórek lub warunków np.pomiędzy tkanką rakową a zwykłą• Identyfikuje różne a poprzednio nieznane typy komórek lubwarunków, np. nieznane klasy istniejących chorób rakowychKlasyfikacja GENÓW• Przypisanie nieznanej sekwencji DNA do jednej ze znanych klas• Podział grupy genów na nowe, nieznane funkcjonalne klasy napodstawie ich profili ekspresji dla pewnej liczby próbek


Klasyfikacja czy klastrowanie<strong>Klastrowanie</strong>Klasyfikacja


Klasyfikacja i klastrowanieAnaliza dyskryminacyjna: KLASY ZNANE<strong>Klastrowanie</strong>:KLASY NIEZNANE


Metody eksploracji danychMetody obejmują• klastrowanie (np. hierachiczne, podział, k-średnich)• projekcję (principal component analysis – analiza głównychskładowych, skalowanie wielowymiarowe)


Analiza klastrowa/ Analiza skupieńCel analizy klastrowejGrupowanie kolekcji obiektów w grupy klastrów, takich żeobiekty wewnątrz klastra będą do siebie bardziej podobne niżobiekty powiązane do innych klastrów.Dwa składniki potrzebne do tworzenia grup obiektów:Miara odległościW jaki sposób ocenić czy obiekty są do siebie podobne czy też nie?Algorytm do klastrowaniaProcedura do minimalizacji odległości pomiędzy obiektami wklastrze/grupie lub/i maksymalizacji odległości pomiędzy grupami


Analiza klastrowa• <strong>Klastrowanie</strong> kolumn: grupowaniepodobnych próbek• <strong>Klastrowanie</strong> wierszy: grupowaniegenów z podobną trajektoriągenyMacierz ekspresjigenówpróbkiL ij : poziom ekspresjigenu i-tego w j-tej próbce


Analiza klastrowa• <strong>Klastrowanie</strong> kolumn: grupowaniepodobnych próbek• <strong>Klastrowanie</strong> wierszy: grupowaniegenów z podobną trajektoriągenyMacierz ekspresjigenówpróbki• Bi-klastrowanie: grupy genów mająpodobną trajektorię dla podzbiorupróbek


Cechy miary odległości (distance measure)Odległość pomiędzy:• dwoma profilami powinna być dodatnia• profilem a nim samym = 0• dwoma profilami jest 0 profile są identyczne• profilem A i B = odległości między profilem B i A• Nierówność trójkąta


Odległość Euklidesowad(x, y) = (x i − y i ) 2


Odległość miejska - Manhattand x, y = |x i − y i |


KorelacjaWspółczynnik korelacji określa w jakim stopniu zmienne są współzależne• Współczynniki są znormalizowane:• -1 zupełna korelacja ujemna• 0 brak korelacji• +1 zupełna korelacja dodatniaPrzykłady• Korelacja Pearsona• Korelacja Spearmana• W przypadku, gdy rozkład zmiennej nie jest normalny lub są obserwacje odstające,współczynnik korelacji Pearsona może fałszywie wskazywać na nieistniejącąkorelację.• Wady tej nie mają współczynniki rangowe, które z kolei mają mniejsząefektywność dla rozkładów bliskich normalnemu


Korelacja Pearsona i SpearmanaKorelacja Pearsona: r xy =(x i −x)(y i −y)(x i −x) 2 (y i −y) 2Odchylenie standardowe dla yOdchylenie standardowe dla xKorelacja rangowa mierzy monotoniczną zależność między zmiennymi, a nietylko liniową. Np. jeśli jedna ze zmiennych jest rosnącą funkcją drugiej, tokorelacja rangowa przyjmuje wartość maksymalną.Korelacja SpearmanaDla każdej porównywanej zmiennej(próbki) dokonuje się rangowania:1. Zaobserwowane wartości porządkowane są rosnąco2. Każdej wartości x i przypisywana jest ranga Rx i równa pozycji wuporządkowaniu3. Jeśli pewna wartość występuje kilkukrotnie to wszystkim pozycjom z tąwartością przypisujemy rangę równą średniej arytmetycznej pozycji (rangawiązana)4. Wracamy do pierwotnego porządku (zamiast wartości mamy teraz rangi)5. Wyznaczamy korelacje wg wzoru na korelacje Pearsona – dla rang zamiastwartości!


Korelacja Pearsona i SpearmanaKorelacje Pearsona i Spearmana można przyrównać do testówparametrycznych (statystyka t sparowana, niesparowana) inieparametrycznych (test Wilcoxona, Mann-Whitneya).Te pierwsze wymagają rozkładu normalnego, natomiast rangowe sąbardziej odporne na wartości odstające, ale za to mają mniejszą moc.


Korelacja, a miara odległościr xy ∈ −1,1Odległość pomiędzy:• dwoma profilami powinna być dodatnia• profilem a nim samym = 0• dwoma profilami jest 0 profile są identyczne• profilem A i B = odległości między profilem B i A• Nierówność trójkątaKonwersja korelacji na miarę odległości:d x, y= 1 − r xy


Przykład - porównanie miarBiologiaPomiar ekspresji genu badany dla4 kolejnych dni.StatystykaKażdy gen zakodowany jestprzez wektor o długości 4.steep up x 1 = (2,4,5,6)up x 2 = (2/4,4/4,5/4,6/4)down x 3 = (6/4,4/4,3/4,2/4)change x 4 = (2.5,3.5,4.5,1)


Przykład - porównanie miarOdległość EuklidesowaOdległość pomiędzy dwoma wektorami to pierwiastekkwadratowy z sumy kwadratów różnic poszczególnych koordynatd x 1 , x 2 = (2 − 2/4) 2 +(4 − 4/4) 2 +(5 − 5/4) 2 +(6 − 6/4) 2 = 729/16 = 6.75steep up x 1 = (2,4,5,6)up x 2 = (2/4,4/4,5/4,6/4)down x 3 = (6/4,4/4,3/4,2/4)change x 4 = (2.5,3.5,4.5,1)0 6.75 7.59 5.076.75 0 1.5 4.597.59 1.5 0 4.645.07 4.59 4.64 0Macierz odległości


Przykład - porównanie miarOdległość ManhattanOdległość pomiędzy dwoma wektorami to suma z wartościbezwzględnej z różnic poszczególnych koordynatd x 1 , x 2 = |2 − 2/4| + |4 − 4/4| + |5 − 5/4| + |6 − 6/4|= 51/4 = 12.75steep up x 1 = (2,4,5,6)up x 2 = (2/4,4/4,5/4,6/4)down x 3 = (6/4,4/4,3/4,2/4)change x 4 = (2.5,3.5,4.5,1)0 12.75 13.25 6.5012.75 0 2.50 8.2513.25 2.50 0 7.756.50 8.25 7.75 0Macierz odległości


Przykład - porównanie miarOdległość korelacjiOdległość pomiędzy dwoma wektorami jest równa 1-r x1x2 , gdzie rjest współczynnikiem korelacji Pearsonad x 1 , x 2= 1 − r x1 x 2= 1 −2 − 1742 − 1742+ 4 − 17424 − 1716 + 4 − 1742+ 5 − 174244 − 1716 + 5 − 174+ 6 − 174224 − 1716254 − 1716 + 6 − 174+ 4 4 − 17162+ 5 4 − 171664 − 17162+ 6 4 − 17162steep up x 1 = (2,4,5,6)up x 2 = (2/4,4/4,5/4,6/4)down x 3 = (6/4,4/4,3/4,2/4)change x 4 = (2.5,3.5,4.5,1)0 0 2 1.180 0 2 1.182 2 0 0.821.18 1.18 0.82 0Macierz odległości


Przykład - porównanie miarEuklidesowa Manhattan Korelacja0 6.75 7.59 5.07 0 12.75 13.25 6.50 0 0 2 1.186.75 0 1.5 4.59 12.75 0 2.50 8.25 0 0 2 1.187.59 1.5 0 4.64 13.25 2.50 0 7.75 2 2 0 0.825.07 4.59 4.64 0 6.50 8.25 7.75 0 1.18 1.18 0.82 0Porównanie:Wszystkie dystansezostały znormalizowanedo przedziału [0,10] izaokrąglonesteep up up down changesteep up 0 0 0 9 9 0 10 10 10 8 4 5up 9 9 0 0 0 0 4 1 10 7 6 5down 10 10 10 4 1 10 0 0 0 7 5 4change 8 4 5 7 6 5 7 5 4 0 0 0Macierz odległości


Porównanie miar


Analiza głównych składowych (principal component analysis)• Przed użyciem skomplikowanych algorytmów chcemy obejrzećdane – ale jak obejrzeć dane wielowymiarowe na 2D?• PCA wizualizuje dane wielowymiarowe (liczba genów * liczbapróbek) patrząc „pod pewnym kątem” na te dane• „pod pewnym kątem” oznacza obrócenie osi układuwspółrzędnych tak, aby uchwycić jak największą różnorodność wdanych – przedstawiamy na 2D (kartce/ekranie), a następnieignorujemy pozostałe wymiary


PCA - przykład


PCA dla mikromacierzy• Dla eksperymentu, gdzie mamy 10 000 genów tworzymy macierzkowariancji (10 000 x 10 000)


Macierz kowariancjiMacierz pokazuje różnorodność każdej zmiennej, oraz jejkorelacji ze wszystkimi innymi zmiennymiWariancja dla przypadku wielowymiarowego• cov ij to kowariancja między x i a x jcov ij = r ij ∗ σ i ∗ σ j• cov ii = σ i 2to wariancja zmiennej x i2σ 1 cov 12 ⋯ cov 1ncov 2 21 σ 2 ⋯ cov 2n⋮ ⋯ ⋱ ⋮cov n1 cov n2 ⋯ σ2n• Kowariancja jest = 0 jeśli między zmiennymi nieistnieje żadna zauważalna korelacja liniowa• Może natomiast istnieć korelacja nieliniowa


PCA dla mikromacierzy• Dla eksperymentu, gdzie mamy 10 000 genów tworzymy macierzkowariancji (10 000 x 10 000)• Szukamy takiej liniowej kombinacji genów, która będzie miałanajwiększą wariancję – pierwsza główna składowa• Szukamy kolejnej liniowej kombinacji o największej wariancji, którabędzie prostopadła dopierwszej – druga głównaskładowa• Krok powtarzamy dopóki nieuzyskamy wymaganej liczbygłównych składowych. Każdaskładowa jest liniowąkombinacją wszystkichoryginalnych genów


PCA – przykład dla mikromacierzy• Badanie drożdży, którym zapewniono warunki do rozmnażaniabezpłciowego• Próbki drożdży zostały pobrane w 6 różnych punktach czasowych.• Chcemy zidentyfikować grupy genów, które zachowywały się wpodobny sposób w tym samym punkcie czasowym• Z 6000 genów zostało wybranych 1000, o największej wariancji


• Próbki tworzą jasny wzorzecna wykresie PCA• Jeśli byśmy patrzyli tylko napierwszą składową (oś X) topunkty czasowe 7, 9 i 11 byłybynierozróżnialne• Trzy ostatnie punkty czasowewskazują że jest pewienproces, który zostajezatrzymany po 5h i następujepowrót do stanupoczątkowegoPierwsze 5 głównychskładowych wyjaśniacałkowitąróżnorodność pośród 1000 genów, a 88% różnorodności jest wyjaśnione przez 2główne składowe na rysunku powyżej


Multidimensional Scaling plot (MDS)Redukcja wymiarów zaczyna się od wyznaczenia odległościpomiędzy próbkami lub profilami czasowymi (w time-seriesanalysis)Następnie próbki/profile są umiejscawiane w przestrzeni 2D lub3D tak, aby bliskie sobie próbki znalazły się blisko siebie, aniepodobne z dala od siebie.Różnica w porównaniu do PCA polega na możliwościzastosowanie różnych miar podobieństwa/odległości


Multidimensional Scaling plot (MDS)Odległość EuklidesowaOdległość – korelacja Pearsona


Algorytmy klastrowania• Popularne algorytmy do klastrowania danych mikromacierzowych:• Hierarchiczne klastrowanie• K-means• Paritioning Around Medoids (PAM)• Self-Organizing Maps (SOM)• K-means i SOM biorą oryginalne dane jako wejście: zakłada się żeatrybuty leża w przestrzeni Euklidesowej• Hierarchiczne klastrowanie i PAM pozwala na wybór macierzypodobieństwa d, która przypisuje dla każdej pary obiektów x i orazx j wartości d(x i ,x j ) jako odległości


Hierarchiczne klastrowanieHierarchiczne klastrowanie było pierwszym algorytmem użytym weksperymencie mikromacierzowym do klastrowania genów (Eisen et al.,1998)Algorytm1. Każdy obiekt tworzy swój własny klaster2. Iteracyjnie:• dwa najbardziej podobne klastry są łączone i zastępowane nowymwierzchołkiem w drzewie klastrów. Nowy wierzchołek jest wyznaczonyjako średnia wszystkich obiektów w połączonym klastrze• macierz podobieństwa jest uaktualniana nowym wierzchołkiem, któryzastąpił dwa połączone klastry3. Powtarzaj krok nr 2 dopóki nie zostanie jeden klaster


Hierarchiczne klastrowanie• Wyznaczenie odległości d(G,H) pomiędzy klastrami G i H opiera się napodobieństwie obiektów pomiędzy obiektami z dwóch klastrów:• Single linkage używa najmniejszej odległości d d G, H = mini∈G,j∈H d ij• Complete linkage używa największej odległości d c G, H = maxi∈G,j∈H d ij• Average linkage używa średniej odległości d a G, H = 1N G N Hi∈Gj∈H d ij• Dwa sposoby budowania drzewa: bottom-up, top-down


Hierarchiczne klastrowanieHeatmap i dendrogram


Hierarchiczne klastrowanie


K-meansCechy charakterystyczne dla k-means w odróżnieniu od klastrowaniahierarchicznego:• Liczba klastrów musi być zdefiniowana na początku• Nie ma hierarchii ani powiązań między klastrami• Algorytm k-means startuje od losowo utworzonych klastrów, więckażde uruchomienie algorytmu może utworzyć inne klastry


K-meansAlgorytm:1. Wybierz liczbę klastrów k2. Losowo przypisz każdy profil ekspresji genu do jednego zklastrów3. Wyznacz centroid dla każdego klastra4. Dla każdego profilu po kolei wyznacz jego odległość odcentroidów każdego z klastrów5. Przypisz profil do klastra, którego centroid jest najbliższy. Jeśliprofil zmienił przypisanie do klastra, wyznacz centroidy dla obuklastrów (poprzedniego i obecnego)6. Wróć do kroku 4 dopóki żaden z profili nie zmieni klastra


Partitioning around medoids (PAM)Algorytm:1. Wybierz losowo k punktów jako punkty centralne klastrów (medoidy)2. Połącz każdy punkt z najbliższym punktem centralnym używając miarypodobieństwa3. Dla każdego punktu centralnego:• zamień go z każdym innym punktem nie będącym medoidem i wyznacz koszttakiej konfiguracji4. Wybierz konfigurację z najniższym kosztem5. Powtarzaj kroki 2-4 dopóki nie ma żadnych zmian w medoidachRóżnica między medoidem acentroidem jest taka, że medoidjest jednym z punktów, a centroidniekoniecznie


Self-Organizing Maps (SOM)SOM służy do wizualizacji danych wielowymiarowych na przestrzeni omniejszej liczbie wymiarów, np.2D. SOM zwane są także sieciami Kohonena.Tworzona jest sieć wierzchołków zwanych także neuronami lubprototypami. Sieć neuronów dąży do wzorca zgodnego ze strukturąanalizowanych danychAlgorytm:1. Wybierz losowo punkt P2. Przesuń wszystkie prototypy wkierunku punktu; leżące najbliżejprzesuń najwięcej, a odległe –najmniej3. Powtarzaj punkty 1-2 dopóki niewykona się zadana liczba iteracji


Jak wybrać liczbę klastrów k?• Wskaźniki wewnętrzne• Statystyki wyznaczane są na podstawie macierzy odległości wewnątrz ipomiędzy – klastrowych.• Estymowana jest liczba klastrów, która minimalizuje/maksymalizujewskaźniki• Gap statistics• Average silhouette width


Jak wybrać liczbę klastrów k?Average silhouette width – podejście heurystyczne• Dla każdej obserwacji i, definiuje się szerokość silhouette s(i)• a(i) = średnia odległość pomiędzy i oraz wszystkimi punktami z jego klastra• dla wszystkich innych klastrów C, niech d(i,C) = średnia odległość od i dowszystkich obserwacji w C. Niech b(i) = min C d(i,C)• Szerokość silhouette s(i) = (b(i)-a(i)) / max(a(i),b(i))• Maksymalna średnia szerokość silhouette dla wszystkich obserwacjimoże być użyta do wyboru liczby klastrów• Obserwacje z s(i) bliskim 1 mogą być rozważane jako dobrzeklastrowane, a s(i)


Jak wybrać liczbę klastrów k?


W jaki sposób ocenić jakość klastrowania?• Wizualnie – obejrzeć czy profile ekspresji genów w klastrach są podobne.Trudne do weryfikacji, gdy jest wiele genów i próbek• Powiązanie biologiczne – sprawdzenie czy geny w jednym klastrze mająpodobną funkcjonalność• K-means – sprawdzenie czy dla kilkukrotnego uruchomienia z tą samą liczbąklastrów otrzymujemy takie same klastry (jeśli nie, być może liczbaklastrów jest niepoprawnie dobrana)• Metody bootstrapowe – tworzonych jest wiele zestawów wejściowych ikażdy z nich jest klastrowany, następnie klastry są porównywane;• najpewniejsze są klastry, które powtarzają się we wszystkich badanychzbiorach;• klastry, które pojawiają się rzadko nie są odporne na błędy eksperymentalne inie można z nich wyciągać pewnych wniosków


Nawet proste algorytmy klastrowania działająlepiej w przypadku gdy dołożymy chociażtrochę więcej wiedzy


Wybór genów dla klastrowaniaJest wiele metod wyboru grupy genów. Do klastrowania wybiera sięzazwyczaj grupę genów z największą wariancją - top100 .Skraca to czas obliczeń i redukuje szum w danych.


Wybór genów dla klastrowaniaJest wiele metod wyboru grupy genów. Do klastrowania wybiera sięzazwyczaj grupę genów z największą wariancją - top100 .Skraca to czas obliczeń i redukuje szum w danych.


Analiza eksploracji danych - podsumowanie• Poszukiwanie genów o podobnym profilu ekspresji dla kilku próbek• Geny, które uległy podobnej ekspresji (co-expression) z dużymprawdopodobieństwem są regulowane przez te same czynniki lubteż maja podobną funkcję• Metody eksploracji danych znajdą jakieś wzorce w danych, nieważne, czy będą one znaczące dla nas czy też nie• Metody obejmują klastrowanie (np. hierachiczne, podział, k-średnich) oraz projekcję (principal component analysis, skalowaniewielowymiarowe)• Taki rodzaj analizy powinien być używany tylko w przypadku, gdynie mamy żadnej wiedzy, którą moglibyśmy wykorzystać


KlasyfikacjaAnaliza dyskryminacyjna: KLASY ZNANE<strong>Klastrowanie</strong>:KLASY NIEZNANE


Analiza dyskryminacyjnaMamy: po kilka próbek z badanych klas (np. rodzaj choroby pacjenta)Chcemy : znaleźć wzorce klas z podzbioru genów, za pomocą którychbędziemy przydzielać nowe próbki do zadanych klas.Metody klasyfikacji mogą być użyte do diagnostyki, np. abystwierdzić na jaką chorobę cierpi pacjent, lub aby przewidzieć sukceslub porażkę zastosowanej terapii.


Analiza dyskryminacyjna


Ocena klasyfikatorówDla klasyfikacji binarnej – jedna z klas posiada szczególne znaczenie,np. zdiagnozowanie poważnej chorobyTP – liczba poprawnie sklasyfikowanych przykładów z wybranej klasyFN – liczba błędnie sklasyfikowanych przykładów z tej klasy, tj.decyzja negatywna, podczas gdy w rzeczywistość przykład należy dozadanej klasyTN – liczba przykładów poprawnie nie przydzielonych do wybranejklasyFP – liczba przykładów błędnie przydzielonych do zadanej klasy,podczas gdy do niej nie należą


Receiver Operating Characteristic (ROC) curveWykres true positive rate (sensitivity) TP/(TP+FN) w funkcji false positive rate(100-Specificity) FP/(FP+TN)Sensitivity – czułość, prawdopodobieństwo że rezultat testu będziepozytywny jeśli faktycznie powinien byćSpecificity – swoistość, prawdopodobieństwo, że test będzie odrzucony jeślifaktycznie powinien być odrzuconyKażdy punkt przedstawia parę czułość/swoistośćTest z idealną dyskryminacją plasowałby się wlewym górnym narożniku


Sposoby na tworzenie klasyfikatorów• Technika podziału hold-out dla dużych zbiorów danych• podział na dwa niezależne zbiory: uczący (2/3) i testowy (1/3)• Ocena krzyżowa cross-validation dla średnich zbiorów danych• podział losowy danych na k pozdbiorów• użycie k-1 zbiorów jako części uczącej i jednej jako testującej• uśrednienie wyników z k iteracji• Bootstrapping i leaving-one-out dla małych zbiorów danych• Problem przeuczenia (overfiting) – nadmiernie dopasowane dospecyfiki danych uczących się, bez dobrego uogólnienia


Które geny wybrać do tworzenia wzorca?• Wybrać najbardziej dyskryminujące geny• Geny mogą mieć znacząco zróżnicowaną ekspresję, ale mogą niebyć przydatne do klasyfikacjiHeurystyczny wybór grupy genów• Filtrowanie• Rangowanie genów zgodnie z ich zdolnością do dyskryminacji (statystyka t,Wilcoxon)• Używanie pierwszych k do klasyfikacji• Shrinkage (kurczenie się)• Cały zbiór genów zmniejszamy o te geny, które nie mają wpływu naklasyfikację – kontunuujemy, dopóki nie osiągniemy satysfakcjonującegowyniku• Np. Nearest Shrunken Centroids


Czy dane można rozdzielić?SeparowalnenieliniowonieseparowalneSeparowalneliniowo


Czy dane można rozdzielić?• Dane można rozdzielić liniowo czy nieliniowo?• Ile klas można jednocześnie ze sobą rozdzielić? Niektóre algorytmypotrafią rozdzielić tylko dwie klasy, inne mogą działać dla większejliczby klas


K- nearest neighbors• Patrzymy na pomiar ekspresji genów dla próbki, którą chcemysklasyfikować• Szukamy najbliższe ze znanych próbek mierzonej odpowiedniąmiarą odległości (np. Euklidesowa)• Klasa próbki jest taka jak klasa najbliższej próbkiParametry• k – liczba najbliższych próbek, na które patrzymy (k=3)• l – najmniejszy margines, dzięki któremu możemy rozdzielić klasy


Centroid classification• Dla każdej klasy wyznaczamy środek ciężkości (centroid) zewszystkich punktów z klasy• Wyznaczamy odległość pomiędzy pozycją próbki, a każdym zcentroidów (odpowiednia miara odległości)• Przypisujemy próbkę do klasy, do której ma najbliżejAlgorytm jest prosty, może rozdzielać jednocześnie pomiędzykilkoma klasami, ale nie nadaje się do rozdzielania klasnieseparowalnych liniowo.


Liniowa analiza dyskryminacyjna (LDA)• Wyznaczana jest linia prosta (w 2D) lub hiperpłaszczyzna (dla więcejniż 2 wymiarów), która rozdziela dwie znane klasy i minimalizujewariancję wewnątrz klasy po obu stronach linii/płaszczyznydzielącej oraz maksymalizuje wariancję pomiędzy klasami• Nowa, nieznana próbka będzie miała przydzieloną klasę wzależności od tego, po której stronie podziałki się znajduje• LDA jest mocno rozbudowaną metodą statystyczną• Można rozdzielać tylko dwie klasy• Klasy muszą być separowalne liniowo


Support vector machines (SVM)SVM podobnie jak LDA rozdzielają liniowo przestrzeń na dwie częściKtóry podział jestnajlepszy?


Support vector machines (SVM)Najlepszy podział ma największy marginesPunkty leżącenajbliżejhiperprzestrzeninazywają się supportvectors.Pozostałe punkty niemają wpływu napozycjęhiperprzestrzeni


Support vector machines (SVM)Najlepszy podział ma największy marginesKlasyfikacja nowego wektora x poprzezfunkcję decyzyjną


Support vector machines (SVM)SVM jednak potrafią rozdzielić dane, których nie można liniowoodseparować dzięki projekcji danych w przestrzeń o większymwymiarze (kernel function)Ф(x)


Support vector machines (SVM)Załóżmy, że funkcja jądra K ma postaćK(x,y) = Ф(x)*Ф(y)Dopuszczalne funkcja jądra (kernel functions)


Support vector machines (SVM)Nie potrzebujemy wiedzieć jak wygląda przestrzeń zmiennychprzekształconych (feature space), ani nie potrzebujemy znać funkcjiФ(x), wystarczy że znamy funkcję jądra, jako miarę podobieństwa.Funkcję jądra K(x,y), którą możemy podstawić bezpośrednio dowcześniejszych wzorów


Materiały:• Jőrg Rahnenfűhrer „NGFN – Courses in practical DNA microarrayanalysis”, 2005• Dov Stekel „Microarray Bioinformatics”, Cambridge UniversityPress, 2003• Florian Markowetz, „NGFN – Courses in practical DNA microarrayanalysis”, 2005• Jerzy Stefanowski, prof. PP, przedmiot „Uczenie maszynowe”

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!