02.09.2015 Views

Atlas pospolitych ptaków lęgowych Polski

Atlas pospolitych ptaków lęgowych Polski

Atlas pospolitych ptaków lęgowych Polski

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

a tym bardziej zagęszczenia populacji, wymagają więc<br />

stosowania równie złożonej metodyki obliczeniowej. Klasyczna<br />

statystyka matematyczna, z racji swej właściwości<br />

nadmiernego upraszczania zjawisk, nie sprawdza się jako<br />

narzędzie do rozwiązywania tego typu problemów. Spośród<br />

wielu innych dostępnych metod jedną z najbardziej<br />

obiecujących jest tzw. uczenie maszynowe, zwłaszcza<br />

oparte na technikach „uczenia zbiorowego” (ensemble<br />

learning). W klasycznej statystyce matematycznej najczęściej<br />

poszukujemy jednego, najlepszego modelu, który<br />

w uproszczony sposób dobrze opisuje zmienność badanego<br />

zjawiska. Natomiast idea ensemble learning nie polega<br />

na poszukiwaniu jednego rozwiązania, lecz na łączeniu<br />

wielu różnych modeli, z których każdy jest niedoskonały,<br />

ale ich wspólne działanie istotnie przewyższa zdolności<br />

predykcyjne każdego z modeli cząstkowych. Takie gremialne<br />

działanie zbiorowości okazuje się skuteczniejsze<br />

pod względem trafności prognoz niż działanie każdego<br />

z jej pojedynczych elementów.<br />

3.3.1. Wstępna obróbka i kontrola jakości<br />

danych<br />

Specyfika każdej metodyki szacowania liczebności populacji<br />

powoduje, że informacje o zagęszczeniu są obarczone wieloma<br />

rodzajami błędów. Wynikają one z różnych przyczyn,<br />

często typowo metodycznych czy „ludzkich”, np. różnic w interpretacji<br />

tych samych faktów przez różnych obserwatorów.<br />

Mogą być rezultatem rozbieżności lokalizacyjnych danych<br />

o zagęszczeniach i danych środowiskowych – zdarza<br />

się, że ze względu na niedostępność pewnych fragmentów<br />

terenu rzeczywiste transekty są przesunięte w stosunku do<br />

wylosowanej lokalizacji. Olbrzymia zmienność przestrzenna<br />

samego procesu wybiórczości środowiskowej wynika często<br />

z indywidualnych preferencji osobników czy lokalnych<br />

adaptacji. Wszystko to powoduje, że błędy są niemożliwe do<br />

uniknięcia i kontrolowania, a niekiedy trudno jest oddzielić<br />

zmienność wynikającą z właściwości badanego zjawiska<br />

(czyli rzeczywistych różnic zagęszczenia populacji w czasie<br />

i przestrzeni) od „szumów” generowanych przez czynniki<br />

związane z metodyką.<br />

Stare przysłowie statystyków mówi: „Jeżeli wrzucisz<br />

śmieci, to śmieci wyciągniesz” (GIGO: „Garbage in, garbage<br />

out”). Niezależnie od tego, jak wyrafinowane, nowoczesne,<br />

poprawne i skuteczne będą metody analizy danych, wartość<br />

wyników i wniosków jest zawsze limitowana jakością<br />

danych wejściowych. Dlatego podczas analizy danych i dopasowywania<br />

modeli szczególną uwagę zwróciliśmy na<br />

badanie poprawności danych. Wszystkie obserwacje były<br />

szczegółowo analizowane pod względem kilkunastu kryteriów,<br />

które mogły świadczyć o ewentualnych błędach.<br />

Przykładowo sprawdzane były obserwacje, dla których wykazano<br />

wyjątkowo skrajne wartości (wyraźnie odbiegające<br />

od przeciętnych), lub powierzchnie, dla których zmienność<br />

zagęszczeń była nietypowo wysoka czy trendy liczebności<br />

mocno odbiegające od wartości zerowych itd. Wszystkie<br />

podejrzane, nietypowe i odstające przypadki były analizowane<br />

na ortofotomapach w poszukiwaniu ewentualnych<br />

rozbieżności lokalizacyjnych lub błędów interpretacyjnych<br />

w klasyfikowaniu typów pokrycia terenu. W efekcie procedura<br />

dopasowywania modelu dla każdego gatunku była<br />

procesem bardzo żmudnym i czasochłonnym, wykonywanym<br />

wieloetapowo i rekurencyjnie.<br />

3.3.2. Algorytm modelowania zależności<br />

pomiędzy danymi o ptakach a danymi<br />

o środowisku<br />

Jedną z najskuteczniejszych metod uczenia maszynowego,<br />

która szczególnie dobrze nadaje się do modelowania<br />

rozmieszczenia organizmów, jest metoda lasów losowych<br />

(random forest = RF). Została opracowana stosunkowo<br />

niedawno (Breiman 2001) i – chociaż nie jest szczególnie<br />

popularna – w wielu pracach wykazano, że jest porównywalna<br />

do wielu innych powszechnie stosowanych technik<br />

modelowania predyktywnego lub lepsza od nich (Lawler<br />

et al. 2006; Prasad et al. 2006; Virkkala et al. 2010).<br />

Metoda RF bazuje na metodzie drzew klasyfikacyjnych<br />

i regresyjnych – CART (Breiman 1984). Drzewo takie jest<br />

dychotomiczne – buduje się je, dzieląc na każdym etapie<br />

dane na dwie grupy. Kryterium podziału (zmienna i jej<br />

wartość) jest tak dobierane, aby jak najbardziej poprawnie<br />

przewidywać wartość zmiennej zależnej (czyli w tym przypadku<br />

zagęszczenia populacji). Każdy podzbiór powstały<br />

w efekcie takiego podziału jest sukcesywnie dzielony na<br />

kolejne podzbiory wg odrębnych kryteriów. W rezultacie<br />

powstaje drzewiasta struktura będąca pewnym sposobem<br />

opisu zależności zagęszczenia od parametrów środowiska<br />

(ryc. 3.3).<br />

Metoda CART ma jednak poważne wady. Przede wszystkim<br />

jest mało dokładna, a wynik otrzymany na skutek<br />

stopniowych podziałów jest dyskretny – przyjmuje jedną<br />

z dopuszczalnych wartości. Ponadto drzewa są niestabilne<br />

– lekkie perturbacje danych, zwłaszcza na początkowych<br />

etapach podziału, mogą prowadzić do otrzymania różnych<br />

struktur wynikowych. Ale te właśnie wady umożliwiły stosowanie<br />

prostych drzew regresyjnych czy klasyfikacyjnych<br />

w podejściu typu ensemble. Zamiast szukać jednego, „najlepszego”<br />

drzewa, budujemy wiele drzew, z których każde<br />

jest efektem dopasowania do losowo perturbowanych<br />

danych. Powoduje to powstanie wielu prostych modeli,<br />

wyspecjalizowanych do przewidywania wartości zmiennej<br />

zależnej w pewnym wąskim podzbiorze wartości parametrów<br />

wejściowych. Następnie predykcje z takiego zespołu<br />

drzew uśrednia się (lub poddaje głosowaniu wyniki klasyfikacji),<br />

czego rezultatem jest znaczna poprawa skuteczności<br />

predykcji, a także eliminacja problemów wynikających<br />

z nieciągłości i niestabilności takiego układu.<br />

Losowa perturbacja danych jest realizowana poprzez<br />

technikę bootstrap (Efron i Tibshirani 1993). Polega ona<br />

na wielokrotnym losowaniu (ze zwracaniem) elementów<br />

z próby. Losowanie ze zwracaniem powoduje, że zawsze<br />

część elementów nie zostaje wybrana i są one używane<br />

do szacowania testowego błędu predykcji. Elementy takie<br />

oznaczane są jako OOB (out-of-bag).<br />

Algorytm RF można podsumować następująco:<br />

1. Weź próbę typu bootstrap (czyli ze zwracaniem) o wielkości<br />

N ze zbioru danych uczących (N jest liczbą obserwacji<br />

w zbiorze uczącym).<br />

2. Weź losową próbę m predyktorów (bez zwracania) ze<br />

zbioru wszystkich p zmiennych niezależnych.<br />

21

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!