Atlas pospolitych ptaków lęgowych Polski
Atlas pospolitych ptaków lÄgowych Polski
Atlas pospolitych ptaków lÄgowych Polski
- No tags were found...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
a tym bardziej zagęszczenia populacji, wymagają więc<br />
stosowania równie złożonej metodyki obliczeniowej. Klasyczna<br />
statystyka matematyczna, z racji swej właściwości<br />
nadmiernego upraszczania zjawisk, nie sprawdza się jako<br />
narzędzie do rozwiązywania tego typu problemów. Spośród<br />
wielu innych dostępnych metod jedną z najbardziej<br />
obiecujących jest tzw. uczenie maszynowe, zwłaszcza<br />
oparte na technikach „uczenia zbiorowego” (ensemble<br />
learning). W klasycznej statystyce matematycznej najczęściej<br />
poszukujemy jednego, najlepszego modelu, który<br />
w uproszczony sposób dobrze opisuje zmienność badanego<br />
zjawiska. Natomiast idea ensemble learning nie polega<br />
na poszukiwaniu jednego rozwiązania, lecz na łączeniu<br />
wielu różnych modeli, z których każdy jest niedoskonały,<br />
ale ich wspólne działanie istotnie przewyższa zdolności<br />
predykcyjne każdego z modeli cząstkowych. Takie gremialne<br />
działanie zbiorowości okazuje się skuteczniejsze<br />
pod względem trafności prognoz niż działanie każdego<br />
z jej pojedynczych elementów.<br />
3.3.1. Wstępna obróbka i kontrola jakości<br />
danych<br />
Specyfika każdej metodyki szacowania liczebności populacji<br />
powoduje, że informacje o zagęszczeniu są obarczone wieloma<br />
rodzajami błędów. Wynikają one z różnych przyczyn,<br />
często typowo metodycznych czy „ludzkich”, np. różnic w interpretacji<br />
tych samych faktów przez różnych obserwatorów.<br />
Mogą być rezultatem rozbieżności lokalizacyjnych danych<br />
o zagęszczeniach i danych środowiskowych – zdarza<br />
się, że ze względu na niedostępność pewnych fragmentów<br />
terenu rzeczywiste transekty są przesunięte w stosunku do<br />
wylosowanej lokalizacji. Olbrzymia zmienność przestrzenna<br />
samego procesu wybiórczości środowiskowej wynika często<br />
z indywidualnych preferencji osobników czy lokalnych<br />
adaptacji. Wszystko to powoduje, że błędy są niemożliwe do<br />
uniknięcia i kontrolowania, a niekiedy trudno jest oddzielić<br />
zmienność wynikającą z właściwości badanego zjawiska<br />
(czyli rzeczywistych różnic zagęszczenia populacji w czasie<br />
i przestrzeni) od „szumów” generowanych przez czynniki<br />
związane z metodyką.<br />
Stare przysłowie statystyków mówi: „Jeżeli wrzucisz<br />
śmieci, to śmieci wyciągniesz” (GIGO: „Garbage in, garbage<br />
out”). Niezależnie od tego, jak wyrafinowane, nowoczesne,<br />
poprawne i skuteczne będą metody analizy danych, wartość<br />
wyników i wniosków jest zawsze limitowana jakością<br />
danych wejściowych. Dlatego podczas analizy danych i dopasowywania<br />
modeli szczególną uwagę zwróciliśmy na<br />
badanie poprawności danych. Wszystkie obserwacje były<br />
szczegółowo analizowane pod względem kilkunastu kryteriów,<br />
które mogły świadczyć o ewentualnych błędach.<br />
Przykładowo sprawdzane były obserwacje, dla których wykazano<br />
wyjątkowo skrajne wartości (wyraźnie odbiegające<br />
od przeciętnych), lub powierzchnie, dla których zmienność<br />
zagęszczeń była nietypowo wysoka czy trendy liczebności<br />
mocno odbiegające od wartości zerowych itd. Wszystkie<br />
podejrzane, nietypowe i odstające przypadki były analizowane<br />
na ortofotomapach w poszukiwaniu ewentualnych<br />
rozbieżności lokalizacyjnych lub błędów interpretacyjnych<br />
w klasyfikowaniu typów pokrycia terenu. W efekcie procedura<br />
dopasowywania modelu dla każdego gatunku była<br />
procesem bardzo żmudnym i czasochłonnym, wykonywanym<br />
wieloetapowo i rekurencyjnie.<br />
3.3.2. Algorytm modelowania zależności<br />
pomiędzy danymi o ptakach a danymi<br />
o środowisku<br />
Jedną z najskuteczniejszych metod uczenia maszynowego,<br />
która szczególnie dobrze nadaje się do modelowania<br />
rozmieszczenia organizmów, jest metoda lasów losowych<br />
(random forest = RF). Została opracowana stosunkowo<br />
niedawno (Breiman 2001) i – chociaż nie jest szczególnie<br />
popularna – w wielu pracach wykazano, że jest porównywalna<br />
do wielu innych powszechnie stosowanych technik<br />
modelowania predyktywnego lub lepsza od nich (Lawler<br />
et al. 2006; Prasad et al. 2006; Virkkala et al. 2010).<br />
Metoda RF bazuje na metodzie drzew klasyfikacyjnych<br />
i regresyjnych – CART (Breiman 1984). Drzewo takie jest<br />
dychotomiczne – buduje się je, dzieląc na każdym etapie<br />
dane na dwie grupy. Kryterium podziału (zmienna i jej<br />
wartość) jest tak dobierane, aby jak najbardziej poprawnie<br />
przewidywać wartość zmiennej zależnej (czyli w tym przypadku<br />
zagęszczenia populacji). Każdy podzbiór powstały<br />
w efekcie takiego podziału jest sukcesywnie dzielony na<br />
kolejne podzbiory wg odrębnych kryteriów. W rezultacie<br />
powstaje drzewiasta struktura będąca pewnym sposobem<br />
opisu zależności zagęszczenia od parametrów środowiska<br />
(ryc. 3.3).<br />
Metoda CART ma jednak poważne wady. Przede wszystkim<br />
jest mało dokładna, a wynik otrzymany na skutek<br />
stopniowych podziałów jest dyskretny – przyjmuje jedną<br />
z dopuszczalnych wartości. Ponadto drzewa są niestabilne<br />
– lekkie perturbacje danych, zwłaszcza na początkowych<br />
etapach podziału, mogą prowadzić do otrzymania różnych<br />
struktur wynikowych. Ale te właśnie wady umożliwiły stosowanie<br />
prostych drzew regresyjnych czy klasyfikacyjnych<br />
w podejściu typu ensemble. Zamiast szukać jednego, „najlepszego”<br />
drzewa, budujemy wiele drzew, z których każde<br />
jest efektem dopasowania do losowo perturbowanych<br />
danych. Powoduje to powstanie wielu prostych modeli,<br />
wyspecjalizowanych do przewidywania wartości zmiennej<br />
zależnej w pewnym wąskim podzbiorze wartości parametrów<br />
wejściowych. Następnie predykcje z takiego zespołu<br />
drzew uśrednia się (lub poddaje głosowaniu wyniki klasyfikacji),<br />
czego rezultatem jest znaczna poprawa skuteczności<br />
predykcji, a także eliminacja problemów wynikających<br />
z nieciągłości i niestabilności takiego układu.<br />
Losowa perturbacja danych jest realizowana poprzez<br />
technikę bootstrap (Efron i Tibshirani 1993). Polega ona<br />
na wielokrotnym losowaniu (ze zwracaniem) elementów<br />
z próby. Losowanie ze zwracaniem powoduje, że zawsze<br />
część elementów nie zostaje wybrana i są one używane<br />
do szacowania testowego błędu predykcji. Elementy takie<br />
oznaczane są jako OOB (out-of-bag).<br />
Algorytm RF można podsumować następująco:<br />
1. Weź próbę typu bootstrap (czyli ze zwracaniem) o wielkości<br />
N ze zbioru danych uczących (N jest liczbą obserwacji<br />
w zbiorze uczącym).<br />
2. Weź losową próbę m predyktorów (bez zwracania) ze<br />
zbioru wszystkich p zmiennych niezależnych.<br />
21