03.05.2013 Views

Excel parancsfájlok felhasználása a statisztikai elemzésekben Írta ...

Excel parancsfájlok felhasználása a statisztikai elemzésekben Írta ...

Excel parancsfájlok felhasználása a statisztikai elemzésekben Írta ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

0≤Tj≤ 1<br />

A tolerancia mutató minél közelebb van az 1-hez, annál kevésbé zavaró a multikollinearitás.<br />

Ha valamelyik változó T j mutatója 0,5 és 1 között van, akkor gyenge, (zöld szám), ha 0,2-0,5 között van<br />

akkor erős, zavaró, (kék szám) ha pedig 0 és 0,2 között van, akkor nagyon erős, káros (piros szám) a<br />

multikollinearitás.<br />

A multikollinearitás kiküszöbölése. Főkomponens regresszió F<br />

169 170<br />

F<br />

F<br />

A főkomponens-elemzés (PCA: Principal Components Analysis) az adatok leegyszerűsítését teszi lehetővé,<br />

a kiindulási adatmátrix dimenziójának csökkentésével. A régi magyarázó változók lineáris kombinációjával<br />

új változókat állítunk elő a sajátérték probléma megoldásával. A főkomponenselemzés mögöttes<br />

gondolata az, hogy kisszámú háttérváltozó “underlying factor” segítségével a teljes mátrixot viszonylag<br />

jól (adott hibával) reprezentálni lehet. Az új mesterséges változók korrelálatlanok (ortogonálisak, tehát<br />

egymástól lineárisan függetlenek), és csökkenő sajátértékek (eigenvalue) sorrendjében szokás sorban rakni<br />

őket. Az eljárás az eredeti, egymással szorosan korreláló k számú változót azok ugyancsak k számú<br />

főkomponensével helyettesíti, és ezek segítségével készít immáron jó tulajdonságú becsléseket. Az új regresszió<br />

az így képzett új változókra vonatkozik, így a szokásos becslési kritériumok nagy része (torzítatlanság,<br />

konzisztencia) nem értelmezhetők.<br />

Alkalmas lehet becslésre, a főkomponens regresszió, ha:<br />

• a kevés számú főkomponens minimális információ vesztéssel képes helyettesíteni a változókat,<br />

• a mesterséges változók szakmailag jól értelmezhető tartalmúak,<br />

• elsősorban nem a regressziós paramétervektorra, hanem az y becslésére vagyunk kíváncsiak<br />

A főkomponens regresszió paramétereinek meghatározása X T X mátrix saját értékeinek (λ) és saját vektorainak,<br />

(faktorsúlyainak, loadings: a ij)<br />

a meghatározását jelenti.<br />

Általában különböző mértékegységű változókból állítjuk elő a mesterséges változókat, ezért a mértékegységeket<br />

ki kell küszöbölni. Ezt a standardizálás műveletével lehet biztosítani:<br />

xij -x<br />

x ij =-= i=1,2…n j=1,2,…k<br />

σ<br />

Az eredeti regresszió n*k méretű X változómátrixot egy k*k méretű A mátrixszal egy ugyancsak n*k méretű<br />

Z = XA mátrixszá transzformáljuk. E Z mátrix oszlopvektorait főkomponenseknek vagy<br />

főkomponensvektoroknak nevezik. Az A mátrix tehát az X T X mátrix sajátvektoraiból épül fel. Az A mátrix<br />

elemeit az x j standardizált változók variancia-kovariancia mátrixának saját vektorai adják. A standardizált<br />

változók variancia-kovariancia mátrixa az eredeti változók korrelációs mátrixával (R) azonos, így<br />

ebből a mátrixból is meghatározhatjuk a saját értékeket és saját vektorokat. Az A mátrix tehát becsülhető<br />

a korrelációs mátrixból számított saját értékekhez tartozó saját vektorokkal, és ezért a program ennek<br />

alapján végzi el a számításokat. Egy-egy saját érték azt mutatja, hogy a vizsgált főkomponens az X mátrix<br />

varianciájának hány %-t határozza meg. A saját értékek összege a magyarázó változók számával (k)<br />

egyezik meg. Ennek alapján a saját értékekből megoszlási illetve kumulált megoszlási viszonyszámokat<br />

képezhetünk. Általában néhány főkomponens az X mátrix varianciájának igen jelentős hányadát képviselheti,<br />

ezért eljárhatunk úgy is, hogy nem a multikollinearitást okozó Xj magyarázó változót zárjuk ki a<br />

modellből, hanem az alacsony saját értékekkel rendelkező főkomponenseket. Arra nincs egyértelmű szabály,<br />

hogy hány új főkomponens változót célszerű a modellben tartani. Az egyik megközelítés az lehet,<br />

hogy akkor jelentős egy főkomponens, ha a sajátértéke nagyobb mint egy illetve ha nem nagyobb mint<br />

egy, de a figyelembe vett saját értékek az összes variancia legalább 80% -át megmagyarázzák.<br />

A számításokhoz szükséges adatokat a Mátrix munkalapon közöljük.<br />

A főkomponensek (saját vektorok ij a i,j=1,2…16) és a magyarázó változók közötti összefüggés 172<br />

F :<br />

169 Mundruczó György [1981]: 71-73.<br />

170 Hunyadi László [2001]: 179-181.<br />

171 Petres Tibor-Tóth László [2008]: 245-246.<br />

171<br />

162

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!