Excel parancsfájlok felhasználása a statisztikai elemzésekben Írta ...
Excel parancsfájlok felhasználása a statisztikai elemzésekben Írta ...
Excel parancsfájlok felhasználása a statisztikai elemzésekben Írta ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
0≤Tj≤ 1<br />
A tolerancia mutató minél közelebb van az 1-hez, annál kevésbé zavaró a multikollinearitás.<br />
Ha valamelyik változó T j mutatója 0,5 és 1 között van, akkor gyenge, (zöld szám), ha 0,2-0,5 között van<br />
akkor erős, zavaró, (kék szám) ha pedig 0 és 0,2 között van, akkor nagyon erős, káros (piros szám) a<br />
multikollinearitás.<br />
A multikollinearitás kiküszöbölése. Főkomponens regresszió F<br />
169 170<br />
F<br />
F<br />
A főkomponens-elemzés (PCA: Principal Components Analysis) az adatok leegyszerűsítését teszi lehetővé,<br />
a kiindulási adatmátrix dimenziójának csökkentésével. A régi magyarázó változók lineáris kombinációjával<br />
új változókat állítunk elő a sajátérték probléma megoldásával. A főkomponenselemzés mögöttes<br />
gondolata az, hogy kisszámú háttérváltozó “underlying factor” segítségével a teljes mátrixot viszonylag<br />
jól (adott hibával) reprezentálni lehet. Az új mesterséges változók korrelálatlanok (ortogonálisak, tehát<br />
egymástól lineárisan függetlenek), és csökkenő sajátértékek (eigenvalue) sorrendjében szokás sorban rakni<br />
őket. Az eljárás az eredeti, egymással szorosan korreláló k számú változót azok ugyancsak k számú<br />
főkomponensével helyettesíti, és ezek segítségével készít immáron jó tulajdonságú becsléseket. Az új regresszió<br />
az így képzett új változókra vonatkozik, így a szokásos becslési kritériumok nagy része (torzítatlanság,<br />
konzisztencia) nem értelmezhetők.<br />
Alkalmas lehet becslésre, a főkomponens regresszió, ha:<br />
• a kevés számú főkomponens minimális információ vesztéssel képes helyettesíteni a változókat,<br />
• a mesterséges változók szakmailag jól értelmezhető tartalmúak,<br />
• elsősorban nem a regressziós paramétervektorra, hanem az y becslésére vagyunk kíváncsiak<br />
A főkomponens regresszió paramétereinek meghatározása X T X mátrix saját értékeinek (λ) és saját vektorainak,<br />
(faktorsúlyainak, loadings: a ij)<br />
a meghatározását jelenti.<br />
Általában különböző mértékegységű változókból állítjuk elő a mesterséges változókat, ezért a mértékegységeket<br />
ki kell küszöbölni. Ezt a standardizálás műveletével lehet biztosítani:<br />
xij -x<br />
x ij =-= i=1,2…n j=1,2,…k<br />
σ<br />
Az eredeti regresszió n*k méretű X változómátrixot egy k*k méretű A mátrixszal egy ugyancsak n*k méretű<br />
Z = XA mátrixszá transzformáljuk. E Z mátrix oszlopvektorait főkomponenseknek vagy<br />
főkomponensvektoroknak nevezik. Az A mátrix tehát az X T X mátrix sajátvektoraiból épül fel. Az A mátrix<br />
elemeit az x j standardizált változók variancia-kovariancia mátrixának saját vektorai adják. A standardizált<br />
változók variancia-kovariancia mátrixa az eredeti változók korrelációs mátrixával (R) azonos, így<br />
ebből a mátrixból is meghatározhatjuk a saját értékeket és saját vektorokat. Az A mátrix tehát becsülhető<br />
a korrelációs mátrixból számított saját értékekhez tartozó saját vektorokkal, és ezért a program ennek<br />
alapján végzi el a számításokat. Egy-egy saját érték azt mutatja, hogy a vizsgált főkomponens az X mátrix<br />
varianciájának hány %-t határozza meg. A saját értékek összege a magyarázó változók számával (k)<br />
egyezik meg. Ennek alapján a saját értékekből megoszlási illetve kumulált megoszlási viszonyszámokat<br />
képezhetünk. Általában néhány főkomponens az X mátrix varianciájának igen jelentős hányadát képviselheti,<br />
ezért eljárhatunk úgy is, hogy nem a multikollinearitást okozó Xj magyarázó változót zárjuk ki a<br />
modellből, hanem az alacsony saját értékekkel rendelkező főkomponenseket. Arra nincs egyértelmű szabály,<br />
hogy hány új főkomponens változót célszerű a modellben tartani. Az egyik megközelítés az lehet,<br />
hogy akkor jelentős egy főkomponens, ha a sajátértéke nagyobb mint egy illetve ha nem nagyobb mint<br />
egy, de a figyelembe vett saját értékek az összes variancia legalább 80% -át megmagyarázzák.<br />
A számításokhoz szükséges adatokat a Mátrix munkalapon közöljük.<br />
A főkomponensek (saját vektorok ij a i,j=1,2…16) és a magyarázó változók közötti összefüggés 172<br />
F :<br />
169 Mundruczó György [1981]: 71-73.<br />
170 Hunyadi László [2001]: 179-181.<br />
171 Petres Tibor-Tóth László [2008]: 245-246.<br />
171<br />
162