10.07.2015 Views

Statisztika Jegyzet az üzelti informatika szakirány számára (kézirat ...

Statisztika Jegyzet az üzelti informatika szakirány számára (kézirat ...

Statisztika Jegyzet az üzelti informatika szakirány számára (kézirat ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Statisztika</strong> <strong>Jegyzet</strong><strong>az</strong> üzelti <strong>informatika</strong> szakirány számára(kézirat gyanánt)Telcs AndrásDecember 16, 2005


CONTENTS0.1 Elõszó . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50.2 Bevezetés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 A leíró statisztika elemei 92 Valószínûségszámítási alapfogalmak 132.1 A valószínûségi mezõ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 <strong>Statisztika</strong>i alapfogalmak 173.1 Bevezetõ, sokaság, minta . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.2 Alapstatisztikák . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3 Határeloszlástételek avagy a valóság megismerhetõsége . . . . . . . . . . . 204 Becsléselmélet 275 A legnagyobb valószínûség elve 335.1 További példák, feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . 356 Hipotézis vizsgálat 396.1 Intervallum becslés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396.1.1 t eloszlásra épített kondencia intervallum . . . . . . . . . . . . 416.1.2 Kondencia intervallum <strong>az</strong> ismeretlen szórásra . . . . . . . . . . . 426.1.3 A mintaméret megválasztása . . . . . . . . . . . . . . . . . . . . . 436.2 Hipotézis vizsgálat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436.2.1 A hipotézis vizsgálat menete . . . . . . . . . . . . . . . . . . . . . 456.2.2 Paraméteres próbák . . . . . . . . . . . . . . . . . . . . . . . . . . 476.2.3 Az egymintás próbák további esetei . . . . . . . . . . . . . . . . . 476.2.4 Kétmintás próbák . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.3 Próbák a szórásra vonatkozóan . . . . . . . . . . . . . . . . . . . . . . . . 516.3.1 Egymintás próba . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.3.2 Kétmintás próba . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.3.3 A másodfajú hiba . . . . . . . . . . . . . . . . . . . . . . . . . . . 53


4 CONTENTS7 Nem paraméteres próbák 557.0.4 Khinégyzet próbák . . . . . . . . . . . . . . . . . . . . . . . . . . 557.0.5 Illeszkedés, normalitás vizsgálat . . . . . . . . . . . . . . . . . . . 587.0.6 Próbák helyzeti paraméterek vizsgálatára . . . . . . . . . . . . . . 587.0.7 Man-Whitney próba . . . . . . . . . . . . . . . . . . . . . . . . . 608 Szórásanalízis 638.0.8 Kétrészes osztályozás . . . . . . . . . . . . . . . . . . . . . . . . . 669 Lineáris regresszió 6710 Fokomponens analízis 7310.1 A lineáris algebra néhány eleme . . . . . . . . . . . . . . . . . . . . . . . 7310.2 Véletlen vektorok elforgatása . . . . . . . . . . . . . . . . . . . . . . . . . 7510.3 A vektrováltozó elemi statisztikai viselkedése . . . . . . . . . . . . . . . . 7610.4 A tapszatalati fokomponens . . . . . . . . . . . . . . . . . . . . . . . . . . 7811 Osztályozás, klaszterezés 8111.1 Osztályozás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8111.1.1 A legközelebbi társ módszer . . . . . . . . . . . . . . . . . . . . . 8311.2 Klaszter analízis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8311.2.1 K-közép módszer . . . . . . . . . . . . . . . . . . . . . . . . . . 8411.2.2 Hierarchikus eljárások . . . . . . . . . . . . . . . . . . . . . . . . 8412 Idosorok 8712.1 Alapfogalmak, deníciók . . . . . . . . . . . . . . . . . . . . . . . . . . . 8712.1.1 Összefüggoségi struktúrák . . . . . . . . . . . . . . . . . . . . . . 8712.1.2 Az autokovariancia függvény tulajdonságai . . . . . . . . . . . . . 8812.2 Idosorok transzformációja . . . . . . . . . . . . . . . . . . . . . . . . . . 8912.2.1 Nincs periodikus komponens . . . . . . . . . . . . . . . . . . . . . 8912.2.2 Trend és szezonalitás . . . . . . . . . . . . . . . . . . . . . . . . . 9012.3 Tapasztalati autokovariancia és autokorreláció . . . . . . . . . . . . . . . . 9012.4 Parciális autokovariancia függvény . . . . . . . . . . . . . . . . . . . . . . 9112.5 Fehér zaj . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9112.6 Mozgóátlag (MA) folyamatok . . . . . . . . . . . . . . . . . . . . . . . . 9112.7 Autoregresszív (AR) folyamatok . . . . . . . . . . . . . . . . . . . . . . . 9212.7.1 Példa, AR(1) folyamat . . . . . . . . . . . . . . . . . . . . . . . . 9312.7.2 Yule-Walker egyenletek . . . . . . . . . . . . . . . . . . . . . . . 9412.8 Autoregresszív - mozgóátlag (ARMA) folyamatok . . . . . . . . . . . . . 9412.8.1 A kauzalitás szükséges és elégséges feltétele . . . . . . . . . . . . 9412.9 Az átlag és <strong>az</strong> autokovariancia becslései . . . . . . . . . . . . . . . . . . . 9512.9.1 A spektrálfüggvény és <strong>az</strong> autokovariancia kapcsolata . . . . . . . . 9512.9.2 Aszimptotikus normalitás . . . . . . . . . . . . . . . . . . . . . . 9612.9.3 (n) becslése . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9612.9.4 Az autokorrelációk mikor különböznek szignikánsan 0-tól? . . . . 9712.10ARMA modellek becslései . . . . . . . . . . . . . . . . . . . . . . . . . . 97


Elõszó 50.1 Elõszó12.10.1 Ismert p és q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9812.10.2 Ismeretlen p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9812.10.3 A Durbin-Levinson algoritmus . . . . . . . . . . . . . . . . . . . . . 9812.10.4 Az innovációs algoritmus . . . . . . . . . . . . . . . . . . . . . . . . 9912.10.5 Mozgóátlag folyamatok becslései . . . . . . . . . . . . . . . . . . 10112.10.6 Aszimptotikus viselkedés ARMA folyamatok esetén . . . . . . . . 10112.10.7 Maximum likelihood becslések . . . . . . . . . . . . . . . . . . . . . 102E jegyzet informatikus hallgatók számára íródott. Ezen belül <strong>az</strong> Üzleti <strong>informatika</strong> szakiránykeretében kerül felhasználásra. Szerkesztésekor e két szempont alapján arra törekedtünk,hogy <strong>az</strong> informatikus képzés során szerzett ismeretekre, informatikus és mérnöki szemléletrealapozzunk. Ez egyben <strong>az</strong>t is jelenti, hogy lehetõség szerint a gyakorlati igénnyelfellépõ olvasó számára íródott. Ezt erõsíti a szakirány szabta feladat. A keretek szabtakorlátok között <strong>az</strong> üzleti életben felmerülõ problémákon keresztül kerülnek elõ egyesstatisztikai kérdések. Bizonyos mértékig <strong>az</strong> üzleti életben szokásos zsargont is becsempésztüka szövegbe, hogy a szerzett ismeretek késõbi alkalm<strong>az</strong>ását ezzel is könnyítsük.A kurzus több szinten sajátítható el. Mindenki maga dönti el mit céloz meg.A jegyzet anyaga lehetõvé teszis, hogy minimális üzleti, statisztikai szókincsretegyen szert <strong>az</strong> olvasó. Képes legyen egy üzleti, g<strong>az</strong>dasági poblémában felismerni astatisztikai feladatot és <strong>az</strong>onosítani a feladat megoldásához szükséges módszert. Végülmegértse a mások által megoldott statisztikai elemzés fõbb üzenetét, interpretációját.Az aki ennél többre törekszik, <strong>az</strong> alaposabb elsajátítás révén képessé válhat a statisztikusokkalegyüttmûködni a feladat korrekt specikálásában, mediálni a vállalat és astatisztikusok között biztosítva, hogy a válasz valóban arra a kérdésre adatik amit <strong>az</strong> üzletiélet felvetett.A kitúzhetõ maximális cél, hogy a tárgyhoz kapcsolódó laborra is támaszkodvaképessé válik a feladat meghatározásától a teljes megvalósításig minden lépést megoldani.Az<strong>az</strong> végighaladnia következõ lépéseken:1. probléma specikálás2. munkafeltevések megfogalm<strong>az</strong>ása3. módszer kiválasztás4. adatigény felmérése5. adatgyûjtés megtervezése, kivitelezése, adatfeldolgozás6. adatjavítás, szûrés, tesztelés7. elõzetes statisztikai feldolgozás8. a statisztikai módszer alkalm<strong>az</strong>ása9. egybevetés a munkafeltevésekkkel, egyéb szempontokkal


6 CONTENTS10. esetleg a 2-8 ciklus részleges vagy teljes ismétlése11. következtetések levonása, interpretálás, <strong>az</strong> eredmények visszafordítása <strong>az</strong> üzleti problémanyelvéreAki sikerrel megbirkózott a kurzus ismereteinek ilyen magas szintû elsajátításávalhasznos és erõs fegyvertár birtokába jutott. Természetesen nem rendelkezik a pro statisztikusteljes arzenáljával, de egye-egy irányban már képes lehet önállóan is fejleszteniezirányú ismereteit illetve, ha kedvet érez haladó statisztikai stúdiumokra is vállalkozhatmint például a napjainkban oly fontos nemparaméteres eljárások vagy adatbányászati módszerek.Annak érdekében, hogy a kitûzött feladatoknak megfeleljen, jegyzet felépítése akövetkezõ. Az elsõ fejezetben a valószínûségszámítás alapogalmai kerülnek röviden összefoglalásramajd a másodikban statisztika alapfogalmai kerülnek ismertetésre. A következõfejezetek egyre öszetettebb módszereket ismertetnek. Minden fejezet végén külön papíronilletve számítógép segítségével megoldható feladatok találhatóak. Ezek megoldása biztosítja<strong>az</strong> anyag elsajátításának második illetve harmadik szintjét.KöszönetnyilvánításA szerzo köszönetét szeretné kifejezni Maricza Istvánnak, <strong>az</strong>ért, hogy jegyzeténekidosor fejezete átemeléséhez hozzájárult. Ugyanot illeti még a közönet a baráti és szakmaibeszélgetésekért, amellyel a szerzot messzemenoen segítette.0.2 BevezetésA statisztika a rendszerezett számbavétel igényébõl fejlõdõtt ki <strong>az</strong> évszázadok során. Azelsõ számbavételi feladatok <strong>az</strong> idõszámításunk elõtti 4000 évre nyúlnak vissza. Kínábanmár ekkor összeírták a lakosságot, házakat, birtokokat. Ezen adatok a hatalom két nagyonfontos célját szolgálták <strong>az</strong> adókivetést és a katonai szolgálatot. Hasonló számbavételiigénye volt <strong>az</strong> egyiptomi uralkodóknak is a termény és a munkáerõ felmérése kapcsán.Mózes is számbaveszi nemzettségét (Lásd Mózes IV. könyve) és nem kevesebb mint 603.550felnõtt fért tud magáénak. A gyermekek a magas halandóság miatt, illetve mert mégsem munkára sem hadra nem foghatóak, nem számítottak, ahogy a nõk sem. Másutttöbb nemzettségfõ részletes vagyonfelsorolását találhatjuk a Bibliában mennyi nény illetvekétlábú jószágga rendelkeztek.Az elsõ hivatalos összeírásról is a Biblia számol be (Lukács 2.) ”Augusztus császárrendeletet adott ki, hogy <strong>az</strong> egész földkerekséget összeírják össze. Ezt <strong>az</strong> elsõ összeírástCirinus, Szíria helytartója, bonyoltította le. Mindenki elment a maga városába, hogyösszeírják.” Adat Rómáról maradt fennt, fénykorában mintegy 1 millió lakosa volt. Eztmegelõzõ idõbõl szárm<strong>az</strong>ó adatok szerint Athénban és Khorinthoszban 400 illetve 460 ezerrabszolga volt, amely feltehetõen nagyobb a valóságnál.A következõ nagyszabású vállalkozásra ezer évet kell várni. A XI. századbaszületik <strong>az</strong> un. Doomsday Book, ami <strong>az</strong> akkori anglia fölbirtok és hûbéri viszonyainkafelmérését szolgálta, megint csak adó és katonai szolgálat céljából . E hatalmas mû egybenszámos hely és kortörténeti leírással volt kiegészítve.


Bevezetés 7Az elsõ modernnek tekinthetõ statisztika John Graunt és William Petty nevéhezfûzõdik 1650-bõl. Õk készítették <strong>az</strong> elsõ születési és halálozási statisztikát.S leíró statisztika, ezen belül a grakus ábrázlás úttörõje volt Florence Nightingale(1820-1910) aki adatsorokra támaszkodó ábrákkal gyözte meg Nagybritannia katonaivezetését, hogy a Krími háború sebesültjei közül többen pusztultak el a hadikórhzak rosszrökülményeinek következtében mint a sérülésekben a csatatéren. Õ <strong>az</strong> elsõ statisztikus nõ,egyben <strong>az</strong> ápolási szakma megteremtõje is.E régi idõkre visszanyúló példák is mutatják a statisztika gyakorlati jelentõségét.Napjaink üzleti döntései pedig végképp elképzelhetetlenek <strong>az</strong>ok nélkül. Hogy csak egypéldát említsünk, <strong>az</strong> egyes termékek szenozális fogyasztási szokásai ismeretében gyártanaka termelõk, rendelnek és készleteznek a kereskedõk, példál sört. A késõbbiekben számosilyen jellegû példát founk még ismertetni, konkrét módszerek kapcsán.


8 CONTENTS


10 A leíró statisztika elemeiVigyázat a nominális cimke is lehet szám, mint a személyi <strong>az</strong>onosító szám, mégsemérdemes például átlagot számítani belõle. Ennél is óvatosabban kezelendõ, hogy gyakran aszámítógépes feldolgozás céljára <strong>az</strong> osztályok neve helyett számokat használnak, pédául ahajszín kódok fekete=1, barna=2 és így tovább, de e számok szintén csak cimkék, mûveleteketvégezni nincs értelme velük. Ez ugyanakkor nem jelenti <strong>az</strong>t, hogy <strong>az</strong> elõfordulások számávalne lehetne mûveletekret végezni és a sagítségükkel statisztikai következtetésekre jutni.Deníció 5 A kvantitatív adatok a következõ csoportokba sorolhatóak. Intervallum skáláróllehet beszélni, ha <strong>az</strong> ismérv számszerû és elemei egy intervallumból kerülnek ki. Ilyenpéldául <strong>az</strong> õszi félév oktatási napjainka dátuma.Hányados skálával van dolgunk, ha a meggyelt objektumok kérdéses numerikus ismérveinekhányadosa ismert. Például nem tudjuk, ki mennyi cukrot tesz <strong>az</strong> italába, de <strong>az</strong>t igen, hogyX másfélszer annyit mint Y. Y pedig 0.9-szer annyit mint Z.A leíró statisztika célja, hogy a rendelkezésre álló adatok alapján általános képetkapjunk a vizsgált objektumok összeségérõl és egyben <strong>az</strong> adatok minõségérõl. Ezt gyakrangrakus ábrázolással lehet elérni. Kiindulásul a meggyelt gyakoriságok szolgálnak.Egy ideig gyelmünket olyan vizsgálatokra korlátozzuk, amelyekbne <strong>az</strong> objektumokegyetlen paraméterével foglalkozunk. Természeseten késõbb több paraméter vizsgálatárasor kerül, hiszen gyakran ig<strong>az</strong>án <strong>az</strong>ok <strong>az</strong> izgalmas kérdések, hogy <strong>az</strong> egyik jólmeggyelhetõ paraméter viselkedésébõl következtessünk a másik esetleg kevésbé meggyelhetõre.Deníció 6 Gyakorisági tábla. Legyen a meggyelt összes objektum egy adott ismérvszerint osztályokba van sorolva. Az egyes osztályokba esõ elemek száma a gyakoriság, <strong>az</strong>osztálycimkék és e gyakoriságok alkotják a gyakorisági táblát. Például egy csoportban ahajszín gyakorisági táblájafekete 4barna 12vörös 1szõke 3összesen 20Jelölje f i <strong>az</strong> i-edik osztály gyakoriságát, frekvenciáját.Deníció 7 A relatív gyakoriságr i = f iNahol N <strong>az</strong> összes meggyelt elemek száma, i = 1; 2:::K pedig <strong>az</strong> osztályok sorszáma, r i <strong>az</strong>osztályok részírányát fejezi ki 0 és 1 között.Deníció 8 A gyakorisági diagramm avagy hisztogramm a gyakorisági táblát ábrázoljagrakusan.1 2 3 4


A leíró statisztika elemei 11Abban <strong>az</strong> esetben is lehet gyakoriságról, relatív gyakoriságról beszélni, illetve ábrátkészíteni. Ilyenkor jól megválasztott (általában egyenlõ) szélességû intervallumok alkotják<strong>az</strong> osztályokat és a gyakoriság <strong>az</strong> abba esõ elemek száma. Az intervallum szélességénekmegválasztásakor úgy célszerû eljárni, hogy a kapott gyakoriságok jól tükrözzék a vizsgáltkérdést, egy-egy intervallumba <strong>az</strong> összes elemek közül se túl sok se túl kevés ne essen.Szokás mág a relatív gyakoriságokat kördiagrammon is ábrázolni. [ide abra]A gyakoriságok elemzését néhány egyszerû statisztika segíti.Deníció 9 Módusz <strong>az</strong> <strong>az</strong> osztály vagy osztályok, amelyek a maximális elemszámot tartalm<strong>az</strong>zák.Fenti példánkban a barna a modális osztály.A továbbiakban numerikus adatok, kvalitatív ismérvekre szorítkozunk.Deníció 10 Medián a vizsgált mennyiség skáláján egy olyan érték, amely két egyenlõszámú részre vágja a meggyelt elemeket halm<strong>az</strong>át. Páratlan elemszám esetén ez a sorbarendezett értékek közul a középsõ, páros számú elem esetén a középsõ kettõ átlaga.Vegyünk egy példát. Az alábbi adatok7.57, 9.55, 8.82, 8.72, 6.96, 6.83, 11.42, 16.08, 6.83, 13.05, 11.36, 2.72, 8.55,10.79, 9.97, 9.85, 7.86, 7.72, 12.90, 18.17, 7.72, 14.75, 12.84, 3.08, 9.67, 12.19, 11.26,11.13, 8.89, 2.4130 háztartás papírhulladék ”termelésének” értékei. A sorbarendezés után a középsõkét elem, <strong>az</strong><strong>az</strong> a 15 és 16. átlaga 9.61. Az<strong>az</strong> ez a medián.Deníció 11 Hasonlóan deniáljuk a percentilist. a p-percentilis <strong>az</strong> a skálaérték, amelyalatt a p százaléka található <strong>az</strong> elemeknek.Deníció 12 Nevezetes percentilis <strong>az</strong> alsó és felsõ kvartilis, Q 1 illteve Q 3 , amelyek a 25illetve 75 százalékos percentilisnek felelnek meg.Példánkban a 30% percentilis 8.21, Q 1 = 7:72; Q 3 = 11:81:Deníció 13 A fenti statisztikákat szokás helyzeti paramétereknek is nevezni, mert <strong>az</strong> adatokelhelyezkedésérõl adnak felvilágosítást. Talán a legfontosabb helyzeti paraméter <strong>az</strong>átlag. <strong>az</strong><strong>az</strong> a mért x i ; i = 1; 2:::N értékek számtani közepe. = 1 NNXx i :i=1Az adatok szóródásának jellemzésére is több statisztikát lehet használni.Deníció 14 A terjedelem nem más mint a maximális és minimális mért érték különbsége.range = max1iN x imin x i:1iN


12 A leíró statisztika elemeiDeníció 15 Az interkvartilis terjedelemIQR = Q 3 Q 1 :Deníció 16 A leghasznosabb szóródási mérõszám a varianciaV AR = 2 = 1 NNX(x i ) 2i=1illetve <strong>az</strong> eredeti skálára visszatérve a szórásvu = t 1 NX(x i ) 2NGyakorlat 1 Számoljuk ki példánkban <strong>az</strong> átlagot és a szórást.i=1Deníció 17 A korrigált tapasztalati szórás kis elemszámok esetén játszik szerepet, jelentõségérõlmég késõbb lesz szó.vu = t 1 nX(x i ) 2n 1Szokás még <strong>az</strong> adatok lapultsgára illetve jobb vagy baloldalra hízására vonatkozómérõszámokta is bevezetni. Ezekre itt nem térünk ki.i=1


Chapter 2VALÓSZíNÛSÉGSZÁMíTÁSI ALAPFOGALMAK2.1 A valószínûségi mezõKorábbi tanulmányaink során megismerkedtünk a Kolmogorov féle valószínüségi mezõ és<strong>az</strong>on értelmezett valószínûségi változó fogalmával. Az alábbiakban röviden áttekintjük <strong>az</strong>ide vonatkozó és a statisztikában nélkülözhetetlen fogalmakat és összefüggéseket. Bõvebbbevezetõért, példákért, gyakorlatokért lásd [?].Deníció 18 Legyen tetszõleges halm<strong>az</strong>. Ez <strong>az</strong> összes események halm<strong>az</strong>a. Szoktukezt eseménytérnek is nevezni. Abban <strong>az</strong> esetben, ha véges vagy megszámláhatóanvégtelen, akkor atomos eseménytérrõl beszélünk. Az ! 2 eseményeket szokás elemieseményeknek nevezni. Ezek már nem bonthatóak további eseményekre.Véges eseménytér esetén könnyû elképzelni <strong>az</strong> eseményeket. Ilyen például, hogya tanulócsoportból véletlenül kiválasztott diák hajszíne fekete.Deníció 19 Összetett esemény minden nem egyelemû A részhalm<strong>az</strong>a nak.Deníció 20 Bevezetünk mûveleteket <strong>az</strong> események illetve <strong>az</strong> <strong>az</strong>okkal <strong>az</strong>onosított halm<strong>az</strong>okközött.A + B = f! : ! 2 A vagy ! 2 Bg :AB = f! : ! 2 A és ! 2 Bg : (2.1)E deníciók <strong>az</strong> eseményalgebrában szokásos jelöléseket használják, természetesen ugyanakkoregybeesnek a halm<strong>az</strong>ok közötti mûveletekkel. A + B = A [ B; AB = A \ B: Ha adottA 1 ; :::A n :: megszámlálhaóan végtelen esemény ezek összegét jelölje1XA i = A 1 + A 2 + :::A n + ::: (2.2)i=1Deníció 21 Az A esemény komplementereDeníció 22 A lehetetlen esemény <strong>az</strong> üres halm<strong>az</strong>, jele ;:A = f! 2 : ! =2 Ag : (2.3)Deníció 23 F <strong>az</strong> részhalm<strong>az</strong>ainak egy családja szigmaalgebra, ha nem vezet ki belõlea (2:2)összeadás, (2:1) szorzás és (2:3) komplementer képzés.


14 Valószínûségszámítási alapfogalmakDeníció 24 Az (; F; P) hármast valószínüségi mezõ, ha valamely alaphalm<strong>az</strong>, F efölött egy szigmaalgebra, P pedig valószínüségi mérték, ami <strong>az</strong>t jelenti, hogy <strong>az</strong> alábbi axiómákatteljesíti. Legyen A; B :1. P (A) 0:2. P () = 13. ha AB = ; akkorP (A + B) = P (A) + P (B)Deníció 25 Feltételes valószínüséget deniálhatunk tetszõleges B ; P (B) 6= 0 eseményreP (AjB) = P (AjB)P (B)segítségével.Gyakorlat 2 Lássuk be, hogy a feltételes valószínûség is kielégíti <strong>az</strong> 1.-3. axiomákat.Deníció 26 A B valós halm<strong>az</strong>ok családja Borel szigmaalgebrát alkot, ha tartalm<strong>az</strong>za <strong>az</strong>összes [x; y) intervallumot és szigmaalgebra. A B 2 B halm<strong>az</strong>okat Borel haml<strong>az</strong>oknaknevezzük.Deníció 27 Az (; F; P)-n egy X leképezés, X : ! R , valószínüségi változó, haminden B Borel hamlamzra annak õsképe, <strong>az</strong><strong>az</strong>X 1 B = f! : X! 2 Bg 2 F<strong>az</strong><strong>az</strong> Fbeli. Az ilyen halm<strong>az</strong>okat szoktuk még F-mérhetõnek is nevezni.Ha véges vagy megszámlálhatóan végtelen, <strong>az</strong><strong>az</strong> = f! 1 ; :::! n :::gakkor diszkrét valószínüségi mezõrõl beszélünk, egyébként folytonosról. A várható értékés szórás fogalmát elõször diszkrét valószínüségi mezõn deniáljuk.A diszkrét valószínüségi változó valószínûség eloszlását meghatározzák avalószínüségek.p i = P (! i )Deníció 28 Legyen a diszkrét (; F; P)-n egy X valószínüségi változó akkor ennek várhatóértéke, amennyiben <strong>az</strong> alábbi összeg létezikE (X) =1XX (! i ) P (! i ) =:i=1Jelölje mint általában ezt röviden = E (X) :1Xx i p i :i=1


A valószínûségi mezõ 15Deníció 29 Legyen a diszkrét (; F; P)-n egy X valószínüségi változó akkor ennek szórásnégyzete,avagy varianciájaV (X) =1X(x i ) 2 p ii=1amennyiben <strong>az</strong> összeg létezik. Szórása ez esetbenvuX (X) = t 1 (x i ) 2 p i :i=1Folytonos valószínûségi mezõ esetén <strong>az</strong> általánosság enyhe szûkítésével deniáljuka várható értéket és szórást.Deníció 30 Legyen <strong>az</strong> X valószínûségi változó <strong>az</strong> (; F; P)-n.F (x) ; ha minden x 2 Im X = fy 2 R : y = X (!)g-raX eloszlásfüggvénye0 F (x) = P (X < x) 1valószínüség sûrûségfüggvénye pedig f (x) 0; ha F (x) abszolút folytonos és mindenx re; ahol F értelmezett.Z xF (x) = f (y) dy1Deníció 31 Adott (; F; P)-n <strong>az</strong> A; B , eseményekre a feltétele valószínüséget aP (AjB) = P (AB)P (B)összefüggés deniálja, ahol feltesszük, hogy P (B) > 0:Deníció 32 Adott (; F; P)-n <strong>az</strong> A; B , események függetlenek, haP (AjB) = P (A) :Ez ekvivalens <strong>az</strong>zal, hogyP (AB) = P (A) P (B) :Deníció 33 Adott (; F; P)-n, <strong>az</strong> X i ; i = 1; 2::: valószínûségi változók páronként függetlenek,haP (fX i < xg fX j < yg) = P (X i < x) P (X j < y)teljesen függetlenek, ha minden kraés minden i 1 ::i k index k-asraP (fX i1 < x i1 g fX i2 < x i2 g :: fX ik < x ik g)= P (X i1 < x i1 ) P (X i2 < x i2 ) :::P (X ik < x ik ) :


16 Valószínûségszámítási alapfogalmakDeníció 34 Adott (; F; P)-n, A ; P (A) > 0 eseményre értelmeztük a feltételesvalószínüség fogalmát. Ez egy újabb valószínûségi mezõt is deniál (; F; P (:jA))-t, amin<strong>az</strong> A-ra vonatkozó feltételes várható érték valamely X-re a fenti denicióból adódik, jeleE (XjA) ; diszkrét esetbenE (XjA) =1Xx i P (X = x i jA) I (A)i=0folytonos esetben, tegyük fel, hogy létezik a (; F; P (:jA))-n <strong>az</strong> X feltételes sûrûség függvényef (xjA) ekkorZE (XjA) = xf (xjA) dx:A feltételes várható érték fogalmát kissé szûkített értelmezéssel deniáljuk, elkerülendõbizonyos fogalmi nehézségeket. Diszkrét esetben a deníció viszonylag egyszerû.Deníció 35 Legyen, (; F; P) valószínüségi mezõ, X; Y két valószínüségi változó. legyenekértékkészleteik rendre x i; y i ;<strong>az</strong>t <strong>az</strong> eseményt pedig, hogy X = x i ; A i illetve Y = y j jelöjeB j : EkkorE (XjY ) ==1XE (XjB i ) I (B i )j=01Xj=0 i=01Xx i P (A i jB j ) I (B i ) :Deníció 36 Folytonos (; F; P) valószínûségi mezõ és X; Y változók esetén <strong>az</strong> f (xjY )sûrûség függvényt a h (x; y) együttes sûrûségfüggvényen keresztül deniáljuk, feltéve annaklétezését, valamint, hogy Y sûrûségfüggvénye f Y (y) > 0:f (xjy) =h (x; y)f Y (y) :Deníció 37 Folytonos (; F; P) valószínûségi mezõ és X; Y változók esetén tegyük fel,hogy létezik <strong>az</strong> f (xjY ) sûrûség függvény, ekkor a feltételes várható értékZE (XjY ) = xf (xjY ) dx:


3.1 Bevezetõ, sokaság, mintaChapter 3STATISZTIKAI ALAPFOGALMAKA statisztika mint <strong>az</strong>t a bevezetõben említettük két fõ ágra bomlik, leíró statisztikára ésmatematikai statisztikára. Utóbbi módszerei matematikai alapon nyugszanak, lényegükettekintve viszont olyan praktikusan alkalm<strong>az</strong>ható módszereket foglal össze, amelyek segítségévelkorlátozott ismeretek alapán, kövtekeztetéseket lehet levonni, ezek alapján példáulüzleti döntéseket lehet hozni mégpedig úgy, hogy eközben a következtetés, döntés megbízhatóságáravonatkozóan is vannak ismereteink. Az élet számos területén találkozunkilyen feladatokkal, <strong>az</strong> üzleti élet különösen sok ilyet állít elénk. Állandóan döntéseket kellhoznunk, kockázatválalást, esélylatolgatást kell végeznünk. Álljon itt csak egyetlen példa.Új terméket szereténk piacra dobni. A termék fogadtatása nagyban függ a bevezetõ reklámsikerétõl. A kampány kialakítására több alternatívát is kidolgozunk. Melyik lesz ig<strong>az</strong>áneredményes? Melyiket válasszuk? A szubjekív vezetõi döntés, a vállalati tapasztalatokfelhasználása éppúgy elképzelhetõ, mint a megcélzott fogyasztói csoportonból kiválasztottkis csoporton végzett kísérlet, mérés. Az<strong>az</strong> ún peer csoportot hívunk meg mintátválasztunk ki. Ezt több alcsoportra bontjuk és <strong>az</strong> egyes csoportokon mefelelõ módszerekkellemérjük a reklám hatékonyságát. Mit jegyeznek meg, mivel társítják s.t.b. .Az így kapott eredményeket mintegy kivetítjük a teljes fogyasztói körre, célközönségre,feltételezzük, hogy (kellõen nagy és gondosan választott minta és gondosan kivitelezettmérés eredményeképpen) <strong>az</strong> alternatív kampányok közül <strong>az</strong> lesz a leghatékonyab a piacon,amelyik a kísérleti körülmények között <strong>az</strong> volt.Általánosan tehát egy sokaság, <strong>az</strong><strong>az</strong> egyedek objektumok összeségének bizonyos,teljes egészében nem meggyelhetõ tulajdonságairól szeretnénk tudomást szerezni. Ehhezmintát veszünk (megfelelõ módon) a sokaságból. A minta minden elemének kérdésestulajdonságait megvizsgáljuk, majd a kapott eredmény segítségével visszakövetkeztetünk ateljes sokaság ugyanezen tulajdonságaira. Szokás ezt statisztikai következtetésnek nevezni.(lásd ?? ábrát).Ismrekedésünket a statisztikai módszerekkel <strong>az</strong> egyváltozós statisztika körében kezdjük,<strong>az</strong><strong>az</strong> amikor a sokaság egyedeinek egyetlen tulajdonságát vizsgáljuk. Ilyen például <strong>az</strong><strong>az</strong> egyszerû adat, hogy ki hány percet beszél telefonon, hányas cipõt visel, hány éves. Haegy értékpapírt vizsgálunk, a sokaság lehet a papír kereskedésének napjai, a tulajdonságpedig a napi árváltozás.Általánosságban egy (; F; P) valószínüségi mezõt vizsgálunk, ahol P nem ismert.A P valószínüségi mérték gyakran egy ismert mértékcsalád eleme, amelyet (egy vagy több)paraméter jellemez. Ilyen lehet például a normális eloszlás vagy a Poisson eloszlás. Ezesetben paraméteres problémát vizsgálunk.


18 <strong>Statisztika</strong>i alapfogalmakKésõbb nem paraméteres problémák vizsgálatára is szép módszerekkel ismerkedünkmajd meg, de elõször a paraméteres problémákkal foglalkozunk, mivel történetileg is ezekalakultak ki elõbb és talán <strong>az</strong> elsõ ismerkedés is velül a könyebb.Fenti példáink is számszerüsíthetõ tulajdonságra vonatkoztak, tehát alapvetõen egy(; F; P) valószínüségi mezõn értelmezett X valószínüségi változót vizsálunk. Mirõl isvan szó? Miért ne a sokaság összes eleme a vizsgálódás tárgya. Általában nincs mód megmérnia sokaság minden elemére vonatkozóan a kérdéses mennyiséget, ez eleve lehetetlen,vagy igen költséges, esetleg más okból kerülendõ. Például egy új termék bevezetése elõtttermészetesen nincs információnk a fogadtatásró, ha meg már bevezettünk a kérdés máreldõlt. Más esetekben a teljes körû mérés bár lehetséges lenne, de a konkurensek elõtttitkolni szeretnénk milyen döntésre készülünk, ezért ezt el kell kerülni.Igy tehát modellt alkutunk. A sokaság bármely eleme lehetne a meggyelésünktárgya, ezért <strong>az</strong>t tesszük fel, hogy a megyelt objektum véletlen, annak tulajdonságát mériX; ez pedig egy valószínüségi változó. Érdeklõdésünket erre <strong>az</strong> X-re összpontosítjuk.Ahhoz hogy <strong>az</strong> X eloszlásáról képet alkussunk mintát vezünk a sokaságból, megnérjük aminta elemein a kérdéses mennyiséget, a kapott értékeket jelölje X 1 ; X 2 :::X n :A statisztika készítés gyakorlatának egyik sarkalatos lépése a minta kiválasztása.Késõbb röviden majd kitérünk majd a mintavételi eljárások alapjaira, de ezek alapvetõenmeghaladják e jegyzet kereteit.Mindvégig feltesszük, hogy <strong>az</strong> X i valószínüségi változók teljesen függetlenek és<strong>az</strong>onos eloszlásúak, ha ettõl a konvenciótól eltérünk, <strong>az</strong>t expliciten ott megjegyezzük.3.2 AlapstatisztikákLegyenek X 1 ; X 2 :::X n független <strong>az</strong>onos eloszlású valószínüségi változók. Az<strong>az</strong> <strong>az</strong> Xvalószínüségi változó független replikátumai. Azt a tényt, hogy <strong>az</strong> X; Y változó <strong>az</strong>onoseloszlású <strong>az</strong> X Y -al fogjuk röviden jelölni. A fenti feltevés tehát <strong>az</strong>t jelenti, hogyX i X minden i = 1; 2; :::n-re.Deníció 38 AzX = 1 nértéket mintaátlagnak nevezzük. Ha konkrét relaizációról beszélünk akkor ezt néha anXi=1nXX ix = 1 ni=1x ijelöléssel hangsúlyozzuk.Állítás 1 Ha létezik a = E (X) várható érték, akkorE X = :A bizonyítást <strong>az</strong> olvasóra bízzuk.


Alapstatisztikák 19Deníció 39 A minta tapasztalati szórásnégyzete, avagy varianciája (n > 1 esetén )V = 1 nnXi=1X i X 2és a tapasztalati szórásvuS = t 1 nnXi=1X i X 2:Ha a konkrét realizációt akarjuk hangsúlyozni, akkor avus = t 1 nX(x i x) 2n 1jelölést fogjuk használni.Tétel 3 (Steiner) Tetszõleges x i és c valósakrai=11nnX(x i c) 2 = 1 ni=1nX(x i x) 2 + (x c) 2 :i=1Bizonyítás.1nnX(x i c) 2 = 1 ni=1= 1 n= 1 nnX(x i x + x c) 2i=1nX(x i x) 2 + 2 ni=1nX(x i x) (x c) + (x c) 2i=1nX(x i x) 2 + (x c) 2i=1mert a P ni=1 (x i x) = 0:Következmény 11minc nnX(x i c) 2 = 1 ni=1nX(x i x) 2 :i=1Állítás 2S 2 = 1 nnXXi 2 X 2 (3.1)i=1Bizonyítás. Következik a Steiner Tételbõl c = 0 val.A tapasztalait szorásnégyzet és szórás melett bevezetjük a korrigált tapasztalatiszórásnégyzetet szórást.


20 <strong>Statisztika</strong>i alapfogalmakDeníció 40 A korrigált tapasztalati szórásnégyzetV = 1n 1és korrigált tapasztalati szórásvus = t 1n 1nXi=1nXi=1X i X 2X i X 2:3.3 Határeloszlástételek avagy a valóság megismerhetõségeA cím esetleg talányosnak vagy fellengzõsnek tûnik, de mindjárt látni fogjuk, hogy ahatáreloszlás tételek valóban a valóság megismerésének egyik kulcsa. A formális állításokelõtt hagy utaljunk vissza a legegyszerûbb, mondhatni ma már közhely számba menõösszfüggésre. Ha egy pézdarabbal sok dobást végzünk, a fejel részaránya egyre pontosabbanközelíti <strong>az</strong> 1/2 értéket. Ez kicsit általánosabban is így van, ha a pénz nem szabályos,vagy más függelenül ismételhetõ <strong>az</strong>onos módon lezajló kísérletet ismételgetünk, amelynektöbb véletlen kimenetele van, akkor egy adott kimenetel relatív gyakorisága egyre pontosabbanközelíti <strong>az</strong>t <strong>az</strong> értéket, amit axiomakent mint valószíûség ahhoz rendelünk. Példalehet akár a kocka dobás esetén a 6-s kimenetele. De lehet <strong>az</strong> a meggyelt jelenség, hogymilyen valószínüséggel választanak a vevõk a jobb illetve a bal kezük ügyébe esõ ugyan<strong>az</strong>ontermékbõl.Az elõzõ részben láttuk, hogy a tapasztalati átlag átlaga maga a sokaság átlaga (lásd1 Állítás), <strong>az</strong><strong>az</strong> a mintaátlag jól céloz. Ennél jóval több is ig<strong>az</strong>. Elõször is a mintaátlagszórására vonatkozó alapvetõ észrevétel következik.Állítás 3 Ha X-nek létezik várható értéke és szórása ;akkor <strong>az</strong> X bõl vett n elemû mintaátlagára ig<strong>az</strong>, hogy X = p : (3.2)nBizonyítás. A függetlenség alapjánamibõl <strong>az</strong> állítás már adódik. 2 X = 1 n 2 nXi=1 2 (X i ) = nn 2Deníció 41 Ha egy A esemény bekövetkezésére vonatkozóan ismételt független kísérleteketvégzünk, kiszámolhatjuk a tapasztalati részarányt a bekövetkezések k A száma ésa meggyelések n számának hányadosaként.p = k An :Termeszetesen <strong>az</strong>t várjuk, hogy p jól közelíti <strong>az</strong> ismeretlen p = P (A) értéket.Valóban, ig<strong>az</strong> a következõ.


Határeloszlástételek avagy a valóság megismerhetõsége 21Tétel 4 (A nagy számok Bernoulli-féle törvénye)Tekintsünk egy A eseményt, amelynek valószínüsége p = P (A) (0 < p < 1). Legyenn független meggyelésbõl a relatív gyakoriság p = p n (A), ekkor minden "; > 0 -ralétezik N = N ("; ) ;hogy minden n > N-reP (jp n pj < ") > 1 :Deníció 42 Legyen adott egy F eloszlásfüggvényû valószínüségi változó X: Az ennõl vettn elemõ minta egy tapasztalati eloszlásfüggvényt határoz meg. Legyen k n (x) <strong>az</strong> n elemûmintában <strong>az</strong> x érték alá esõ x i meggyelések száma. Ekkor <strong>az</strong> F n (x) tapasztalati eloszlásfüggvénya következõF n (x) = k n (x)n :Következmény 2 Ha speciálisan A = fX < xg valamely valószínüségi változóra, akkorha n > N:Tétel 5 (Nagy számok erõs törvénye)P (jF n (x) F (x)j < ") > 1 Legyen egy esemény A; p = P (A) (0 < p < 1) valószínûséggel. Legyen n függetlenmeggyeléspõl a relatív gyakorisága p = p n (A), ekkor minden " > 0 -ra létezik N =N (") ;hogy minden n > N-reP (jF n (x) F (x)j < ") = 1:Tétel 6 (Centrális határeloszlás tétel) Ha X 1 ; X 2 :::X n független <strong>az</strong>onos eloszlású valószínüségiváltozók várható értékkel és szórással, akkor XP = p n < y! (y)n!1ahol a standard normális eloszlás eloszlásfüggvénye.Megjegyzés 1 Az állítás kissé pongyolán <strong>az</strong>t jelenti, hogy elég nagy n esetén ( n>30használható mint ökölszabály) <strong>az</strong> X mint valószínüségi változó közelítõleg normális eloszlású,pontosabban N ; pn eloszlású.Tétel 7 Ha X normális eloszlású valószínüségi változó, akkor X Ps= p n < y = t (n 1) (y)ahol t (n 1) (y) <strong>az</strong> n 1 szabadságfokú Student eloszlás eloszlásfüggvénye.


22 <strong>Statisztika</strong>i alapfogalmakMegjegyzés 2 Ha n > 30 a Student eloszlás igen jól közelíti a standard normális eloszlást.Vegyük észre, hogy a második tétel sokkal erõsebb feltevésen alapszik, miszerint <strong>az</strong>alapsokaság normális eloszlású, cserébe viszont nem csak közelítõ állítás adható, hanem<strong>az</strong> eloszlás, a Student eloszlás akkor is adódik, ha a szórás értékének ismerete hiányábans= p n-el normáljuk a tapasztalati várható értéket.Megjegyzés 3 Megjegyezzük, hogy normális eloszlásíú valószínüségi változók összege isnormális, <strong>az</strong><strong>az</strong> a tétel feltételei melett X = p maga standard normális eloszlású. A gyakorlatban<strong>az</strong> okoz nehézséget, hogy a sokaság szórása, sõt esetleg várható értéke sem ismert.nTöbbek között a küzdelem ezen paraméterek meghatározásáért folyik és mindkét tétel fõmondanivalója éppen <strong>az</strong>, hogy a minta elemszámának növelésével a minta és a sokaságátlaga kis, kontrolált valószínüséggel tér csak el egymástól.A centrális határeloszlás tétel speciális esete a bevezetõben említett feladat egzaktmegoldása.Tétel 80P @ qppp(1 p)n1< yA ! (y) :n!1Megjegyzés 4 Az<strong>az</strong> megint csak kissé egyszerüsítve, nagy n-re p közelítõleg N qp;p(1 p)neloszlású. Ig<strong>az</strong> továbbá <strong>az</strong> is, hogy a nem ismert p helyett annak közelítését helyettesítve aképletbe <strong>az</strong> továbbra is fennáll, <strong>az</strong><strong>az</strong>:01P @ qp p < yA ! (y) :n!1p(1 p)nAz 6,7,7 Tételeket nem ig<strong>az</strong>oljuk (lásd [?]).Ezek után a megismerhetõség még teljesebb voltát ig<strong>az</strong>oló tételt, a statisztika alaptételétmondjuk ki. Ez lényegében <strong>az</strong>t állítja, hogy <strong>az</strong> F eloszlásfüggvényû valószínüségiváltozóból vett egyre nagyobb mintából <strong>az</strong> F tetszõlegesen pontosan meghatározható.Tétel 9 (A statisztika alaptétele)1 valószínüséggel.sup jF n (x) F (x)j ! 0xn!1A bizonyítástól eltekintünk. Az egyetlen nehézséget a szuprémum kezelése jelenti,hiszen minden x x-re <strong>az</strong> A = fX < xg eseményre alkalm<strong>az</strong>ható a fenti tétel, hiszenF (x) = P (A) ; F n (x) = p (A) :Az alábbiakban sokkal erõsebb, úgynevezett próbákat is biztosító élesebb eredményeketismertetünk.


Határeloszlástételek avagy a valóság megismerhetõsége 23Tétel 10 (Szmirnov)lim P p n (F n (x) F (x)) < y = S (y)n!1aholS (y) =0 ha y 01 e 2y2 ha y > 0 :Tétel 11 (Kolmogorov)lim P p n jF n (x) F (x)j < y = K (y)n!1aholK (y) =0 ha y 0P 1i= 1 ( 1)i e 2i2 y 2 ha y > 0 :Tétel 12 (Gnyegyenko) Legyen c = y p 2n ; ha F n és G n két tapasztalati eloszlásfüggvény,valamely F; G eloszlásfüggvény n elemû mintáira vonatkozóan, akkor F = G -bõlkövetkekzik, hogy8r n>:10 ha y 0( n+c)2nha 0 < y < p n( 2n n )21 egyébkéntA tétel ig<strong>az</strong>lásához bevezetõül egy klasszikus kombinatorikus gondolatmenetre vanszükségünk.Probléma 13 Az alább ismertetendõ balott-tétel a szav<strong>az</strong>atszámlás lefolyására vonatkozóegy érdekes összefüggést mutat be. Ha egy polgármesteri posztért két jelölt A és B küzdött,a lehetséges n = a+b szav<strong>az</strong>atból a t szerzett meg A, b < a t a pedig B, felfet[dik, hogymi annak a valószínüsége, hogy a szav<strong>az</strong>atok összeszámlálása során mindvégig A vezet,<strong>az</strong><strong>az</strong> <strong>az</strong> összes részeredmény is <strong>az</strong> õ gyõzelmét jelenti? Az összeszámlálás folyamatátjól lehet ábrázolni. Tekintsük a szokásos síkbeli koordináta rendszert. Induljunk ki <strong>az</strong>origóból és rajzoljunk egy (1; 1) vektort, ha <strong>az</strong> elsõ szav<strong>az</strong>atot A kapta, ellenkezõ esetben<strong>az</strong> (1; 1) vektort rajzoljuk. Ezt <strong>az</strong> eljárást folytatjuk mindíg <strong>az</strong> elõbbi két vektor egyikéneklerajzolásával ”megtoldva” <strong>az</strong> addig lerajzolt törött vonalat. ( lásd a ?? ábrát.) Világos,hogy a törött vonal n hosszúságú és <strong>az</strong> y = a b magasságban ér véget, <strong>az</strong><strong>az</strong> a (0; 0) és(n; a b) pontokat köti össze. Hívjuk röviden <strong>az</strong> ílyen szabállyal rajzolt törött vonalakatutaknak.Tétel 14 (ballot-tétel) Legyen n a > 0; b = n a: Azon utak hossza amelyek <strong>az</strong>origóbólindulnak és (n; a b)-ben úgy végzõdnek, hogy közben végig a felsõ félsíkban haladnak <strong>az</strong>x tengely érintése nélkül egyenlõ a b n:n a


24 <strong>Statisztika</strong>i alapfogalmakA bizonyítás <strong>az</strong> igen sok helyen alkalm<strong>az</strong>ható tükrözési elven alapul. Jelölje egysíkbeli C pont x tengelyre vonatkozó tükörképét C 0 :Tétel 15 (tükrözési elv) Az x tengelyt érintõ vagy metszõ Cszáma megegyezik <strong>az</strong> összes C 0 és D közötti utak számával.pontból D-be vezetõ utakBizonyítás. A bizonyítás a leszámlálások körébõl ismert módon történik, úgy,hogy a kérdéses utak között egy egy-egy értelmû megfeleltetést adunk, amibõl perszekövetkezik, hogy <strong>az</strong> utak száma is egyenlõ. Vegyüknk szemre egy adott olyan utat amiC bõl D-be halad és érinti vagy metszi <strong>az</strong> x tengelyt. Ezen metszések közül van elsõ,<strong>az</strong><strong>az</strong> balról jobbra ( a lerajzolás sorrendje szerint, <strong>az</strong><strong>az</strong> idõben) <strong>az</strong> elsõ pont ahol <strong>az</strong> út érintivagy metszi <strong>az</strong> x tengelyt. Legyen ez a pont (k; 0) ; <strong>az</strong><strong>az</strong> a metszés a k-adik szakasz lerajzolásakor.Tükrözzük <strong>az</strong> út (0; 0) és (k; 0) közötti részét <strong>az</strong> x tengelyre (lásd ?? Ábra).Ezzel egy C 0 -bõl D-be tartró úthoz jutunk. Az is világos, hogy minden ilyen C 0 -bõl D-betartró út valahol metszi <strong>az</strong> x tengelyt és mivel <strong>az</strong> elsõ érintést illetve metszést választottuka C; D úton, ezért a (k; 0) pont lesz <strong>az</strong> elsõ metszés a C 0 ; D úton is. Ez <strong>az</strong> elsõ (érintésilletve) metszéspont <strong>az</strong> utak mindkét szóban forgó halm<strong>az</strong>át diszjunkt részhalm<strong>az</strong>okra osztja.Az egy-egy értelmû megfeleltetést ezen részhalm<strong>az</strong>okon hozzuk létre. A tükrözéskölcsönösen egyértelmû megfeleltetés, ezért <strong>az</strong> utak között így kapott megfeleltetés is egyegyértelmû. Ebbõl viszont következik, hogy a megfelelõ utak száma is egyenlõ.Következmény 3 Annak a valószínüsége, hogy a fenti szav<strong>az</strong>atszámlálási problémábanvégig A vezet a ba+b :Bizonyítás. Világos, hogyha <strong>az</strong> összes szav<strong>az</strong>atsorrendek száma1mind egyenlõen valószínûek, akkor egy adott sorrend valószínüsége( a+ba ); ha ezek: A 14 tételbõlezért következik, hogy <strong>az</strong>on utak száma amik végig <strong>az</strong> x tengely felett haladnak <strong>az</strong>összes lehetséges utak számából kivéve <strong>az</strong>okat, amelyek érintenek vagy metszenek. Természetesen<strong>az</strong> elsõ lépés felfelé kell, hogy történjen, ezért a vizsgált összes út (1; 1)-bõl halad (n; a b)-be, ahol n = a + b, vagyis egyel balra és letolva (0; 0) bõl halad(n 1; a b 1)-be, ezek száma n 1a 1;ugyanakkor a ballot tétel szerint <strong>az</strong> érintõ vagymetszõ utak száma egyenlõ a (0; 1) ; (n; a) utak számával, <strong>az</strong><strong>az</strong> n 1a -val, a keresett nemérintõ utak száma ezért n 1 n 1 (n 1)! (n 1)!=a 1 a (a 1)!b! a! (b 1)!= a n! b n!n a!b! n a!b! = a b n:a + baMivel <strong>az</strong> egyes utak (szav<strong>az</strong>ócédula sorrendek) valószínüsége <strong>az</strong>onos, ezek összes számapedig a n ;ezzel ig<strong>az</strong>oltuk, hogy annak a valószínûsége, hogy a számlálás során végig Avezet a b:a+bA ballot tétel gondolatmenete segítségével ig<strong>az</strong>olhatjuk Gnyegyenko tételét.Elõször egy újabb egyszerõ kombinatorikus gondolatra van szükségünk. LegyenX 1 ; X 2 :::X n <strong>az</strong> F illetve Y 1 ; Y 2 :::Y n a G-ból választott n elemû minta. Keverjük össze ésa+ba


Határeloszlástételek avagy a valóság megismerhetõsége 25rendezzük nagyság szerint õket. Így a Z 1 ::::Z 2n sorozathoz jutunk. Feltesszük, hogy ezenértékek mind különbözõek. Legyen" i = 1 ha Zi <strong>az</strong> X k sorozat eleme1 egyébként:Ezzel megint egy 2n hosszú töröttvonalat is kapunk, ha <strong>az</strong> (1; " i ) vektorokat összefûzzük.Lemma 1 A fenti jelölések melettsup (F n (x) G n (x)) = 1xn max S i:0i2nBizonyítás. Az n (F n (x) G n (x)) kifejezés <strong>az</strong> x-nél kisebb X j beli és Y k belielemek számának különbsége. Az x növekedtével ez pontosan akkor változik, mégpedig" i -vel, ha X i illetve Y i éppen x:A 12 Tétel bizonyítása. Mivel a feltevés szerint F = G ezért <strong>az</strong> X i és Y isorozatok elemei <strong>az</strong>onos eloszlásúak és teljesen függetlenek, amibõl következik, hogy <strong>az</strong>ok1összes sorrendje <strong>az</strong>onos valószínûségû. Az<strong>az</strong> bármelyik sorozat valószínûsége( 2n n ) : Azonsorozatok száma pedig amelyekre max S i < z p 2n <strong>az</strong>on utak száma, amelyek a c =0i2n p z 2n egyenes alatt maradnak. Alkalm<strong>az</strong>zuk a tükrözési elvet most <strong>az</strong> y = c egyenesre(lásd ?? Ábra). Világos, hogy (0; 0) ból a (2n; 0) ba haladó c t nem érintõ utakszáma 2n 2nn n clesz. Osztva <strong>az</strong> összes utak számával adódik <strong>az</strong> állítás.Megjegyzés 5 Határátmenet képzésével Gnyegyenkó 12 tételébõl követezik Szmirnov 10tétele. A tükrözési elv ismételt alkalm<strong>az</strong>ásával és határátmenet képzésével lehet ig<strong>az</strong>olniKolmogorov 11 tételét is.


26 <strong>Statisztika</strong>i alapfogalmak


Chapter 4BECSLÉSELMÉLETA vizsgált (; F; P) valószínüségi mezõt gyakran jellemzi egy a P valószínüségi métrékhezkapcsolódó # paraméter. Ezt néha a P # jelöléssel is hangsúlyozzák. Ilyen paramétermondjuk <strong>az</strong> exponenciális eloszlás ja, vagy a normális eloszlás várható értéke, ;vagyszorása : De ha például egy pénz feldobásánál a fej falószínûségét vizsgáljuk, lehet a #paraméter <strong>az</strong> 1=2 tõl való eltérés is. Igen gyakori feladat, hogy egy X 1 ; X 2 :::X n mintábólmegbecsüljük # t:Deníció 43 Az X 1 ; X 2 :::X n mintából készített statisztika# = f (X 1 ; X 2 ; :::; X n )<strong>az</strong> aminek segítségével vissza kívánunk következtetni a sokaságot jellemzõ #-ra.A feladat megfogalm<strong>az</strong>ása már magában rejti <strong>az</strong>t, hogy valamilyen elõfeltevésselélünk (általában) a sokaságot jellemzõ P valószínûségi mértéket illetõen. Várható értékrõlsok esetben lehet például beszélni, de a Cauchy eloszlásnak nincs várható értéke, helyettehelyzeti paraméterrõl szokás beszélni. Hasonlóan -ról beszélünk <strong>az</strong> exponenciális eloszlásesetében, tehát például, ha egymást követõ telefonhívások között eltelt idõt tekintünk,ilyenkor jó okkal feltesszük, hogy valamilyen ismeretlen paraméterû, de exponenciáliseloszlással van dolgunk. Ha viszont a jelenségrõl tudható, hogy norális eloszlást követ,semmi értelme becslsérõl beszélni.Megközelítésünk teháte elõzetes feltevésre, a jelenség valamilyen szintû ismeretérealapoz. Ez általában jellemzi a paraméteres statisztikai vizsgálatokat. A következõ fejezetekbenerrõl lesz szó.Elkészítve egy # = f (X 1 ; X 2 ; :::; X n ) statisztikát, illetve becslést felmerül a kérdés,meyyire ”jó” ez a becslés. Például megéri-e n elemen elvégezni a mérést. Ez a kérdéskülönösen akkor fontos, ha a vizsgálat tönkreteszi annak tárgyát, például a sorozatgyártásbólkiemelt villanyégõket tartóssági tesztnek vetik alá. Több ezer órán át égnek, mérika teljes élettaratmukat. Ezt pedig csak akkor állapíthatják meg, ha a lámpa végül kiég.Természetesen ez <strong>az</strong> eljárás hosszadalmas és költséges, ha a teljes legyártott mennyiségenhajtanánk végre, akkor remek becslésünk lenne <strong>az</strong> átlagos élettartamra, csak nem lenneegy eladható égõnk sem. Így tisztázni kell, hogy hány elemû mintát érdemes használni.Ehhez egyrészt <strong>az</strong>t kell tisztázni, milyen pontos becslésre, milyen megbízható becslésrevan szükségünk, másrészt <strong>az</strong>t kell valahogy megállapítanunk, hogy maga a mérési módszer,esetünkben a # = f (X 1 ; X 2 ; :::; X n ) statisztika milyen hibát ”hordoz” magában.Az elõbbi példára visszatérve, <strong>az</strong> égõk élettartamára elég 10 óra pontos becslést adni. Jó


28 Becsléselméletlenne ugyanakkor, ha <strong>az</strong> adott becslésünk megbízható lenne, <strong>az</strong><strong>az</strong> mondjuk, ha 1000 szállítmányraalkalm<strong>az</strong>zuk, akkor lehetõleg csak egy-két esetben forduljon elõ, hogy a valódiélettartam és <strong>az</strong> általunk ígért (mérés alapján becsült) érték jobban eltér mint 10 óra. Szinténjogos elvárás lehet, hogy a költség, <strong>az</strong><strong>az</strong> a minta elemszámának növekedtével javuljona becslés valamelyik fenti értelemben.A becslés elmélet ezen kérdések ekzakt megközelítésére szolgál, melynek alapaikerülnek ebben a fejezetben bemutatásra.Az alábbiakban tehát egy ismeretlen # paraméter # becslésének jóságát leíró fogalmakatvezetünk be, majd néhány egyszerû statisztikára alkalm<strong>az</strong>zuk e fogalmakat.Deníció 44 Azt mondjuk, hogy # = f (X 1 ; X 2 ; :::; X n ) torzítatlan becslése #-nek, haminden # eseténE # # = #:Itt a várható érték a P # valószínûségi mértékbõl vett független X i mintaelemekrevonatkozik.Állítás 4 LegyenTegyük fel, hogy XhanXT (X 1 ; X 2 :::X n ) = c i X ii=1nek létezik várható értéke. Ekkor T akkor és csak akkor torzítatlan,nXc i = 1:i=1Bizonyítás. A várható érték linearitása miattE (T ) =nXc i E (X i ) = nXi=1i=1c iamibõl következik <strong>az</strong> állítás.Következmény 4 Ebbõl következik c i = 1 nátlagának torzítatlan becslése, <strong>az</strong><strong>az</strong>et tekintve <strong>az</strong> is, hogy a mintaátlag a sokaságE X = :Deníció 45 Azt mondjuk, hogy egy # becslés hatásosabb mint egy # 0 , ha torzítatlan becslésekés # # 0 ;feltéve persze a szórások létezését.Deníció 46 Azt mondjuk, hogy # hatásos, ha minden más # 0 -nél hatásosabb.


Becsléselmélet 29Deníció 47 Egy # 0 becslés hatásfokáról akkor beszélhetünk, ha létezik egy hatásos # becslés,ekkor a hatásfok (efciencia)e # 0 # 0= # :Állítás 5 Ha a vizsgált eloszlás normális akkor X hatásos.Ezt <strong>az</strong> állítást nem ig<strong>az</strong>oljuk, de a következõt viszont igen.Állítás 6 A várható érték lienáris becslései közül a mintaátlag a leghatékonyabb, ha létezikmásodik momentum..Bizonyítás. Tekintsünk egyT =lineáris becslést. Ekkor a függetlenség miatt 2 (T ) = 2nXc i X ii=1!nXc i X i =i=1nXc 2 i 2 :De a számtani és mértani közép közötti összefüggésbõl tudjuk hogyi=1nXc 2 i 1 ni=1! 2 nXc i = 1 ni=1és egyenlõség akkor és csak akkor áll fenn ha minden c i<strong>az</strong>onos, egyenlõ 1 -el. Így tehátn 2 (T ) 2 X :Deníció 48 Egy # n = f (X 1 ; X 2 ; :::; X n ) becslés asszimptotikusan torzítatlan, haE # n!n!1#:Deníció 49 Egy # becslés gyengén konzisztns, ha minden " > 0-ra létezik > 0 ésN > 0; hogy minden n > N-reP # # # < " 1 : (4.1)Erõsen konzisztens, havalamint n;gyzetes k0z;pben, ha P # lim # = # = 1 (4.2)n!1E # ## 2 !n!10: (4.3)


30 BecsléselméletMint <strong>az</strong>t a valószínûségszámítás alapjainál megismertük <strong>az</strong> erõs (4:2)és négyzetesközépben (4:3) vett konvergencia (esetünkben konzisztencia) egyaránt maga után vonja agyenge értelemben vett konvergenciát (4:1)(konzisztenciát).Tétel 16 Ha létezik második momentum, akkor X erõsen konzisztens becslés.Az állítás következi a nagy számok erõs törvényébõl.Tétel 17 A tapasztalati szórásnégyzet V és a korrigált tapasztalati szórásnégyzet V egyaránterõsen konzisztens.Bizonyítás.V = 1 nnXi=1X 2 iX 2 ! E X 2 E X 2ig<strong>az</strong> egy valószínûséggel a nagy számok erõs törvénye szerint.tapasztalati szórásnégyzetre is n 1 ! 1 miatt.nHasonlóan a korrigáltTétel 18 A V tapasztalati szórás nem torzítatlan becslése 2 -nek, S viszont <strong>az</strong>.Bizonyítás."#1nXE (V ) = E (x i x) 2ni=1"#1nX= E (x i + x) 2ni=1"1nX #= E (xi ) 2 2 (x i ) (x ) + (x ) 2ni=1"#1nX= E (x i ) 2 2n (x ) 2 + n (x ) 2ni=1"# "#1nX= E (x i ) 2 n (x ) 2 1nX= E (x i ) 2nni=1i=1E (x) 2De mint láttuk 2X = n( lásd 3.2 ) ezért <strong>az</strong> utolsó kifejezés egyenlõ 2 E (x ) 2 = 2 1n 2 = n 1n 2 6= 2 :Természetesen a korrigálás éppen kioltja <strong>az</strong> n 1 tényezõt, így a korrigált tapasztalati szórásnégyzetmárntorzítatlan.


Becsléselmélet 31Deníció 50 Egy # statisztikát elégségesnek nevezünk, ha a becsülendõ # paraméterrevonatkozó minden információt tartalm<strong>az</strong>, <strong>az</strong><strong>az</strong> ha F ;n jelöli <strong>az</strong> X 1 ; X 2 ; :::; X n együtteseloszlásfüggvényét, akkorF ;n xj# = t = F n xj# = t ;<strong>az</strong><strong>az</strong> a # = t feltevés melett a jobboldal mint formula sem tartalm<strong>az</strong>za a paramétert.E fogalom megértéséhez <strong>az</strong> alábbi példa a dhat segítséget.Állítás 7 Egy Poisson eloszlású sokaság paraméterének becslésére a mintaközép elégségesbecslés.Bizonyítás. Tegyük fel, hogy a paraméter : Mint tudjuk, Poisson eloszlású változóköszszege is ilyen és a paramétereik összegzõdnek, ezért speciálisan nX is Poissoneloszlású n paraméterrel. Tekintsük a minta együttes eloszlásfüggvényét és használjukki a függetlenséget. Jelölje = N ;ahol N = P nn i=1 x iP X 1 = x 1 ; X 2 = x 2 ; :::; X n = x n jX = = P X 1 = x 1 jX = P X 2 = x 2 jX = :::P X n = x n jX = P 1 nX = N = x 1x 1 ! e x 1 x 2x 1 ! e x2 ::: xnx 1 ! e xn N!(n) N eN = 1 N:n N x 1; x 2;:::;xnAz<strong>az</strong> a kapott képlet valóben nem tartalm<strong>az</strong>za a paramétert, tehát X elégséges statisztika.


32 Becsléselmélet


Chapter 5A LEGNAGYOBB VALÓSZíNÛSÉG ELVEHa egy doboz franciadr<strong>az</strong>sé között zöld, piros és kék színûek tatálhatóak, számuk pedig20,50,33, akkor ha arra a kérdésre kell választ adnunk, hogy milyen színû lesz a véletlenülhíhúzott dr<strong>az</strong>sé, mindenki <strong>az</strong>t feleli, hogy piros, hiszen ezekbõl van a legtöbb. Ugy ismondhatjuk„ hogy <strong>az</strong> adott esetben ennek a valószíûsége 50 a legnagyobb, mindenki <strong>az</strong>t103várja, hogy a legnagyobb valószínûségû esemény következik be. Nos ezt a természetesgondolatmenetet sok esetben alkalm<strong>az</strong>za a valószínûség számítsá és a statisztka is. Ebben afejezetben a legnagyobb valószínûség elvén alapuló módszerrel idegen szóval a maximumlikelihppd módszerrel ismerkedünk meg, újra <strong>az</strong> egyváltozós egyparaméteres problémákkörére szorítkozva.Példa 19 Legyen egy legyártott szériában a hibás gyártmányok részaránya ismeretlen p:Az<strong>az</strong> ha véletlen szerûen egyet kihízunk a szériából, annak a valószínûsége, hogy selejtestválatszunk p: Szeretnénk mintavétel segítségével meghatározni p-t. Tegyük fel, hogy egy nelemû mintát vettünk ki és abból k bizonyult selejtesnek. Számoljunk formálisan, mi enneka valószínûsége. nP p (X = k) = pkk (1 p) n kKeressük <strong>az</strong>t a p-t amire ez <strong>az</strong> érték maximális. Tegyük fel, hogy 0 < k < n: dn ndp P p (X = k) = kp k 1 (1 p) n k p k (n k) (1 p) n k 1kkA jobboldalt nullával egyenlõvé téve0 = k (1 p) p (n k)adódik, amibõl átrendezéssel a nem túl meglepõp = k nadódik. Természetesen meg kell gyõzõdnünk arról, hogy a kapott érték valóban szélsõértékés maximum hely-e, de ez ebben <strong>az</strong> esetben jól látható.A fenti példa a modellje a maximum likelihood módszernek.


34 A legnagyobb valószínûség elveDeníció 51 Egy ismeretlen # paraméterû P # valószínûségi mértékbõl vett elemû mintamaximum likelihood függvénye diszkrét valószínüségi változó esetébenL (x 1 ; x 2 ; :::; x n j#) = P # (X 1 = x 1 ) P # (X 2 = x 2 ) :::P # (X n = x n )illetve folytonos valószínüségi változó esetébenL (x 1 ; x 2 ; :::; x n j#) = f # (x 1 ) f # (x 2 ) :::f # (x n )ahol f # (x) a # paraméterû valószínüségi változó sûrûségfüggvénye.Példa 20 Határozzük meg a maximum likelihood módszer segítségével a normális eloszlásusokaság várható értékének és szórásának becslését. Folytonos esetben felhasználvaa logaritmus függvény monotonicitását célszerû a likelihood függvény logaritmusát tekinteni.Mivel a normális eloszlás sûrûségfüggvényeezértln L (x 1 ; x 2 ; :::x n j#) =f ; (x) = 1 p (x )2e 2 22"nXi=1Véve ennek illetve szerinti deriváltjátln ()@@ ln L (x 1; x 2 ; :::x n j#) =@@ ln L (x 1; x 2 ; :::x n j#) ="nXi=1nXi=1#12 ln 2 (x i ) 2:2 22 (x i )2 2 ; (5.1)#1 + (x i ) 2: (5.2) 3egyenletbõlKeresve a gyököketnXi=12 (x i )2 2 = 0 = 1 nnXx i (5.3)i=1adódik, illetve (5:2)-bõl abba behelyettesítve (5:3) t"#nX 1 + (x i ) 2= 0 3adódik.i=1nX(x i ) 2 = n 2i=1 2 = 1 nnX(x i ) 2i=1


További példák, feladatok 355.1 További példák, feladatokGyakorlat 21 Legyen most a sokaság ismeretlen paraméterû Poisson eloszlásu. ekkor amaximum likelihood függvény logaritmusa <strong>az</strong>diszkrét eloszlásfüggvény alapjánf (x) = kk! e kln L (x 1 ; x 2 ; :::; x n j) = log nXi=1x inXlog (x i !)i=1namibõl1nXx i n = 0i=1alapján a maximum likelihood becslés ra n = X: Ehhez természetesen még szükségesannak ellenõrzése, hogy ez maximum hely, ami következik a második derivált negativitásából:@ 2@ 2 ln L (x 1; x 2 ; :::; x n j) = 1 nX 2 x i < 0ha x i 6= 0:Gyakorlat 22 Ha a sokaság paraméterû exponenciális eloszlásu, <strong>az</strong> okoskodás igen hasonló.A sûrûség függvényf (x) = e x ;ezért a maximum likelihood függvény logaritmusai=1ln L (x 1 ; x 2 ; :::; x n j) = n ln nX x i :i=1Innen deriválásall annXx i = 0egyenlethez jutunk. Tehát = X; ha a maximum globális, ami megint következik ai=1összefüggésbõl.@ 2@ 2 ln L (x 1; x 2 ; :::; x n j) = n 2 < 0Gyakorlat 23 Legyen most egy ismeretlen paraméterû Poisson eloszlásunk. Ig<strong>az</strong>oljuk,hogy a mintaátlag elégséges statisztika -ra nézve.A fenti példákban szinte automatikusan lehet alkalm<strong>az</strong>ni a maximum likelihoodmódszert, <strong>az</strong> alábbiakban néhány trükkösebb példa következik.


36 A legnagyobb valószínûség elveGyakorlat 24 Legyen most <strong>az</strong> X 2 [; 2] valószínüségi változó, amelynek sûrûségfüggvényef (x) = 2x3 2 ;x 2 [; 2]-n értelmezve. Adjunk maximum likelihood becslést -ra.Gyakorlat 25 Az visszatevéses mintavétel módszere. Szeretnénk megszámolni, hány kékbálnaél egy tengerszakaszon. Legyen a keresett szám N: Most ez <strong>az</strong> ismeretlen paraméter.A következõképpen járunk el. hétig ”vadászva” sárga festéklövedékkel jelöljuk meg a bálnákat.Legyen a megjelölt bálnák száma M: Ezek után a következõ héten n darabotláttunk, ezek közül pedig s darab volt sárga festékkel megjelölve. Mi <strong>az</strong> N értékénekmaximum likelihood becslése? Határozzuk meg elõször <strong>az</strong> L (s) = L (sjN) maximumlikelihood függvényt.n.L (sjN) =Ms N Mn sNVizsgáljuk ahányadost, mely értékekre > illetve < mint 1.L (s + 1)L (s)L (s + 1)L (s)===M! (N M)! n!(N n)!s!(M s)! (n s)!(N M n+s)! N!M!(N M)! n!(N n)!(s 1)!(M s+1)! (n s+1)!(N M n+s 1)! N!11s!(M s)! (n s)!(N M n+s)!11(s 1)!(M s+1)! (n s+1)!(N M n+s 1)!(M s + 1) (n s + 1)s (N M n + s) 1haN n M s1<strong>az</strong><strong>az</strong> L ilyen értékekre nõ, nagyobbakra csökken. ellenõrizni!Gyakorlat 26 Legyen most <strong>az</strong> X 2 [; 2] egyenletes eloszlású valószínüségi változó.Adjunk maximum likelihood becslést -ra.A problémához egy paradoxon is tartozik (lásd még [?]). Ennek ismertetése elõttoldjuk meg <strong>az</strong> eredeti feladatot. Nyilván a sûrûség függvényf (x) = x : x 2 [; 2] :


További példák, feladatok 37A maximum likelihood függvény logaritmusaln L (x 1 ; x 2 ; :::; x n j) =nXi=1ln x iés ennek@@ ln L (x 1; x 2 ; :::; x n j) = n ;ahol X i 2 [; 2] miatt - n a maximumát = X n = max1in X ihelyen veszi fel. Ez tehát amaximum likelihood becslés. Tekintsük ezek után a = 1 n + 12 n + 2 statisztikát és ig<strong>az</strong>oljk, hogy ez torzítatlan becslése -nak. Ig<strong>az</strong>oljuk továbbá, hogyEzután készítsük el a 2 () = 14n 2 : = n + 1 min5n + 4X i + 2 max X i1in 1instatisztikát és lássuk be, hogy ez hatásosabb mint : Ig<strong>az</strong> ugyanis, hogy 2 () ' 15n 2 :Hogyan lehetséges ez? A válasz összefügg <strong>az</strong> elégségesség fogalmával. Szemléletesen isérthetõ, hogy több információt hordoz - ról mint : Sõt <strong>az</strong> is ig<strong>az</strong>, hogy elégségesstatisztika -ra nézve, ezért <strong>az</strong>tán nem meglepõ, hogy <strong>az</strong> kisebb hibával közelíti. Ezzelelárultuk a választ, de természetesen <strong>az</strong> olvasónak még maratd feladata, ig<strong>az</strong>olni kell, hogya szóban forgó becslések torzítatlanok, fennállnak a szórásokra vonatkozó állítások, ésérdemes megpróbálkozni a elégségess égének ig<strong>az</strong>olásával is.Gyakorlat 27 A következõ szintén sokaságméretre vonatkozó példa ig<strong>az</strong>án történelmi. AII. Világháború alatt <strong>az</strong> angol katonai hírszerzés meg kívánta becsülni a német ipar tankgyártásikapacitását. A hagyományos hírszerzési módszerek alapján a havi termelésre vonatkozóan1550 darabos becslést adtak. Statisztikusok a következõ módszert javasolták. Írják összea kilõtt tankok gyártási sorozatszámait. Ennek alapán adnak majd becslést. Mint kiderülta precíz németek, minden hónapban más betüjellel kezdõdõ sorozatszámmal látták el alegyártott tankokat. Az 1941 juniusában gyártott tankok közül a kilõtt tankok közül legnagyobbsorozatszám a 244 volt. Adjunk maximum likelihood becslést ha feltesszük, hogykilõtt tankok sorszáma egyenletesen oszlik el <strong>az</strong> összes sorszám között. Használjuk <strong>az</strong> elõzõgyakorlat becsléseit. ( A legkisebb leolvasott sorozatszám 31 volt).


38 A legnagyobb valószínûség elveMegjegyzés 6 Itt nem részletezendõ szintén a populáció méretére vonatkozó becslésselállapították meg angol statisztikusok ( Bradley és, Efron [?]), hogy Shakespeare aktív szókincse31534 szóból állt, paszívan további 35.000-t ismert. Érdemes ezt összevetni <strong>az</strong>zal,hogy <strong>az</strong> átlagember 2000 szót használ akítvan, 3-5000 szó a passzív szókincse, míg <strong>az</strong> igenválasztékos irodalmi közlés hozzávetõleg 8000-10.000 szó aktív ismeretét tételezi fel.Megjegyzés 7 Az átlag és a módusz (illetve a legvalószínûbb osztály) használata némióvatosságot igéényel. Nem ig<strong>az</strong> például, hogy <strong>az</strong> átlagos a leggyakoribb. Ez egyszerûen<strong>az</strong>ért ig<strong>az</strong>, mert ferde eloszlások esetén <strong>az</strong> átlag és a módusz nem esik egybe. [ábra!]Pédául egy társadalomban sok szegény ebre él és igen kevés g<strong>az</strong>dag. Átlagos vagyonihelyzetú igen kevés van.J. Reynolds vélte úgy, hogy <strong>az</strong> átlagot látjuk „szépnek" Nem világos, hogy e kijelentésthogyan kell értelmezni. Legyen ugyanis h <strong>az</strong> átlagmagasság, w <strong>az</strong> átlagsúly. Ha valakiarányos testfelépítésû akkor X magassághozY = c w X 3 (5.4)súly tartozik valamilyen c w arányossági tényezõvel. Mi következik akkor <strong>az</strong> átlagokra?ugyanakkorVéve (5:4) mindkét oldalán a várható értéketw = E (Y )h = E (X) :w = c w E X 3 :Viszont nyilvánvaló, hogy általában E (X 3 ) 6= E (X) 3 = h 3 ; <strong>az</strong><strong>az</strong> <strong>az</strong> átlag magassághoznem átlagos súly tartozik, vagyis, Átlag Polgár, akinek h magasságot tulajdonítunk és wsúlyt nem lesz arányos, nem lesz 00 szp 00 :


Chapter 6HIPOTÉZIS VIZSGÁLATEbben a fejezetben igen hasznos, jól alkalm<strong>az</strong>ható módszereket ismertetünk amelyek egyegyüzleti döntéshez adhatnak megbízható támpontot. Mintapéldánk lehet egy új termék,szolgáltatás bevezetése. Egy új szappanopera sikeréhez mondjuk <strong>az</strong> a minimum feltétel,hogy <strong>az</strong> egyidoben sugárzott mûsorokkal szemben szerezzen 25% nézettséget, <strong>az</strong><strong>az</strong> egykéthét után a piaci részesedése legyen 25%. A sorozat sorsa felõl megint minta alapjándöntünk. Zártkörû vetítést tartunk nézõk egy csoportjának, akik mint otthon szabadonválaszthatnak a csatornák között. ( Esetleg nem is tudják a vizsgálat valódi tárgyát, mondjukchips-et és üdítõt kapnak, választhatnak a TV nézéshez mit fogyasztanak és ezekrõlkérjük a véleményüket.)6.1 Intervallum becslésA p piaci részarány megállapítása nem jelent mást mint annak a p = P (A) valószínûségneka becslése, hogy egy véletlenül kiválasztott nézõ sorozatot választja-e. Mint má láttuk,a p relatív gyakoriság remek pontbecslése p-nek. Ugyanakkor mint <strong>az</strong> <strong>az</strong> átlagmagasságkapcsán megjegyeztük, sem egyetlen ember esetében, sem egy n > 1 elemû minta esetébensem fog pontosan fennállni, hogy p = p n : Mit mondhatunk akkor e helyett?1. p és p n közel van egymáshoz. Mennyire?2. p és p n távolsága kisebb mint : Ez biztos, vagy csak valamilyen valószínûséggelig<strong>az</strong>;A centrális határeloszlás tétel segítségéével pontos válasz adható ezekre a kérdésekre.Vegyünk egy tipikus példát. Egy gyártmány számos paraméterrel rendelkezik,hogy csak a llegegyszerûbb esetet vegyük egy üdítõs palackra <strong>az</strong> van rá írva, hogy 1 literttartalm<strong>az</strong>. A vevõ ezt el is várja. De valóban annyi van <strong>az</strong> üvegekben? Vegyünk mintát<strong>az</strong> üvegek közül és mérjuk meg a tartalmukat. Legyen <strong>az</strong> n elemû minta alapán számolttapasztalati átlagX = X n :A centrális határeloszlás tétel alapján X igen jó közelítéssel normális eloszlású, ha a vizsgáltX valószínüségi változónak létezik várható értéke és szórása, a mintaelemek függetlenekés n > 30: Még pontosabban várható értéke lesz és szórása p n; <strong>az</strong><strong>az</strong> X n N ; p ; n


40 Hipotézis vizsgálatMegjegyzés 8 Vegyük észre, hogy a szórás -rõl pn re változott. Mint mindjárt látnifogjuk, ez biztosítja <strong>az</strong>t, hogy a becslésünk egyre jobb lesz a mintaelemszám növekedtével.Ebbõl következik, hogyP X < x != x pnvagy másképpenP X p n< x!= (x) :A normális eloszlás szimmetriája miatt, akkor <strong>az</strong> is ig<strong>az</strong>, hogy !X P< x = 2 (x) 1: (6.1) p nA kényelem kedvéért szokás a jobb oldalon található valószínûséget valamilyen „nevezetes"közmegegyezéssel elfogadott értéknek választani, pl. 0.95, 0.975, 0.99. Az<strong>az</strong> a standardnormális eloszlás inverzét használjuk. Tekintsük elõször aP (X < x) = (x) = 1adott hoz tartozó x = z értéket. (lásd ábra ) Ez a z érték vág ki a standard normáliseloszlás „farkából 00 valószínûséget. Természetesen akkorP ( z < X < z ) = 1 2:Ha tehát a kívánalom mondjuk, hogy (6:1) jobb oldalán .95 valószínûség álljon, akkora kivágott össz valószínûséget legyen 1 = :95; akkor a z kritiuks értékek <strong>az</strong> =2helyekhez tartozóak. Tehát a standard normális eloszlás eseténamibõl feladatunkbanP z =2 < X < z =2= 1 :!P z =2 < X p< z =2 = 1 ;nezt átrendezvePz =2 pn < X < z =2 pn= 1 ;illetve PX z =2 pn < < X + z =2 pn = 1 :A kapott összefüggés <strong>az</strong>t jelenti, hogy <strong>az</strong> ismeretlen sokaság átlag, <strong>az</strong>X z =2 pn ; X + z =2 pnintervallumba esik 1 valószínûséggel. Ezzel megszerkesztettük a -re vonatkozó kon-dencia intervallumot.


Intervallum becslés 41Deníció 52 Másképp <strong>az</strong>t szokták mondani, hogy <strong>az</strong> X z =2 pn ; X + z =2 p nintervallum1 megbízhatósággal tartalm<strong>az</strong>za t; vagyis ez a -re vonatkozó 1 szintûmegbízhatósági (vagy kondencia) intervallum. Ezzel úgynevezett intervallum becsléstadtunk -re .Szokás t a szignikancia szintjének nevezni.Általában kétoldali kondencia intervallumokat szokás használni, de speciális esetekben(pl. <strong>az</strong> üvegbe eleve nem fér 1 liternél több) lehet egyoldalú kondencia intervallumotis szerkeszteni, ilyenkor persze nem felezõdik meg:P X z =2 pn < = 1 vagyP < X + z =2 pn = 1 :6.1.1 t eloszlásra épített kondencia intervallumAz elõzõ szakaszban láttuk, hogy amennyiben a tapasztalati átlag normális illetve közelnormális eloszlású, akkor ennek a tudásunknak a birtokában kondencia intervallumotlehet szerkeszteni <strong>az</strong> ismeretlen sokaság, <strong>az</strong><strong>az</strong> populáció átlagra. Abban <strong>az</strong> esetben, amikora vizsgály valószínüségi változó X nem normális eloszlású, továbbá a populáció szórásaismeretlen, akkor viszonylag kis minták esetén a tapasztalati szórás segítségével normáltstatisztikaX snem nem standard normális eloszlású.Állítás 8 Ha X 1 ; X 2 :::X n független <strong>az</strong>onos eloszlású valószínüségi változók, akkor a mintaátlagalábbi standardizáltjaX (n 1)ps tnn 1 szabadságfokú Student, avagy t-eloszlás követ. A jelölés némi keverésével jelöljet (n 1) (x) ennek <strong>az</strong> eloszlásnak a sûrûségfüggvényét.A t eloszlás értékeit célszerû táblázatból kikeresni vagy számítógép segítségévelmeghatározni. A 8 Állítás segítségével a megint lehetõség van kondencia intervallumotszerkeszteni.Állítás 9 Legyen t =2 <strong>az</strong> a kritikus érték, amely a t-eloszlás jobboldali „farkából 00 =2területet vág ki, <strong>az</strong><strong>az</strong>, ha Y t eloszlású, akkorekkor <strong>az</strong> eloszlás szimmetriája miattP Y > t =2=2P t =2 < Y < t =2= 1 : (6.2)


42 Hipotézis vizsgálatKövetkezmény 5és!P t =2 < X ps< t =2 = 1 nssP X t =2 p < < X + t =2 p = 1 :n nAz álltís nyilván következik a 8 Állításból és (6:2)-bõl.Gyakorlat 28 Készítsünk „döntési diagrammot mikor kell normális és mikor kell t eloszlásonalapuló intervallumot készíteni.Állítás 10 Részarány kondencia intervalluma mindíg normális eloszlásra épül, <strong>az</strong><strong>az</strong>r r !p (1 p)p (1 p)P p z =2 < p < p + z =2 = 1 : (6.3)nnBizonyítás. A centrális határeloszlás tételbõl tudjuk, hogyX p N (0; 1)nezért a részarányra vonatkozóan is ig<strong>az</strong>, hogypp N (0; 1) : (6.4)nAz (6:3) összefüggés ezután abból következik, hogy a binomiális eloszlás szórása =p qp (1 p); ezért p szórásap(1 p); amibe ha p helyettesítünk <strong>az</strong> elkövetett hiba „másodrendben 00 kicsis(6:ntovábbra is ig<strong>az</strong> marad.Gyakorlat 29 Készítsünk „döntési diagrammot 00 mikorkellnormlissmikorkellteloszlsonalapulintervall6.1.2 Kondencia intervallum <strong>az</strong> ismeretlen szórásraAz elõzõ rész sémája a következõ módon foglalható össze. Tegyók fel, hogy Y valószínüségiváltozó, statisztika szolgál egy paraméter becslésére. Ha tudjuk, hogy Y vagy Y milyen eloszlást követ, akkor ebbõl kondencia intervallum szerkeszthetõ -ra.Deníció 53 A 2 eloszlást iplicit módon deniáljuk. LegyenY =nXi=1X 2 iahol X 1 ; X 2 :::X n független standard normális eloszlás valószínüségi változók. Ekkor <strong>az</strong>tmonjuk, hogy Y eloszlása (n 1) szabadságfokú 2 (olvasd khi-négyzet) eloszlás.


Hipotézis vizsgálat 43Állítás 11 Ha egy normális populációból vettünk X 1 ; X 2 :::X n független mintát, akkor(n 1) s 2 2 2 :Bizonyítás. Az állítás közvetlenkövetkezménye a (53) Deníciónak.Állítás 12 Az ismeretlen 2 szórásnégyzet besclésére normális eloszlású populáció eseténa!(n 1) s2P < 2 (n 1) s2< = 1 2 1 =2 2 =2intervallum szerkeszthetõ. Az<strong>az</strong> 2 t 1 valószínûséggel tartalm<strong>az</strong>za aintervallum.6.1.3 A mintaméret megválasztása(n 1)s 2; 2 1 =2(n 1)s2 2 =2A gyakorlati életben gyakran <strong>az</strong> a feladat, hogy a populáció átlagot bizonyos hibahatáronbelül tartsuk, Mint <strong>az</strong> üvegtöltés példájában a térfogat 1 0; 01 liter kell, hogy legyen.Ehhez elõszor a populációátlagot kell a fenti módon jól becsülnünk, ezután lehet <strong>az</strong> egyesüvegek töltésére következtetni <strong>az</strong> átalg becsése melett a szórás becslését is felhasználva.Foglalkozzunk a legegyszerûbb kondencia intervallummal. AX z =2 pn < < X + z =2 pnegyenõtlenség 1 valószínûséggel fenáll. Szeretnénk elérni, hogy -re X B intervallumotkapjunk ugyanezen 1 megbízhatósággal.adott, rögzített B melett. Világos,hogy ehhez a pn = Bz =2összefüggésnek kell teljesülnie. Ha rögzített, ez meghatározza z =2 -t, ezért <strong>az</strong> n mintaméret<strong>az</strong> egyetlen választható paraméter. A legkisebb megfelelõ n& 'z2=2 2n =B 2:Gyakorlat 30 Adjuk meg <strong>az</strong> analóg mintaméretre vonatkozó összefüggéseket tesetére és részaránybecslés esetére is.eloszlás6.2 Hipotézis vizsgálatA mindennapi életben, döntési szituációban gyakran nem <strong>az</strong> érdekel minket, hogy kondenciaintervallumot szerkesszünk, inkább <strong>az</strong> a kérdés bent van-e <strong>az</strong> ismeretlen átlag egyadott intervallumban vagy sem. Például a palackok töltési átlaga 1 liter. Ha igen, mindenrendben, de ha nem akkor állítani kell a töltõberendezésen, le kell állítani a gépsort.Ez persze termelés, prot kiesést jelent, ezért ha lehet, csak akkor döntünk így, ha eléggébiztosak vagyunk abban, hogy a töltési átlag lényegesen eltér <strong>az</strong> elõírttól. A mintavétel,


44 Hipotézis vizsgálata mérés és statisztikai vizsgálat alapján egy dichotóm döntést hozunk, egy liter <strong>az</strong> töltésiátlag, vagy nem <strong>az</strong>. Ennek a példának a végigvitelével mutatjuk be a hipotési vizsgálattipikus menetét.A döntési folyamat elsõ lépése a munkahipotézis felállítása. Ez <strong>az</strong> egyetlen „kényes ”lépés, a többi rutin feladat.Legyen 0 = 1: Elvárásunk, hogy a populáció várható értéke ezzel egybe essék.Ezt fogalm<strong>az</strong>zuk meg mint null hipotézist.H 0 : = 0Ennek logikai ellenéte <strong>az</strong> alternatív hipotézisH 1 : 6= 0 :Mielõtt mintát veszünk, számításokat végzünk el kell, döntenünk, hogy mennyire „fontos",hogy jól döntsünk.A döntést minta alapján fogjuk meghozni. A minta véletlentõl függõ,ezért több módon is felléphet hiba. Ezeket mutatja <strong>az</strong> alábbi táblázat.hogyan döntünka valóságH 0 ig<strong>az</strong>H 0 hamiselfogadjuk H 0 -t jó a döntés másodfajú hibát vétünkelvetjük H 0 -t elsõfajú hibát vétünk jó a döntésMielõtt a hiba valószínûségének kiszámításához látunk, két jelölést vezetünk be. = P H0 (elvetjük H 0 -t)ahol a P H0 <strong>az</strong>on valószínûségi mérték amely H 0 fennállása esetén jellemzi a sokaságot. = P H1 (elfogadjuk H 0 -t)itt pedig P H1 <strong>az</strong>on valószínûségi mérték amely H 1 fennállása esetén jellemzi a sokaságot.Ez utóbbi nem feltétlenül jól deniált, erre késõbb visszatérünk.Ha a feltételek biztosítják, hogy a mintaátlag jó közelítéssel normális akkor ez ig<strong>az</strong><strong>az</strong> = X úgynevezett próbafüggvényre is, pontosabban z közel standard normális eloszlású lesz.Ebbõl következik, hogyP jzj < z =2 = 1 a<strong>az</strong><strong>az</strong>Ppn !X < z=2 = 1 ap nilletve annak a valószínûsége, hogy a próbafüggvény abszolút értéke nagyobb legyen mintz =2 egyenlõ : Megint <strong>az</strong>t <strong>az</strong> okoskodást, használjuk, hogy egy kísérletben a nagy valószínûségûesemény bekövetkeztét tételezzük fel. Ha tehát feltesszük, hogy = 0


Hipotézis vizsgálat 45Figure 1p <strong>az</strong> eloszlás farkábanakkor!P X 0p< z =2 vagy X 0p> z =2n n= a:Az (??) ábrára tekintve ez <strong>az</strong>t jelenti, hogy a z próbafüggvény a kis, =2 =2 valószínüségûalsó vagy felsõ farokba mutat. Ez nincs összhangban <strong>az</strong>zal a feltevésünkkel, hogy <strong>az</strong>1 >> valószínûségû esemény következik be, ezért a = 0 feltevést vetjük el. Természetesenvalamilyen más lehet ig<strong>az</strong>, aminek megfelelõen netrálva X t a próbafüggvénymár a z =2 ; z =2 intervallumba mutat, ( lásd (1)Ábrát.).Deníció 54 A z =2 ; z =2 intervallumot szokás elfogadási tartománynak nevezni, a1; z =2 ; [ z =2 ; 1 t pedig elutasítási tartománynak. A próba szintje, vagy szignikanciaszintje ; a kritikus érték(ek) illetve =2:Azt mondjuk, hogy szinten elutasítjuk H 0 -t ha z <strong>az</strong> elutasítási tartományba esik,illetve, hogy nem utasítjuk el, ha <strong>az</strong> ellenkezõje ig<strong>az</strong>. Kicsit pongyolán lehet <strong>az</strong>t ismondani, hogy elfogadjuk H 0 -t, de mint látni fogjuk ez nem ig<strong>az</strong>án szerencsés, kissé félrevezetõ.Megjegyzés 9 Vegyük észre, hogy -t tetszés szerint megválaszthatjuk a döntési eljáráselején. Ebbõl pedig <strong>az</strong> is következik, hogy <strong>az</strong> elsõfajú hiba valószínûségét meg tudjukszabni, <strong>az</strong><strong>az</strong> annak a valószínûségét, hogy elutasítjuk H 0 -t pedig ig<strong>az</strong>. Hiszen ez a szituációakkor áll elõ, amikor = 0 és a próbafüggvény mégis a 1; z =2 ; [ z =2 ; 1 elutasítási tartományba esik, aminek a valószínûsége éppen :6.2.1 A hipotézis vizsgálat meneteA hipotézis vizsgálat lépései a következõkben foglalhatóak össze.1. A null hipotézis H 0 megfogalm<strong>az</strong>ása.2. A próbafüggvény kiválasztása a feltételek alapján.3. A szignikancia szint meghatározása a probléma természetétõl függõen.4. A próbafüggvény eloszlásának alapján <strong>az</strong> elutasítási tartomány meghatározása.5. Mitavételezés, a próbafüggvény kiszámítása.


46 Hipotézis vizsgálat6. Döntés attól függõen, hogy a próbafüggvény hova esik.Mint említettük <strong>az</strong> egyetlen kényes feladat a nullhipotézis felállítása ( és talán mintminden statisztikai feladatnál a jó mintavételezés). A gyakorlati életben a = 0 nullhipotézis melett igen gyakori a 0 illetve a 0 alakú feltevés. Mint a palacktöltõsor mûködtetõje a = 0 feltevés volt fontos számunkra. A vevõ szempontja más. Õt <strong>az</strong>érdekli, hogy elég sokat vagy elég jót kapjon a pénzéért. A hirdetések is igen gyakran <strong>az</strong>zalkínálnak egy portékát, hogy <strong>az</strong> <strong>az</strong>t jellemzõ valamilyen mennyiség kisebb vagy nagyobbmint egy adott éreték. Erre lehet példa a gyümölcslé, üdítõ. Nagy betûkkel a csomagolásoldalán hirdeti, hogy több mint 50% gyümölcstartalommal, vagy „kevesebb mint 1% cukortartalom". A fogyasztó vagy a konkurencia esetleg gyanút fog, hogy a gyártó nem teljesíti<strong>az</strong>t, amit a hirdetésben állít. kritikus esetben ez pert vonhat maga után, a bíróságnak kelldöntenie a felek között. Vegyük ebbõl a nézõponból szemügyre a problámát.A gyártó <strong>az</strong>t állítja, hogy 0ahol mondjuk 0 = 50%: A konkurencia szerint ez nem ig<strong>az</strong>. Az ártatlanság vélelménekjogelvét követve <strong>az</strong>t mondjuk, hogy a gyártó ártatlan mindaddig amíg bûnössége mindenkétséget kizáróan bebizonyosodik. Abban <strong>az</strong> esetben amikor nem lehet minden egyesterméket, vitás objektumot megvizsgálni, természetesen a bíróság is csak statisztikai módszerekalapján dönthet. A minta véletlen természetébõl fakadóan a döntés sem lehet 100%bizonyosságú, ezért <strong>az</strong> ártatlanság vélelme <strong>az</strong>t kívánja, hogy jól kontrolálni tudjuk annak avalószínûségét, hogy bár a gyrátó ártatlan, a szerencsétlen véletlen mintaválasztás <strong>az</strong>t eredményezi,hogy statisztikai vizsgálat bûnösnek találja a gyártót. Az elõbb vázolt hipotézisvizsgálat keretei között ez <strong>az</strong>t jelenti, hogy <strong>az</strong> elsõfajú hiba valószínûségét tudjuk kontrolálni,a vitázó feleknek meg kell állapodnia ebben <strong>az</strong> ban, ezt közlik a bírósággal (természetesen ez a minta nagyságát <strong>az</strong> eljárás költségét is befolyásolja). A null hipotézistennek a logikának <strong>az</strong> értelmében úgy kell fölállítani, hogy <strong>az</strong> elsõ fajú hiba a leírt legyen,<strong>az</strong><strong>az</strong> a null hipotési a gyártó ártatlanságát, a hirdetésben közölt állítást kell, hogy tartalm<strong>az</strong>za,<strong>az</strong><strong>az</strong>H 0 : 0a helyesen választott null hipotézis. Természetesen nem minden vizsgálandó problémafordítható le a jog nyelvére, általában célszerû a nullhipotézis irányát úgy megválasztani,hogy <strong>az</strong> elkövethetõ hibák közul <strong>az</strong> legyen <strong>az</strong> elsõfajú aminek bekövetkezése a nagyobbkárt okozza, mivel ennek a valószínûségét tudjuk -val szabályozni, míg a másodfaúétnem.Vegyünk erre még egy példát. Fémlemezeket vonunk be rozsdamentesítõ festékkel.Ha túl sok festéket viszünk fel, akkor fölösleges költséget hozunk létre, ha viszont nemelég vastag a védõréteg, a lemezt hamar kikezdi a korrózió, tönkremegy a lemez, esetlegennek következtében a lemez értékénél is nagyobb kár keletkezik. Ezért tehát a minõségellenõrzéssorán a átlagos festékvastagságra vonatkozóan célszerû aH 0 : 0nullhipotésit alkalm<strong>az</strong>ni, hiszen akkor lesz ig<strong>az</strong> <strong>az</strong> hogy a két lehetséges hiba közul a nagyobbkárt okozó lesz <strong>az</strong> elsõfajú hiba. Konkrétan <strong>az</strong>t a valószínûséget kontrolálja ;hogy a


Hipotézis vizsgálat 47festékréteg vékonyabb mint szükséges, de ezt a próba nem mutatta ki és ezért elvetjük anull hipotézist.6.2.2 Paraméteres próbákA hipotézis vizsgálat 5.6. lépése <strong>az</strong> úgynevezett próba. A körülményektõl függõen különbözõpróbák ismeretesek, <strong>az</strong>oknak pedig további variációi. Az alábbiakban a legfontosabbakatismertetjük. Elõször egy sokaság valamely paraméterére vonatkozó próbákat mutatjukbe, ezek <strong>az</strong> egymintás próbák, majd két sokaság valamilyen paraméterének <strong>az</strong>összehasonlítására vonatkozó kétmintás próbák következnek.A kétoldali z próba (néha nevezik u próbának is) került a fejezet elején ismertetésre.1. Ekkor a null hipotézis<strong>az</strong> alternatív hipotézisH 0 : = 0H 1 : 6= 0 :2. Ha ismert a sokaság szórása vagy a minta elemszáma elég nagy ( n > 30 ), akkorpróbafüggvényz = X ami közel standard normális eloszlású.3. A hétköznapi, üzleti életben általában a = 0:05 megfelelõ választás.4. Az elutasítási tartomány 1; z =2 ; [ z =2 ; 1 ;ahol z =2 = 1:965. Legyen a példa kedvéért X = 1:002% liter a mintában a palackokba töltött folyadékátlagos mennyisége. Legyen = 0:01% és n = 100: Ekkorpnz = X p= 0:002 10 = 2:n0:016. Viszont z =2 = 1:96 < z = 2;ezÉrt a null hipotézist el kell vetnünk. Le kell állítania gépsort és újraszabályozni a töltést.6.2.3 Az egymintás próbák további eseteiEbben a szakaszban a hipotézis vizsgálat variánsait mutatjuk be amelyet a feltételek változásahoz létre.Abban <strong>az</strong> esetben, ha a populáció szórása ismeretlen <strong>az</strong>t a tapasztalati szórássalhelyettesítkük amikor a próbafüggvényt kiszámoljuik, <strong>az</strong><strong>az</strong> a mintaátlagot standardizáljuk:Xps:nIlyen esetben a standardizált kifejezés normális eloszlást követ, ha a populáció maga isnormális eloszlású volt vagy ha n > 30:


48 Hipotézis vizsgálatÁllítás 13 Ellenkezõ esetben <strong>az</strong><strong>az</strong> ha a populáció nem normális, illetve ismeretlen szórástkövet, létezik a várható érték és szórás ( de ismeretlenek) akkor at = Xpróbafüggvénny Student eloszlású és ennek megfelelõen alakul a 3. lépés, illetve <strong>az</strong> 5.lépésben a kritikus értékeket t =2 illetve egyoldali hipot;zis eset;ben t adja.Állítás 14 Ha egy p valószínúség, illetve részarány becslése a feladat akkor mindíg apsnz = qp p(1 p)npróbafüggvény alkalm<strong>az</strong>ható, ami standard normális eloszlású.6.2.4 Kétmintás próbákGyakori és természetes kérdések merülnek fel, két populácoó összehasonlítása során. Ig<strong>az</strong>e,hogy a villányi szõlõ cukorfoka magasabb mint a sporonié? Az ilyen típus kérdésekvizsgálatát is két példán mutatjuk elõször be, majd tömören ismertetjük a technikai részleteket.Legyen 1 a Villányi szõlõ átlagos cukorfoka, 2 a Sopronié. vegyünk X 1 ; X 2 :::X nfüggetlen <strong>az</strong>onos eloszlású valószínüségi változókat, mintát a Villányon termett mustokbóés Y 1 ; Y 2 :::Y m a Soproni.Az X i és Y j mintaelemekrõl feltesszük, hogy teljesen függetlenek.Tegyük fel, hogy n; m > 30; <strong>az</strong><strong>az</strong> a minták „nagyok". Mi legyen a nullhipotézis?Min korábban hangsúlyoztuk a null hipotésis megválasztása függ attól, hogyhibás döntésesetén milyen kár keletkezik. Most egy olyan szituációt vázolunk, amiben a korábbivaléppen ellentétes módon célcerû a null hipotézistválasztani. Ha egy hirdetés állítaná,hogy a villányi szõlõ cukorfoka magasabb mint a sporonié akkor a független döntésta H 0 : 1 2 hipotézisbõl kiindulva kell hozni. Ha viszont <strong>az</strong> a helyzet, hogy apincészetünknek régóta sporoni mustot veszünk, akkor természetesen mindaddig kitartunke melett míg ennek <strong>az</strong> ellenkezõje alaposan be nem ig<strong>az</strong>olódik, <strong>az</strong><strong>az</strong> a statisztika nyelvén,ki nem derül, hogy a villányi cukorfoka szignikénsan magasabb. Ekkor tehát aH 0 : 1 2null hipotézisbõl indulunk ki. Érdemes a null hipotézist kissé átalakítani,H 0 : 1 2 D 0 = 0:Esetünkben <strong>az</strong> állítás annyiról szól, hogy <strong>az</strong> egyik átlag nagyobb mint a másik, ilyenkor( 1 2 ) 0= D 0 = 0;de lehetne a kezdeti állítás pl <strong>az</strong>, hogy a villányi szõlõ átlagoscukorfoka 2 fokkal magasabb mint a sporoni, ekkor D 0 = 2 lenne.Világos, hogy ezt akkor fogjuk elvetni, h<strong>az</strong> = X Y D 0s 1 2> z (6.5)


Hipotézis vizsgálat 49aholA (6:5) egyenõtlenséget átírvas 1 2=ss 2 1n 1+ s2 2n 2: 1 > 2 + z ass 2 1n 1+ s2 2n 2összefüggést kapjuk, amibõl <strong>az</strong>onnal világos, hogymit értünk szignikánsan nagyobbqsalatt. 1 nem egyszerûen nagyobb kell, hogy legyen mint 2 hanem 2 + z 2 1 a n 1+ s2 2n 2-nélis <strong>az</strong><strong>az</strong> a véletlen szóródás z szorosánál is nagyobb <strong>az</strong> eltérés. A proba kialakitásakorqs 2 1n 1+ s2 2n 2fontos, hogy a szignikancia szintje,szórása. A proba további menete már megegyezik <strong>az</strong> egymintás próbáéval.Abban <strong>az</strong> esetben, ha a hipotézis kétoldali, <strong>az</strong><strong>az</strong> a null hipotézispedig a mintaátlagok különbségénekH 0 : 1 = 2illetveH 0 : 1 2 = D 0 = 0akkor is (6:5) a próbafüggvény, de a kritikus tartomány kétoldali, <strong>az</strong><strong>az</strong>kritikus érték.z =2 ; z =2 a kétKis mintás próba két átlag különbségére vonatkozóanA fenti példa kis minták esetén at = X Y D 0s 1 2(6.6)Student eloszlású próbafüggvény segítségével oldható meg. A szabadságfokot adf =s 1n 1+ s 2n 2 s1 2 2 s2n 1 + n 2n 1 1 n 2 1képlet határozza meg.Kombinált szórásbecslésKis minták esetében javítható a szórásra vonatkozó becslés, ha egyéb körülmények alapjántudható, hogy a két populáció szórása ugyan<strong>az</strong>, <strong>az</strong><strong>az</strong> 1 = 2 : Ekkor s 1 ; s 2 ugyan<strong>az</strong>t aközös értéket becsli, ezért célszerû a kevert mintaszórással számolni, ennek négyzete:s 2 p = (n 1 1) s 2 1 + (n 2 1) s 2 2:n 1 + n 2 2


50 Hipotézis vizsgálatEkkor próbafüggvényünk at = X Y D 0r s 2 1p n 1+ 1 n 2lesz. E két képletet, <strong>az</strong><strong>az</strong> a kevert szórás becslést érdemes nagy minta esetén is használni,ha 1 = 2 feltehetõ.Részarányok összehasonlításaIg<strong>az</strong>-e hogy a diplomások körében <strong>az</strong> A párt népszerûbb mint <strong>az</strong> alacsonyabb végzettségûekkörében? Erre a kétmintás részarányokra vonatkozó próba adhat választ. Legye a nullhipotézisH 0 : p 1 p 2 D 0 = 0ahol p 1 a diplomások között <strong>az</strong> A-t preferálók részaránya, p 2 a másik csoportban. Nyilvánegyoldali hipotézisrõl van szó, a próbafüggvény pedigKétoldaliz = (p 1 p 2 ) Dq0:p 1 (1 p 1 )n 1+ p 2(1 p 2 )n 2H 0 : p 1 p 2 = 0hipotozis esetén lehet a kozös p becslését, bp-t használni, ezért a próbafüggvényz =p 1 p 2 0r ;1bp (1 bp)n 1+ 1 n 2aholbp = n 1p 1 + n 2 p 2n 1 + n 2:Próba párosított mintávalAz összes eddigi esetben feltettük, hogy a két minta elemei teljesen függetlenek. Bizonyosesetekben ez bár nem áll fenn, mégis igen jó teszt készíthetõ. Tegyük fel, hogy egy készülõfelhasználói szoftverhez két kezelõfelület terv készült. El kívánjuk dönteni, hogy melyiktevnek kedvezõbbek <strong>az</strong> ergonómiai tulajdonságai, melyiken hatékonyabb a munkavégzés.Ezért a következõ „kísérletet" végezzük. 50 rutinos opertátort teljesen <strong>az</strong>onos feltételekközöt megtanítunk minkét kezelõfelület használatára. Ezek után ugyan<strong>az</strong>t a feladatotelvégzik <strong>az</strong> egyik illetve a másik felületen, a szükséges idõt mérjük. Legyen X i <strong>az</strong> 1: Y i a2. kezelõfeluleten mért idõ i = 1; :::; 50: Az esetlegesfáradási tényezõt is kiküszöböljük,25-en elõszõr <strong>az</strong> 1. kezelõfelületet használják utána a 2-at, a másik huszonöt operátorfordítva.


Próbák a szórásra vonatkozóan 51Számítsuk ki a mért idõk d i különbségeitHa nincs egyéb elõfeltevésünk, akkor ad i = X i Y i :H 0 : 1 = 2null hipotézist használjuk. Ez természetesen ekvivalens aH 0 : 1 2 = 0illetve ha d = E (X Y ) = 1 2 jelöli a várható értékek különbségét, akkor ez szinténekvivalens aH 0 : d = 0hipotézissel. Ezután a d i mintadifferenciákra mint egymintás próba járhatunk el. Amódszer kis és nagymintás variánsai, részarányra vonatkozó variánsa egyaránt egyszerûenértelmezhetõ.6.3 Próbák a szórásra vonatkozóan6.3.1 Egymintás próbaEddig kizárólag <strong>az</strong> átlag illetve a részarányra vonatkozó próbákról volt szó. De ahogy aszórásnégyzetre lehet kondencia intervallumot szerkeszteni, természetesen hipotézis vizsgálatis végezhetõ. Legyen egy normális eloszlású sokaságunk, aminek szórása ismeretlen.Korábbi példánkban, a palacktöltõsor esetén vizsgálani érdemes a szóródást. Nem kedvezõ,ha túl nagy ( ha kicsi általában nem baj.) Ha egy kihaló félben lévõ faj genetikusváltozatosságáról van szó, akkor a nagy szórás éppen kívánatos is lehet. Az elõbbi esetnélmaradva legyen a kívánt szórás 0 ; ekkor a null hipotézis, a gyártó nézõpontjábólH 0 : 2 2 0módon választandó. Az (11) Állításból tudjuk, hogy(n 1) s 2 2 2ahol 2 szabads 0 gfokan-1.Ezrta 2 =null hipotézist, ha(n 1)s2próbafüggvényt alkalm<strong>az</strong>va elutasítjuk a 2 0 2 > 2 ahol a 2 <strong>az</strong> n 1 szabadságfokú 2 eloszlás hoz tartozó kritikus értéke.


52 Hipotézis vizsgálat6.3.2 Kétmintás próbaAz átlagokra vonatkozó kétmintás próbák között már felmerült a kérdés, egyenlõ-e a kétpopuláció szórása. Ha igen akkor a szórásra vonatkozóan igen jó becslés adható a kombonáltszórással ( Lásd 6.2.4 alfejezetet.) . Ehhez elõször ellenõriznóünk kell, hogy a kétszórás valóban egyenlõ -e, <strong>az</strong><strong>az</strong> ig<strong>az</strong>-e aH 0 : 2 1 = 2 2A próba kivitelezése a következõ állításon alapszik.Állítás 15 Ha két normális populációból szárm<strong>az</strong>ó n illetve m elemû teljesn függetlenmintát veszünk, akkors 2 1s 2 2(n 1;m 1) Fhányados (n 1; m 1) szabadságfokú F eloszlást követ.Az F eloszlást nem deniáljuk egzakt módon, lényegében két khinégyzet eloszlásúfüggetlen valószínüségi változó hányadosának eloszlását írja le.Állítás 16F (n 1;m 1) (1 x) =1F (m 1;n 1) (x) :Az állítást nem bizonyítjuk, de intuitíve látható a denicióbólEnnek alapján a próbafüggvényF = s2 1s 2 2F eloszlású ha ig<strong>az</strong> a null hipotézis. A kritikus érték F =2 illetve F 1 =2 ;de ha <strong>az</strong> általánosságmegszorítása nélkül, úgy számoztuk meg a mintákat, hogy s 1 :> s 2 ;akkor eléga felsõ kritikus tartománnyal foglalkozni. Abban <strong>az</strong> esetben, haelvetjük a null hipotézist.F > F =2


Próbák a szórásra vonatkozóan 536.3.3 A másodfajú hibaEmlékezzünk vissza arra, hogy másodjajú hibát akkor vétünk a hipotézis vizsgálat során, haa null hipotézis nem áll fenn, mégis a melett döntünk. Ezzen <strong>az</strong> eseménynek a valószínûsége( a véletlen mintavétel következtében) : Az elsõfajú hibával ellentétben általában nemszámítható ki a valódi paraméter érték ismerete nélkül.Deníció 55 A próba erejének szokás nevezni 1 ; vagyis <strong>az</strong>t a valószínûséget, hogyhelyesen ismeri fel, hogy H 0 nem áll fenn. Szokás próba erõfüggvényét deniálni aparaméter függvényében f (#) = 1 :A prba erofggvnye a vltozsvalPéldául egy jobboldali, várható értékre vonatkozó rpóba erõfüggvényét mutatja a(??)Ábra. [Ide abrat]A másodfajú hiba kiszámításaKépzeljük el a következõ szituációt. A hõ ellenállók selejtes hadianyagot gyártanak amunkaszolgálat során. Természetesen ügyelni kell, hogy a szabotázs ne derüljön ki. Agyártott fegyver például ûrmérete 0 = 9:00 kell, hogy legyen. A gyártás során ennéllényegesen kisebb nem is lehet, viszont a furat készítésekor kis trükkel ennél nagyobbralehet készíteni, ami selejtté teszi a fegyvert. A minõségellenõrzés aH 0 : 0feltevést ellenõrzni. Mi a valószínûsége, hogy a szabotázs során gyártott = 9:07 átlaggalnem buknak le <strong>az</strong> ellenállók, <strong>az</strong><strong>az</strong> H 0 nem ig<strong>az</strong>, de ezt a pr=ba nem mutatja ki. Tegy-kfel, hogy a szórás = 0:02; a szignikancia szintje = 0:05 és a szokásos mintaméretn = 30? Készítsük el a próbafügvényt.z = x 0 p nEkkor a próba alapján nem vetik el a null hipotézist, ha z < z ;<strong>az</strong><strong>az</strong>x < 0 + z a pn =: C: (6.7)Ha tudjuk, hogy = 9:02; akkorx N ; p n


54 Hipotézis vizsgálatalapján adódik, hogy a másodfajú hiba valószínûsége (<strong>az</strong><strong>az</strong>, hogy elkerülik a lebukást)!!P (x < C) = P x p< C p= C :p n n nÉrdemes C-be behelyettesíteni annak értékét (6:7)-bõl. Az átlag eredeti skálájánC p= 0 + z nlesz a kritikus érték. Jól látható, hogy a kritkus tartomány nõ, ha nõ. Másképpena p nszórású mintaátlag alapján jól el lehet különíteni > 0 átlagot, ha <strong>az</strong> a szórástöbbszörösével haladja me 0 -t, egyébként nem.p n


7.0.4 Khinégyzet próbákChapter 7NEM PARAMÉTERES PRÓBÁKEbben a fejezetben a nem paraméteres statisztika egy kis részét a nem paraméterespróbákat érintjük, ezen belül is elõször <strong>az</strong> úgynevezett 2 próbákról lesz szó. Közösvonásuk, mint nevük mutatja, hogy 2 eloszlásra vezetõ szellemes konstrukciókkal ragadnakmeg igen összetett problémákat. A módszer mintapéldája a multinomiális eloszlástesztelése.Példa 31 Képzeljük el, hogy a kóla termékek piaci részesedését követjük gyelemmel.Korábban <strong>az</strong>t tapasztaltuk, hogy a p 1 ; p 2 ; ::p k volt <strong>az</strong> 1; 2; :::k termék piaci részesedése<strong>az</strong> elõzõ idõszakban. Minket elsõ nekifutásra <strong>az</strong> érdekel, történt-e elmozdulás, vagy sem.Ezért null hipotézisként aH 0 : p 0 i = p i ; i = 1; :::kfeltevéssel élünk, ahol p 0 i <strong>az</strong> i-edik termék ismeretlen jelenlegi piaci részaránya. Legyenegy független n elmeû mintánk, amiben <strong>az</strong>t találtuk, hogy x i fogyasztó választotta <strong>az</strong> i-edik terméket. Világos, hogy ekkor x i binomiális eloszlású valószínüségi változó (n; p i )paraméterekel )feltéve, hogy a null hipotézis fennáll. De akkor <strong>az</strong> is ig<strong>az</strong>, hogy igen jóközelítéssel (x i > 5 feltevése már elegendõ ) ig<strong>az</strong>, hogyx i npp inpi (1 p i ) N (0; 1) :Tekintettel arra, hogy <strong>az</strong> osztályok száma általában elég nagy (1hagyni. Jelölje e i a hipotézis alapján a várt értéket,p i ) 1 ezt el szoktákezzel a jelöléssel 2 =e i = np ikX (x i e i ) 2i=1próbafüggvény 2 eloszlást követ, ha H 0 ig<strong>az</strong>. Ezért a hipotézis ellenõrzése innen a szokásosmódon történhet.Homogenitás vizsgálatIgen hasonló <strong>az</strong> úgynevezett homogenitás vizsgálat, amely két populáció rétegezettségének<strong>az</strong>onos voltát hivatott ellenõrizni. Adott A; B populációk és ezek <strong>az</strong>onos ismérv szerintie i


56 Nem paraméteres próbákfelosztása. Az egyes osztályok részaránya legyenm p i ; q i : Példaként állhat itt mondjuk akövetkezõ A a városi lakosság, B a kistelepülési lakosság. <strong>az</strong> egyes osztályokat a szokásoslegmagasabb iskolai végzettség szerint alakítjuk ki. A null hipotézis, hogy a legmagasabbvégzettség szerint a városi és kistelepulési megoszlás <strong>az</strong>onos, <strong>az</strong><strong>az</strong>H 0 : p i = q i ; i = 1; :::kMegint feltesszük, hogy 1 p i 1; 1 q i 1: Legyen a két vizsgált minta elemszáman; m a talált osztályok mérete pedig x i; y i : Tulajdon képpen <strong>az</strong>x iny im 0összefüggést ellenõrizzük. Ha ig<strong>az</strong> H 0 ;akkor r x in N pip i ;nezért x iny iszórása jó közelítésselmrp im + nmn ;a p i közösbecslése pedigezértz =x inqx i + y in + my imx i +y in+m N (0; 1)amibõl 2 =kXi=1x inx i +y inmy i 2m 2 eloszlású próbafüggvény kapható.Függetlenség vizsgálatIgen gyakori kérdés, hogy két tulajdonság között van-e kapcsolat. Például a végzettségés <strong>az</strong> egyes napilapok kedveltsége között van-e összefüggés. Az<strong>az</strong> egy sokaságot kétmódon is osztályba sorolunk, példánk szerint végzettség illetve a vásárolt napilap szerint.Tegyük fel, hogy m különbözõ választ adhatnak a megkérdezettek <strong>az</strong> újág kérdésre (nemolvas is ide tartozhat) és n féle végzettséget különböztetünk meg. Ekkor ha N volt amegkérdezettek száma készítsünk el egy úgynevezett kontingencia táblát, amelynek i-ediksorának j-edik eleme (<strong>az</strong><strong>az</strong> oszlopa) <strong>az</strong>on válaszadók k i;j számát tartalm<strong>az</strong>za, akik <strong>az</strong>


Nem paraméteres próbák 57i-edik újságot olvassák és végzettségük alapján a j-edik osztályba tartoznak.12j1 2 i mk i;jnA függetlenség <strong>az</strong>t jelentené, hogy ha A i annak a valószínûsége, hogy egy véletlenül választottember <strong>az</strong> i edik ujságot választja, illetve B j ;hogy a j edik végzettségi kategriábaesik, akkorP (A i B j ) = P (A i ) P (B j ) :Ugyanakkor a bal és jobb oldalon található valószínûségekre a kontingencia táblázat becsésekettartalm<strong>az</strong>. Világos, hogy har i =mXj=1k ijakkorbecsli P (A i )-t, illetve har iNc i =akkorc jNbecsli P (B j ) ;végül pedigk i;jNbecsli P (A i B j )-t. Ennek alapján a következõ próba függvény konstruálható.nXi=1k ij 2 =nX mX (k i;j e i;j ) 2i=1 j=1e i;j(7.1)ahole i;j = c io jN :Állítás 17 A (7:1)beli próbafüggvény jó közelítéssel 2 eloszlású (n 1) (m 1) szabadságfokkal,ha <strong>az</strong> egyes cellákban kapott elvárt e i;j értékek mindegyike nagyobb mint 5.Az állítást nem biszonyítjuk, helyessége a korábbi gondolatmenetbbõl intuitívenlátható.


58 Nem paraméteres próbákMegjegyzés 10 A leírt függetlenség vizsgálat valószínûségi változók függetlenségének eldöntéséreis alkalm<strong>az</strong>ható oly módon, hogy elkészítjük a kétdimenziós tapasztalati együtteseloszlás alapján megfelelõ intervallumok választásával a kontingencia táblázatot.Gyakorlat 32 Készítsük el a megjegyzés szerinti függetlenségvizsgálat teljes menetét.7.0.5 Illeszkedés, normalitás vizsgálatA multinomiális eloszlásnál látott módon tetszõleges eloszláshoz való illeszkedést is lehettesztelni.Legyen egy tetszleges eloszlás függvény. Tegyük fel, hogy adott x i x i+1 i = 1::kértékekhez tartoznak ap i = (x i+1 ) (x i )értékek. Ekkor <strong>az</strong> X 1 ; X 2 :::X n független <strong>az</strong>onos eloszlású valószínüségi változók akkorszárm<strong>az</strong>nak a eloszlásból ( szinten ), ha a 2 =kX (k i Np i ) 2i=1Np i 2 eloszlású próbafüggvény <strong>az</strong> 1 =2; =2 kritkus értékek köz; esik.Az eljárással ellenõrizhetõ <strong>az</strong> a feltevés, hogy X normális eloszlású-e. Pontosabbancélszerû a z = X X standardizáltat vizsgálni, hogy <strong>az</strong> illeszkedik-e a standard normálisseloszláshoz.Gyakorlat 33 Készítsük el a standard normális eloszlás esetén <strong>az</strong>t <strong>az</strong> x i sorozatot , amelyrep i = 0:15:Megjegyzés 11 Az eljárás nem jól alkalm<strong>az</strong>ható olyan paraméteres eloszlások esetén,ahol nem áll rendelkezésre a standardizáláshoz hasonló <strong>az</strong> ismeretlen paramétert egyszerûtranszformációval kiküszöböló módszer. Ilyenkor ugyanis bár lehet, hogy <strong>az</strong> eloszlása tköveti, de ha <strong>az</strong>t egy b 6= a paraméterû b-hez illesztjük, akkor a próbafüggvény esetlegigen nagy lehet. Erre a legegyszerûbb példa, ha a várható értékû normális eloszlástegy 0 -vel centráljuk természetesen nagyon rossz illeszkedést kapunk (lásd (??)Ábra).7.0.6 Próbák helyzeti paraméterek vizsgálatáraAz elõzõ (11) Megjegyzés is muitatja, hogy a helyzeti paraméterek próbái milyen fontosak.Az alábbiakban olyan teszteket ismertetünk amelyek többek között a helyzeti paraméterekrõlszolgálnak információval.Elõjel próbaHa egy eloszlásnak nem ismert <strong>az</strong> m mediánja, <strong>az</strong><strong>az</strong> <strong>az</strong> a m érték, melyre P (X < m) =1=2; <strong>az</strong> alábbi állítás segítségével lehet ahipotézist ellenõrizni.H 0 : m = m 0 (7.2)


Nem paraméteres próbák 59Állítás 18 Legyen X 1 ; X 2 :::X n független <strong>az</strong>onos eloszlású valószínüségi változókY i =Y = 1 ha Xi > m0 egyébkéntnXi=1Y i:Ekkor, ha n 20Y N 1 2 n; r14 n !Következmény 6z = Y 1n nq1n 4próbafüggvény standard normális eloszlású, alkalmas (7:2) ellenõrzésére.Minkét állítás evidens a binomiális eloszlásra vonatkozó centrális határeloszlástételbõl.Wilcoxon féle elõjeles rang testA most ismertetésre kerülõ módszer párosított (<strong>az</strong><strong>az</strong> nem független minta esetén) <strong>az</strong> Xill. Y változók F; G eloszlásának <strong>az</strong>onosságát ellenõrzni. Legyen X 1 ; X 2 :::X n illetveY 1 ; Y 2 :::Y n független <strong>az</strong>onos eloszlású valószínüségi változók ( X illetve Y példányai).X Y d jdj rang jdj elõjeles rangx 1 y 1 d 1 jd 1 j r 1 sign (d 1 ) r 1x 2 y 2 d 2 jd 2 j r 2 sign (d 2 ) r 2x n y n d n jd n j r n sign (d n ) r nT = P ni=1 sign (d i) r iÁllítás 19 Ha F = G akkor a fenti T próbafüggvény jó közelítéssel normális eloszlású, ésE (T ) = 0rn (n + 1 (2n + 1)) T =6alkalmas próbafüggvény.z = T TAz állítás a centrális hatéreloszlás tétel egy élesítésébõl következik, nem bizonyítjuk.


60 Nem paraméteres próbák7.0.7 Man-Whitney próbaAz alábbi próba újra a két eloszlás <strong>az</strong>onossága, <strong>az</strong>H 0 : F = Gfeltevés ellenõrzésére szolgál.Legyen mint elõbb X 1 ; X 2 :::X n független F eloszlású valószínüségi változók illetveY 1 ; Y 2 :::Y m független G eloszlású valószínüségi változók . Keverjük össze a kétmintát és rendezzük nagyság szerint. Legyenek <strong>az</strong> X i elemek rangjai r (i) ezek összegepedig T = sr X :Állítás 20 Ga F = G; akkor a fenti T statisztikár ig<strong>az</strong>ak <strong>az</strong> alábbiak.E (T ) = 1 n (n + m + 1)2 T =r1nm (n + m + 1)2ész = T 1n (n + m + 1)2 tstandard normális eloszlású valószínüségi változó.A Kruskal-Wallis tesztA következõ teszt <strong>az</strong> összetettH 0 : F 1 = F 2 = ::: = F khipotézis ellenõrzésére szolgál., <strong>az</strong><strong>az</strong> k minta alaápán k eloszlás <strong>az</strong>onosságát teszteli.Legyen X 1;j ; X 2;j :::X n;j független <strong>az</strong>onos eloszlású valószínüségi változók j = 1; 2:::kra.Hasonlóan mint a Man-Whitney próba esetén keverjük össze a mintákat minden elemkapja meg a neki megfelelõ rangot. Jelölje R j a j edik minta elemeinek rangösszegét, n Tpedig <strong>az</strong> összes elemek számát.Állítás 21 Ha ig<strong>az</strong> aH 0 : F 1 = F 2 = ::: = F kfeltevés és minden jre n j 5, akkorW =12n T (n T + 1)kXi=1R 2 in i3 (n T + 1)próbafüggvény k1 szabadságfokú 2 eloszlást követ.


Nem paraméteres próbák 61A Spreman féle rangkorrelációPárosított minták esetén gyakori kérdés, hogy mi a kapcsolat, mi a korreláció a két változóközött. Idõnként célszerú ezt a kérdést is nem paraméteres módon megközelíteni. Erreszolgál a következõ fogalom.Deníció 56 A Spreman féle rangkorreláció.r i ; s i : Legye d i = r i s i : EkkorLegyenek a két párosított minta rangjair S = 1P ni=1 d2 in (n 2 1)a tapasztalati rangkorreláció,pedig a Spreman féle rangkorreláció.Állítás 22 Haakkor persze S = E (r S )H 0 : S = 0ésE (r S ) = 0r1 (r S ) =n 1z = r s 0 (r S )közel standard normális eloszlás eloszlású, ha n 30:


62 Nem paraméteres próbák


Chapter 8SZÓRÁSANALíZISA szórás analízis ( analysis of variance ANOVA) a paraméteres próbák egy érdekes családja,amely egy közös modellre épít. A legegyszerûbb <strong>az</strong> egyváltozós, egy faktoros eset. Amódszer megismerését egy ilyen példával kezdjük.Példa 34 Egy étteremlánc ugyan<strong>az</strong>t a hamburgerét sok étteremben kínálja. A hamburgernépszerüsítésére akciót kíván indítani. Elõször <strong>az</strong>t vizsgálja országonként 30-30 éttermeben,hogy mennyit nõtt a nyeresége ezen a terméken. Az<strong>az</strong> rendelkezésre állnak <strong>az</strong> X i;jeredmények, ahol i <strong>az</strong> ország felsorolás, j = 1::30 pedig <strong>az</strong> éttermek sorszáma. Ez <strong>az</strong>t jelenti,hogy X i;j j = 1::30 egy független 30 elemû minta egy Y i változóból. Elsõ feltevésük,hogy <strong>az</strong> akció eredménye független <strong>az</strong> országtól, <strong>az</strong><strong>az</strong>minden i = 1::kra, <strong>az</strong><strong>az</strong>összetett hipotézist kell ellenõrizni. i = E (Y i ) = H 0 : 1 = 2 = ::: = kA statisztika hagyományos kifejezésével, szokás <strong>az</strong> i-edik kezelésrõl beszélni, merta módszert a növénytermesztésben, <strong>az</strong> egyes földterületek eltérõ kezelésének összevetésérealkalm<strong>az</strong>ták elõször. Az <strong>az</strong>onos kezelésnek alávetett egyedek alkotnak egy csoportot.Szokás szerint olyan statisztikát keresünk, ami a H 0 feltevés melett jól viselkedik. Azegye mintaelemekre a modell szerinti feltevés a következõ:aholX i (j) = i + " i (j)" i (j) N (0; )fügetlen valószínüségi változók ismeretlen közös el.Szokás a modelt aX i (j) = + i + " i (j)alakban megfogalm<strong>az</strong>ni, ahol i <strong>az</strong> i-edik kezelés egyedi hatása. Ha H 0 ig<strong>az</strong>, akkor asokaságban tapasztalt szórásranégyzetre a teljes minta alapján becslés is adható. Ugyanakkor<strong>az</strong> egyes csoportokon belül is adható variancia-becslés, ami a feltevés szerint független becsléseketad, ezek átlaga szintén becsli a teljes sokaság szórásnégyzetét. Így kétféle becsléstlehet készíteni a szórásnégyzetre. Ehhez elõször a tapasztalati átlagokra vezessünkbe jelölést.


64 Szórásanalízisa teljes átlagLegyen <strong>az</strong> n i elemû i-edik csoport tapasztalati átlagaX i = 1 n iX = 1 nXn ij=1X i (j) ;pX Xn iX i (j)ahol n = P pi=1 n i <strong>az</strong> összes mintaelemek száma. Bevezetjük ateljes négyzetösszeget valamint aSST = 1 ni=1pX Xn ii=1j=1j=1X i (j) X 2SSE =pX Xn ii=1 j=1X i (j) X i 2csoportokon beküli négyzetösszegek összegét, végül pedig apXSST R = n i X i X 2a csoportosításból fakadó négyzetösszeget.i=1Lemma 2SST = SSE + SST RBizonyítás. Az állítás egyszerû aritmetikai átalakítással ig<strong>az</strong>olható. A kidolgozást<strong>az</strong> olvasóra bízzuk.A próba megalapozását a következõ már nehezebb állítás biztosítja.Állítás 23 JelöljeMSR = 1p 1 SST Ra csoportosításból fakadó átlagos tapasztalati négyzetösszeget. EkkorE (MST R) = 2 + 1p 1pXn i ( i ) 2 :Bizonyítás. Kezdjük a deníció szerinit zárójel bõvítésével és felbontásával.i=1x i x 2= x i i + i + x 2: = (x i i ) 2 + ( i ) 2 + x 2+2 (x i i ) ( i ) + (x i i ) x + 2 ( i ) x


Szórásanalízis 65Vegyük észre, hogy a cetrálás miatt, illetve mert a szorzat másik tagja konstansE [2 (x i i ) ( i )] = E 2 ( i ) x = 0:Az alábbi két tagban mintaátlagok szórásai szerepelnek, ezértrXn i Ei=1h(x i i ) 2 + x 2 i =rXi=1 2n i + 2= r + 1: (8.1)n i nA harmadik négyzetes tag a jobboldalon kívánt összege a ik és a négyzetes eltérésösszegének:i=11r 1rXn i ( i ) 2 (8.2)i=1Foglalkozzunk a megmaradt egyetlen keresztszorzattal." rXE 2n i (x i i ) x #i=1" rX2n i= En (x i i ) n nx #i=1" rX!#2n i= En (x Xn iXn ii i ) n n i i + n i i x i;j + x i;j nxi=1j=1 j=1" rX!!!#2n i= En (x Xn iX Xn ii i ) n i i x i;j + n n i i x k;ji=1j=1k6=i j=1" rX!#2n 2 rXi= En (x n ii i ) ( i x i ) +n (x X Xn ii i ) n n i i x k;ji=1i=1k6=i j=1"!#rX n 2 rXi= E 2n (x i i ) 2 n i+ 2n (x X Xn ii i ) n n i i x k;ji=1i=1Vegyük észre, hogy a második tagban a szorzat két tényezõje független, hiszen <strong>az</strong> utoóbbibanpont <strong>az</strong> i-edik csoport elemei nem kerülnek összegzésre. A várható érték így avárható értékek szorzata és mindkettõ centrált, mindkettõ nulla. Az elsõ tag pedig meginta mintaátlagok szórása, így"#rX n 2 rXiE 2n (x i i ) 2 n 2 i 2= 2 = 2 2 : (8.3)n n iÖsszevetve (8:1) ; (??) és (8:3)-t kapjuk <strong>az</strong> állítást.Ez tehát <strong>az</strong>t jelent, hogy MSR pontosan akkor torzítatlan becslése 2 -nek ha <strong>az</strong>összes márható érték egyenlõ, <strong>az</strong><strong>az</strong> a null hipotézis teljesül. Ellenkezõ esetben 2 tõlfelfelé tér el.i=1k6=ij=1


66 SzórásanalízisÁllítás 24 A model feltevései melett ig<strong>az</strong>, hogy 1En p SSE = 2továbbá 1En 1 SST = 2és MSE = 11SSE illetve MSRT = SST R függetlenek. Ig<strong>az</strong> továbbá, hogyn p p 1SSE 2n p szabadságfokú 2 eloszlású valószínüségi változó továbbá, ha ig<strong>az</strong> a nullhipotézis akkorSSRT 2p 1 szabadságfokú 2 valószínüségi változó.Az állítások evidensek, kivéve a függetlenséget, ezt nem bizonyítjuk.Mindezek alapján a kövtekezõ próba végezhetõ.Tétel 35 Ha a model feltevései fennállnak és ig<strong>az</strong> a null hipotézis, akkor aF = MST RMSEpróbafüggvény (p 1; n p) szabadságfokú F eloszlást követ. Az<strong>az</strong> F értéke közel van1 hez: Ellenkezõ esetben F értéke nagyobb.8.0.8 Kétrészes osztályozás


Chapter 9LINEÁRIS REGRESSZIÓA modell:Y = X + + "ahol "~N (0; ) független <strong>az</strong> X-tol. Keressük <strong>az</strong>F (a; b) =nX(y i ax i b) 2i=1minimumát a; b-ben. Keressük a @ @F (a; b) = 0; F (a; b) = 0 megoldásokat.@b @a@F (a; b) =@b 2nX(y i ax i ) nbi=1amibolnXnb = (y i ax i )i=1b = y ax:@nX@b F (a; b) = 2 (y i ax i b) x i= 2= 2i=1nX(y i ax i y ax) x ii=1nX yi x i ax 2 iPEbbol <strong>az</strong> s 2 x = 1 nn i=1 x2 i (x) 2 P= 1 nn i=1 (x i x) 2 jelölésselnXans 2 x = a x 2 i!n (x) 2=i=1i=1nXy i x ii=1nxynxy an (x) 2 :


68 Lineáris regresszió<strong>az</strong><strong>az</strong>a =P ni=1 y ix ins 2 xnxy;vagy másképpen bevezetve <strong>az</strong> s x;y = 1 nP ni=1 y ix i jelölésta ==P ni=1 y ix i nxy= n P 1 nn i=1 y ix ins 2 xP1 nn i=1 y ix i xy;s 2 xns 2 xxy <strong>az</strong>t kapjuk, hogyÖsszefoglalva:a = s x;ys 2 xxy:a =P ni=1 y ix ib = y ax:ns 2 xnxy;Ebbol, ha a tapasztalati covarianciát illetbe korrelációs együtthatót Cov x;y illetve r x;y jelöli,<strong>az</strong>t nyerjük, hogyDeníció 57 Jelölje by i = ax i + ba = Cov x;ys 2 xs 2 = 1n 2= r x;ys x s ys 2 x= r x;ys ys x:nX(y i by i ) 2i=1a lineáris illeszkedés négyzetes hibájának átlagát, vagy másképpen <strong>az</strong> egyenes körüli )korrigálttapasztalati szórásnégyzetet.Deníció 58 Vezessük be a következo rövidítéseketSX = P ni=1 x i SX 2 = P ni=1 x2 iSY = P ni=1 y i SY 2 = P ni=1 y2 iSXY = P ni=1 x iy iMegjegyzés 12 Természetesenx = nSX:s 2 x = 1 n SX2 (x) 2


Lineáris regresszió 69Tétel 36 Ha " i ~N (0; ) és korrelálatlanok, akkorDeníció 59Az állítást nem bizonyítjuk.E (a) = ;E (b) = ; 2 (a) = s2s x; 2 (b) = s 2 SX2 :ns 2 xSST =SSR =SSE =nX(y i y) 2 ;i=1nX(by i y) 2 ;i=1nX(y i by i ) 2 :i=1SST <strong>az</strong> y ingadozását méri, SSE <strong>az</strong> egyenes és a méréspontok közötti hiba négyzetesösszegét.Megjegyzés 13Ha gyelembe vesszük, hogySSR ===nX(by i y) 2i=1nX(ax i + b ax b) 2i=1nX(ax i ax) 2i=1nX= a 2 (x i x) 2i=1= a 2 ns 2 x =a 2 SX 2 1n (SX)2 :a =P ni=1 y ix ins 2 xnxy= SXY 1n SXSYns 2 x


70 Lineáris regresszióakkor egyrészt <strong>az</strong>t kapjuk, hogySSR = a 2 ns 2 x =SXY1n SXSY 2ns 2 x(9.1)<strong>az</strong><strong>az</strong>SSR =SXY1SXSY 2n:SX 2 1n (SX)2Ugyanakkor a korrelációs együtthatóval kifejezve:SSR = a 2 ns 2 x= r (x; y) s 2yns 2 xs x= r (x; y) 2 ns y s x = nCov (x; y) :Tehát <strong>az</strong> SSR a lineáris kapcsolat erosségét fejezi ki.Lemma 3nX(y i y) (x i x) =i=1nXy i x ii=1nxyBizonyítás.====nX(y i y) (x i x)i=1nX[y i x i x i y xy i + xy]i=1nXy i x ii=1nXnXx i y x y i + nxyi=1i=1nXy i x i nxy nxy + nxyi=1nXy i x ii=1nxy:Tétel 37SST = SSE + SSR:


Lineáris regresszió 71Bizonyítás.SSE ===nX(y i by i ) 2 =i=1nX(y i ax i (y ax)) 2i=1nX[(y i y) a (x i x)] 2i=1nX(y i y) 2 2ai=1= SST 2aMegint helyettesítsünk a-ba.nXnX(y i y) (x i x) + a 2 (x i x)i=1nX(y i y) (x i x) + a 2 ns 2 x:i=1a 2 ns 2 x =P ni=1 y ix ins 2 x 2nxyns 2 x= [P ni=1 y ix i nxy] 2ns 2 xamibol P ni=1 (y i y) (x i x) = P ni=1 y ix i nxy miattUgyanakkor (9:1)-ban láttuk, hogySSE = SST 2 [P ni=1 y ix i nxy] 2ns 2 x+ [P ni=1 y ix i nxy] 2ns 2 x[ P ni=1= SSTy ix i nxy] 2ns 2 x= SST a 2 ns 2 x:SSR = a 2 ns 2 x;i=1<strong>az</strong><strong>az</strong>SSE = SSTSSR:Deníció 60r 2 = SSRSST = SXY 1SXSY n:SY 2 1(SY )2nMegjegyzés 14 Tudjuk, hogySSR = ans 2 x;SST = ns 2 y


72 Lineáris regresszióésezértr 2 x;y =a = r x;ys ya 2 = :r 2 x;ys xsys x 2; 2 sxa 2 = ns2 x SSRs y ns 2 y ns 2 x= SSRns 2 y= SSRSST = r2 .Az r x;y elojelét pedig <strong>az</strong> egyenes a meredekségének elojele határozza meg, ezértMegjegyzés 15 Vegyük észre, hogyr x;y = sign (a) p r 2 :r 2 = SSRSST = 1rjrj =1SSESST :SSESST ;


Chapter 10F OKOMPONENS ANALíZIS10.1 A lineáris algebra néhány elemeDeníció 61 Ha a; b 2 R p akkor skaláris szorzatuka T b = (a; b) =pXa i b i :i=1Deníció 62 Ha a 2 R n ; b 2 R p akkor diadikus szorzatukn p-s mátrix.ab T = (a i b j ) npDeníció 63 Ha a 2 R p akkor <strong>az</strong> a vektor l 2 normája, avagy hossza:kak 2= kak = a T a = (a; a) =pXa 2 i :i=1Deníció 64 Egy u vektort normáltnak nevezünk, ha kuk = 1; <strong>az</strong><strong>az</strong> hossza 1.Deníció 65 Ha A p p-s mátrix, akkor <strong>az</strong>t mondjuk, hogy <strong>az</strong> u 2 R p vektor <strong>az</strong> A mátrizsajátvektora a sajátértékkel, haAu = u:Állítás 25 Ha A szimmetrikus mátrix akkor minden sajátértéke valós, ezek száma p. Legyenek 1 2 ::: n a sajátértékek i a hozzájuk tartozó (normált) sajátvektorok. i =Az<strong>az</strong> <strong>az</strong> i-edik sajátvektor <strong>az</strong> elso i 1 = max (u; Au) ;kuk=1max (u; Au) : (10.1)kuk=1;(u; i )=0:i=1:::i 11 feszítette altérre meroleges.Állítás 26 Legyen U = 1 ; ::: pa sajátvektorokból alkotott mátrix. EkkorA = U T U


74 Fokomponens analízisahol0 =B@1 1 0 2 . ..C0A0 0 pdiagonális mátrix. Ez <strong>az</strong> A mátrix spektrál felbontása.Deníció 66 Egy U mátrix ortonormált, haU T U = I;ami egyben <strong>az</strong>t is jelenti, hogyU 1 = U T :Deníció 67 Egy A mátrix nyoma (trace-e)a diagonális elemeinek összege.tr (A) =pXi=1a i;iLemma 4 Tetszoleges A; B k l-s mátrixokra (ahol k; l 1)tr (AB) = tr (BA)Bizonyítás.tr (AB) ===!pXpX pX(AB) i;i= a i;k b k;ii=1pXi=1pXi=1!pXa i;k b k;i =k=1!pXb k;i a i;k =k=1pXi=1k=1 i=1k=1!pXb k;i a i;kk=1pX(BA) k;k= tr (BA) :Lemma 5u T Av = tr Avu T :Bizonyítás. Mivel u T Av 2 R skalár, ezért u T Av = tr u T Av . Viszont a 4Lemma miatt tr u T Av = tr Avu T .Lemma 6 Ha U ortonormált akkortr U T AU = tr (A) :


Véletlen vektorok elforgatása 75Bizonyítás. Alkalm<strong>az</strong>zuk a 4 Lemmát A = U T ; B = AU szereposztással.tr U T AU = tr AUU T :Viszont U T U = I, amibol következik <strong>az</strong> állítás.Következmény 7 Ha A szimmetrikus mátrix, akkorpXtr (A) = i :Bizonyítás. A feltétel miatt alkalm<strong>az</strong>ható a 26 Állítás, <strong>az</strong><strong>az</strong>és alkalm<strong>az</strong>va a 6 Lemmát V = U T -reamibol következik <strong>az</strong> állítás.i=1A = U T Utr V T AV = tr UU T UU T = tr ()10.2 Véletlen vektorok elforgatása0 1X 1X 2Deníció 68 Legyen X = B C@ . A 2 Rp p-dimenziós valószínuségi vektorváltozó. Ennekvárható értéke 2 R p :X p0 1E (X 1 )E (X 2 ) = E (X) = B C@ . A :E (X p )Az X kovariancia mátrixa: = Cov (X) = (Cov (X i ; X j )) pp:Vegyük észre, hogy foátlójában Cov (X i ; X j ) = 2 (X i )-k állnak.Lemma 7 szimmetrikus, pozitív szemidenit mátrix.Bizonyítás. A szimmetria nyilvánvaló. Ugyanakkor = E(X ) (X ) Tezért minden a 2 R p -rea T a = E a T (X ) (X ) T a = E Y T Y ;ahol Y = a T (X) 2 R. Az<strong>az</strong>a T a = E Y T Y = E Y 2 0:


76 Fokomponens analízisKövetkezmény 8 A pozitív szemidenitség egyben <strong>az</strong>t is jelenti, hogy a sajátértékeimind nem negatívak, hiszenKövetkezmény 90 T i i = i T i i = i :tr () =pX 2 (X i )ugyanakkor mivel szimmetrikus a 7 Következmény miatti=1tr () =pX 2 (X i ) =i=1pX i ;i=1<strong>az</strong><strong>az</strong> a sajétértékek összege <strong>az</strong>onos <strong>az</strong> X komponenseinek teljes szórásnégyzetével. Ezérta sajátértékek (amelyek mint tudjuk nemnegatívak) a teljes szórás egy másik felbontásátadják.0 10.Legyen e i =egységvektor. Világos, hogyB C@1. A0e T i e i = 2 (X i )<strong>az</strong><strong>az</strong> <strong>az</strong> X e i irányú szórásnégyzete 2 (X i ). Hasonlóan bármely u normált vektorra u T uttekinthetjük <strong>az</strong> X u irányú szórásának. Ez egyben a sajátértékek (10:1) eloállításaalapján <strong>az</strong>t is jelenti, hogy 1 <strong>az</strong> <strong>az</strong> irány amelyre <strong>az</strong> X legnagyobb szóródása "esik" ezpedig 1 . A következo sajátvektor 2 a 1 -re meroleges altérben <strong>az</strong> <strong>az</strong> irány amely a maximálisszórást adja, ez 2 , sorra így tovább. Ezzel <strong>az</strong> X teljes szórásátnégyzetét nemcsakfelbontottuk a i -k összegére, de magtaláltuk <strong>az</strong>okat <strong>az</strong> egymásra meroleges irányokat,amelyekre eso szórásnégyzetek összege kiadja a teljes szórásnégyzet összeget is.10.3 A vektrováltozó elemi statisztikai viselkedéseLegyen X 1 ; :::X n <strong>az</strong> X eloszlásából szárm<strong>az</strong>ó n elemu minta. JelöljeM = (X 1 ; :::X n )a p n dimenziós úgynevezett minta mátrixot. Vigyázat, itt most mindegyik X i maga egyp-dimenziós vektor, nem pedig <strong>az</strong> X vektor i-edik komponense. Ha valahol ez félreértésread okot, ott (X i ) mfogja jelölni <strong>az</strong> X i vektor m-edik komponensét. JelöljeX = 1 nXXi ;


A vektrováltozó elemi statisztikai viselkedése 77tapasztalati vagy mintaátlag,S n = 1 na tapasztalati kovariancia mátrix,nXi=1X i X X i X TS n = 1n 1nXi=1X i X X i X Tpedig a korrigált tapasztalati kovariancia mátrix.Az egydimenziós Steiner tétel alábbi általánosítása is ig<strong>az</strong>.Tétel 38 (Steiner tétele) Minden a 2 R p -renS n =nX(X i a) (X i a) T n a X a X T:i=1Bizonyítás. A bizonyítás lényegében <strong>az</strong>onos <strong>az</strong> egydimenziós eset ig<strong>az</strong>olásával.Kivitelezését <strong>az</strong> olvasóra bízzuk mint gyakorlat.Tétel 39 1. X torzítatlan, konzisztens becslése -nek,2. S n 1 torzítatlan, konzisztens becslése -nak,Ha ig<strong>az</strong> továbbá, hogy X i 2 N p (; ) i = 1; 2:::n-re, akkor3. X 2 N p ; 1 n ;4. X és S n független.5. Ha pozitív denit, <strong>az</strong><strong>az</strong> nem elfajuló és n > p, akkor S n is pozitív denit 1 valószínuséggel,<strong>az</strong><strong>az</strong> a tapasztalati kovariancia mátrix sem elfajuló.Tétel 40 Ha a kovariancia mátrix pizitív denit, és = U T Ua spektrális felbontása, akkorvalószínuségi változóraY = U (X )E (Y ) = 0Cov (Y ) = ;ha továbbá X 2 N p (; ), akkorY 2 N (0; ) :


78 Fokomponens analízisBizonyítás.E Y Y T = EU (X ) (X ) T U T= UU T UU T = :Tétel 41 Az X L 2 normában (négyzetes távolságban) mért legjobb k dimenziós becslését<strong>az</strong> X-nek <strong>az</strong> X elso k fokomponense által kifeszített altérre vonatkozó vetülete biztosítja.Nem bizonyítjuk.Tétel 42 Legyen W ortonormált mátrix. Ekkor <strong>az</strong> Z és W Z fokomponensei <strong>az</strong>onosak.Bizonyítás. Legyen most X = W Z: A Z kovariancia mátrixának U T U felbontásávala Z fokomponense UZ-ne adódik. Ugyanakkor X-reE XX T = E W ZZ T W T = W E ZZ T W T= W W T = W U T UW T ;ezért <strong>az</strong> X fokomponense Y = UW T X = UW T W Z: Ebbol viszont <strong>az</strong> következik,hogy Y = UW T W Z = UZ amit ig<strong>az</strong>olni akartunk.Megjegyzés 16 Ezzel beláttuk, hogy <strong>az</strong> ortonormált transzformáció, <strong>az</strong><strong>az</strong> <strong>az</strong> elforgatásnem változtatja a fokomponenst. Az egyes koordináták átskálázása viszont igen, <strong>az</strong><strong>az</strong>nyújtás, afnitásra a fokomponens nem invariáns.10.4 A tapszatalati fokomponensA fentik alapján mostmár <strong>az</strong>t vizsgáljuk, hogy, ha <strong>az</strong> X véletlen vektor eloszlásából egy nelemu mintával rendelkezünk, akkor ebbol, hogyan lehet jól közelíteni <strong>az</strong> X fokomponenseittapasztalati fokomponensekkel.Keressük <strong>az</strong>t <strong>az</strong> a irányt amire <strong>az</strong> X vetületének szórása, <strong>az</strong><strong>az</strong> a T X szórása maximális.Ezt a maximumot úgy keressük, hogy <strong>az</strong> a irányában a minta szórását maximalizáljuk.Ezzel a feladatot visszavezettük a fenti gondolatmenetre, úgy hogy a tapasztalatikovariancia mátrix spektrális felbontását használjuk. Legyenek a tapasztalati kovarianciamátrix sajátrétékei b 1 b 2 ; ::: b p ; sajátvektoraik pedig ba 1 ; ba 2 ; :::ba p . Világos, hogy tapasztalatifokomponensekbY 1 = ba T 1 X;bY 2 = ba T 2 X; ::: b Y p = ba T p X korrelálatlanok és rendre maximalizálják <strong>az</strong> a maradék szórásbólegy-egy vektorra vetítheto szórást.Deníció 69 Tekintsük a sajátértékek következo hányadosát.=és ennek tapasztaliti megfelelojét. 1 + 2 + ::: + k 1 + 2 + ::: + k + ::: + pb 1 b + b 2 + ::: + b k=b 1 + b 2 + ::: + b k + ::: + b p


A tapszatalati főkomponens 79Tétel 43 Ha X i 2 N p (; ) akkorb 2 Np ( ; :) :A szórásnégyzetet szándékosan nem adtuk meg. Az állítást nem bizonyítjuk.Következmény 10 A fenti tétel alapján aH 0 : = 0hipotézist a b próbafüggvény segítségével lehet ellenorizni.


80 Fokomponens analízis


11.1 OsztályozásChapter 11OSZTÁLYOZÁS, KLASZTEREZÉSAz osztályozás feladata igen sok gyakorlati problema során felmerül. Az üzleti élet mindennapifeladata a vevok, ügyfelek osztályozása. Jó példa erre a hitelbírálat. A banktisztviselo<strong>az</strong> ügyfél adatai alapján kell, hogy döntsön arról, hogy kaphat-e hitelt, vagydifferenciáltabb esetben, milyen hitelkonstrukciókat érdemes ajánlani a számára aszerint,hogy melyik ügyfélosztályba esik. Ezen ügyfélosztályok elozetesen kerülnek kialakításra,ennek módjáról késobb esik szó. Az <strong>informatika</strong> is számos osztályozási feladattal foglalkozik.Klasszikus példa a karakterolvasó program. Ez egy pixelhalm<strong>az</strong>ról kell, hogy eldöntse,melyik betuhöz hasonlít leginkább, melyik gépi jellel <strong>az</strong>onosítsa.Feladatunk a következo képpen fogalm<strong>az</strong>ható meg. Adott M osztály, D = f1; 2; :::Mg.Az objektumok N attribútummal rendelkeznek, így <strong>az</strong> objektumok <strong>az</strong>onosíthatóak <strong>az</strong> X R N halm<strong>az</strong>a elemeivel, ezek <strong>az</strong> objektumokat leíró vektorok. Feltesszük, hogy adott egyfX; F; P g Kolmogorov féle valószínuségi mezo továbbá egy veszteségfüggvény w i;j , ami<strong>az</strong> objektumok hibás besorolásáakor felmerülo veszteséget jelenti. 0 ha i 6= jw i;j == 0 ha i = j :Jelöljön 2 X egy véletlen objektumot, amelynek eloszlása P: Legyen d diszkriminanciafüggvény, <strong>az</strong><strong>az</strong> osztályba sorolás ésb = d ()a d által javasolt osztály, legyen továbbá a valódi osztálya -nek. A rizikófüggvényt <strong>az</strong>R (w; d) = E (w (b; )) = E (w (b () ; ())) :Azt <strong>az</strong> osztálybasorolást amely R-t minimalizálja Bayes féle döntésnek, osztálybasorolásnaknevezzük. Jelölje ezt d ; = d (). Ha d ismert, akkor X = X 1 [ X 2 :::X M osztályozásis ismert. Jelölje Ci a Bayes féle döntés osztályait és R a Bayes féle döntésrizikófüggvényét..Állítás 27 Legyen R egy tetszolegesR R Bizonyítás.R = E (w (b; )) :


82 Osztályozás, klaszterezésAlkalm<strong>az</strong>zuk a feltételes várható érték alaptulajdonságát, miszerint átlaga <strong>az</strong> eredeti átlag.Tekintsük eloször a diszkrét eloszlású uk esetét.E (w (b; )) = E [E (w (b; ) j)]hX i= E wi;j P ( = i; b = jj)hX i= E wi;j I (b () = j) P ( = ij)hX i= E wi;j I (b () = j) q i ;aholq i = P ( () = i) = P ( 2 C i ) ;annak a valószínusége, hogy a véletlen objektum <strong>az</strong> i-edik osztályba tartozik. ÍgyR (w; d) = E" Xi;j" Xjw i;j I (b () = j) q i#= E I (b () = j) X i"#X E min w i;j q i :jiw i;j q i#Hasonlóan, abszolút folytonos eloszlású esetén, ha f i (x) <strong>az</strong> i-edik osztályban a suruségfüggvénye,akkor p i = P ( = 1) melettf (x) =MXp i f i (x)i=1és Bayes tétele alapjánq i (x) = P ( = ij = x) = p if i (x)f (x)ezért, ha d a Bayes döntés, akkorXw i;j f i (x) Xi;jiw i;d (x)p i f i (x)ésZR =minjMXi=1w i;j p i (x) f i (x) dx:


Klaszter analízis 8311.1.1 A legközelebbi társ módszerA legközelebbi társ módszer (Nearest Neighbor) <strong>az</strong> X téren deniált valamilyen metrikáraépít. Az objektumok természetérol megszerzett ismereteink ebben a metrikában öltenektestet. Annál jobb a módszer, minnél pontosabb a metrika szétválasztó képessége.Legyen T = f( 1 ; 1 ) ; ( 2 ; 2 ) :::: ( n ; n )g n elemu "tananyag". Elemei jó besorolásidöntéseket tartalm<strong>az</strong>nak. <strong>az</strong><strong>az</strong> i valóban a C i osztályhoz tartozik. A legközelebbbitárs módszer <strong>az</strong> új elemet abba a j 0 osztályba sorolja, amelyre ig<strong>az</strong>, hogyA legközelebbi társ j0:d ; j0 d (; i ) : 8i = 1:::n:Legyen most két osztályunk, M = 2 és tegyük fel, hogy W =legyen továbbáZR =min fp 1 f 1 (x) ; p 2 f 2 (x)g dx;R = lim R n 0 11 0. Legyenahol R n <strong>az</strong> n elemu tananyag alapján adódó rizikófüggvény. Világos, hogyha n ! 1és <strong>az</strong> elemek valamilyen véletlen eloszlás szerint kerülnek a tananyagba akkor a végtelensok mintaelem tökéletesen letapogatja <strong>az</strong> objektumok terét és ezért <strong>az</strong> erre épített döntésoptimális lesz.Tétel 44 (Cover&Hart)továbbáR R 2R (1 R )R n ! R = R;<strong>az</strong><strong>az</strong> a Bayes féle besorolás asszimptotikusan optimális.11.2 Klaszter analízisA klaszteranalízis feladata hasonló <strong>az</strong> osztályozás feladatához. A klaszterezési feladatsorán ismertek <strong>az</strong> osztályok, amikbe <strong>az</strong> objektumokat be kell sorolni, hanem éppen <strong>az</strong> akérdés, hogy hogyan alakítsunk ki úgy klasztereket (csoportokat) adott objektumokból,hogy <strong>az</strong>ok1. viszonylag homogén klasztereket alkossanak2. a klaszterek jól elkülönüljenek3. <strong>az</strong> egyes klasztereket a feladat szellemeben jól tudjuk jellemezni.Ilyen feladattal találkozhatunk éppen akkor, amikor egy gyártó vagy forgalm<strong>az</strong>ó afogyasztókat csoportokba kívánja sorolni, piacszegmentációt kíván végezni, annak érdekében,hogy <strong>az</strong> egyes szegmenseket egyedi módon célozza meg termékkel, marketinggel. Gyakori


84 Osztályozás, klaszterezésfeladat a biológia vagy <strong>az</strong> orvostudomány területén is, hogy nagyszámú meggyelt objektumainkatcsoportokba soroljuk, aminek alapján a lényegi eltérésekre lehet koncentrálni.Legyenek X (1) ; X (2) :::X (n) <strong>az</strong> adott objektumok, jelölje halm<strong>az</strong>ukat X. Mindegyik<strong>az</strong>onosítható a saját leíró vektorával: (X 1 (i) ; :::X N (i)) 2 R . Keressük <strong>az</strong>diszjunk osztályozást, ahol M sem ismert.11.2.1 K-közép módszerX = [ M i=1C iEz a módszer elore választott M számú klaszter kialakítására szolgál. A módszer iteratív.Tegyük fel, hogy már hogy adottak a C1 k ; :::CMk klaszterek. A k +1 generáció a következoképpen kapható. Képezzük a klaszterek Zik középpontjait.Zi k = 1 X Ck X j :i X j 2C iDeniáljuk egy objektum és egy klaszter távolságát mint <strong>az</strong> objektum és a klaszter középpontjánaktávolságát:d (X j ; C i ) = d X j ; Zik :Sorra vesszük <strong>az</strong> X j objektumokat. Tegyük fel, hogyd (X j ; C l ) d (X j ; C i ) : 8i = 1:::M:Ekkor <strong>az</strong> X j elemet a C l osztályba helyezzük és ennek megfeleloen módosítjuk <strong>az</strong> osztályközepeket.Z k+1 1 i =Zi k + 1 Cik Zi k + X j :Megállunk <strong>az</strong> eljárás iterálásával, ha elfogynak a besorolandó elemek vagy, ha aklaszterek nem nagyon változnak már.Legyen a veszteségfüggvény X Xw = w C1 k ; :::CMk = d (X j ; C i ) :Állítás 28 Igen általános feltételek melett w-t minimalizálja a módszer, a konvergenciakielégíto és független a kezdeti C 0 klaszterek megválasztásától.11.2.2 Hierarchikus eljárásokEz a módszer <strong>az</strong> N objektum minden M = 1; 2:::N klaszterbe sorolását elvégzi és <strong>az</strong>eredmény alapján választhajuk meg <strong>az</strong> osztályok kívánt számát. Megint feltesszük, hogy<strong>az</strong> objektumok leíróvektorai között egy d távolság deniált, (nem feltétlenül Euklideszi eza távolság). A klaszterek távolságát most a középpontjaik távolságával deniáljuk:d (C i ; C j ) = d (Z i ; Z j ) :Az eljárás M 0 = N klaszterrel indul, minden objektum külön klasztert alkot. Ezutánösszevonjuk <strong>az</strong>t a két osztályt amelyek távolsága minimális. Meghatározzuk <strong>az</strong> új klaszterij


Klaszter analízis 85középpontját. Innen <strong>az</strong> elozo lépés folytatható. Alternatív módszer, amely gyorsabb algoritmusteredményez, ha minden osztályt összevonunk, amelyek távolsága egy adott küszöbalatt van. Az eredményt szokás a klaszterek egymást követo generációjának fájával, úgynevezettdendogrammal ábrázolni. Világos, hogy <strong>az</strong> elso módszer esetén a fa N levéllelrendelkezik, <strong>az</strong> alattuk lévo szinteken sorra N 1; N 2:: csúcspont helyezkedik el, a famagassága pedig N: A második eljárásnál a szintek elemszáma gyorsabban is csökkenhet,így a fa magassága kisebb egyenlo mint N.


86 Osztályozás, klaszterezés


Chapter 12ID OSOROK12.1 Alapfogalmak, deníciókA továbbiakban olyan folyamatokat vizsgálunk, amelyeknél X 1 ; : : : ; X n nem független,<strong>az</strong>onos eloszlású változók.Véges dimenziós eloszlások X t : t 2 Tt 1 ; : : : ; t n 2 T : (X t1 ; : : : ; X tn )P (X t1 < x 1 ; : : : ; X tn < x n )P ((X t1 ; : : : ; X tn ) 2 B) ; B 2 < n[Kolmogorov] Ha adott véges dimenziós eloszlásoknak egy kompatibilis rendszere,akkor létezik egy valószínuségi mezo és <strong>az</strong>on egy sztochasztikus folyamat, amelynek pontezek a véges dimenziós eloszlásai (vagyis véges dimenziós eloszlásai meghatározzák afolyamatot).Gauss folyamat Akkor nevezünk egy folyamatot Gauss folyamatnak, ha mindenvéges dimenziós eloszlása normális.12.1.1 Összefüggoségi struktúrák1. véges rendu Markov-i összefüggés2. martingál tulajdonság: E (X n+1 jX 1 ; : : : ; X n ) = X n3. stacionaritáshaEros stacionaritás Egy sztochasztikus folyamatot akkor nevezünk erosen stacionáriusnak8t 1 ; : : : ; t n ; s : (X t1 ; : : : ; X tn ) d = (X t1 +s; : : : ; X tn+s)Gyenge stacionaritás Egy sztochasztikus folyamatot akkor nevezünk gyengén stacionáriusnakha1. 8t : E (X t ) = E (X 1 )2. cov(X t ; X s ) = (t s)A függvényt a folyamat autokovariancia függvényének nevezzük. Marizca István jegyzete alapján. A szerzo engedélyével.


88 Idosorok12.1.2 Az autokovariancia függvény tulajdonságai1. (0) = D 2 [X t ] 0 (ha létezik)2. j(h)j (0)Bizonyítás: Cauchy-Schwartz: ha; bi 2 jjajj 2 jjbjj 2 .(h) = cov(X t ; X t+h )j cov(X t ; X t+h )j 2 D 2 [X t ]D 2 [X t+h ]3. (h) = ( h), 8h 2 Z4. pozitív szemidenit[Pozitív Szemidenit] Az M 2 < nn mátrix pozitív szemidenit ha 8a 2 < n eseténa T Ma 0.Ha egy egész számokon értelmezett u függvényre ig<strong>az</strong>, <strong>az</strong>, hogy 8t 1 ; : : : ; t n 2Z esetén a [u(t i t j )] 1in;1jn mátrix pozitív szemidenit akkor a függvényt pozitívszemidenitnek nevezzük.Gyengén stacionárius folyamat autokovariancia függvénye pozitív szemidenit.Bizonyítás. Legyen Z := (X t1 E (X) ; X t2 E (X) ; : : : ; X tn E (X)) T . Tudjuk,hogy E (Z) = 0, ezért 8a 2 < n : E a T Z = 0. Ezért:D 2 [a T Z] = E a T Za T Z :Mivel a T Z egy skalár, ezért egyenlo önmaga transzponáltjával, így:D 2 [a T Z] = E a T ZZ T a = a T E ZZ T a:A ZZ T mátrix egy olyan (diadikus) mátrix melynek i,j-edik eleme (X ti E (X))(X tjE (X)), így <strong>az</strong> E ZZ T mátrix i,j-edik eleme E (X ti E (X)) (X tj E (X)) = (t i t j ).Tudjuk <strong>az</strong>onban, hogy mivel D 2 [a T Z] egy valószínuségi változó szórását jelöli ezért nemlehet negatív, így 8a 2 Z n :0 D 2 [a T Z] = a T E ZZ T a:Vagyis <strong>az</strong> E (ZZ t ) mátrix pozitív szemidenit és így a függvény is.[Herglotz] Legyen X 1 ; : : : ; X n ; : : : komplex értéku stacioner folyamat (h) = cov(X t ; Xt+h )autokovariancia-függvénnyel. Ekkor(h) =Z e ih dF ();ahol F () a spektrálfüggvény, amelyre ig<strong>az</strong>, hogy F () = 0, jobbról folytonos, korlátos.


Idősorok transzformációja 8912.2 Idosorok transzformációjaKlasszikus dekompozíció:aholm t : trend, lassan változó determinisztikus, t : szezonalitás, periodikus függvény,Y t : stacionárius folyamat.12.2.1 Nincs periodikus komponensX t = m t + t + Y t ;Kiindulunk egy ismert trendfüggvénybol: m t = a + bt. A minták alapján a-t, és b-t úgyhatározzuk meg, hogy a P nt=1 [X t (a + bt)] 2 négyzetes eltérés minimális legyen.Mozgó átlagos simítás (moving average smoothing)W t = 12q+1P qj= q X t+j a simított folyamat.12q + 1X t !qXY t+j 0j= q12q + 1qXj= qm t+j + 12q + 1W t = ^m t a trend becslése, feltéve, ha <strong>az</strong> lineáris! ^Y t = X t ^m t .Exponenciális simítás (exponential smoothing)Legyen a 2 (0; 1).^m 1 := X 1Különbségképzés (differencing)^m t := aX t + (1 a) ^m t 1Xt 2^m t = a(1 a) j X t j + (1 a) t X 1j=0Deniáljuk a különbségképzo (differencing, r), illetve backward shift (B) operátorokat akövetkezoképpen:B : < Z 7! < Z ; BX t = X t 1 ;illetveqXj= qY t+jr : < Z 7! < Z ; r = 1BrX t = (1 B)X t = X t X t 1


90 IdosorokEzek felhasználásával: r(at + b) = a, illetve lineáris m t (= at + b) trend esténr(m t + Y t ) = a + rY t .Hasonlóképp deniálhatjuk a r k operátort is:r k = (1 B) k = 1 k1B + k2B 2 + + kk( B) k :Például : r 2 X h = X h 2X h 1 + X h 2 , illetve: r k (a k t k + + a 0 ) = k!a k .12.2.2 Trend és szezonalitásLassú trendLegyenX j;k = Y k+12(j 1) ;ahol j jelentheti pl. <strong>az</strong> évet és k a hónapot. Feltesszük, hogy egy éven belül a trendkonstans: m j .^m j := 1 X12X j;k :12Szezonalitás becslése:^s k := 1 20X20j=1X12k=1k=1(X j;k ^m j ):^s k = 0A szezonalitás periódusát ismernünk kell! Ennek meghatározásához használhatjukpéldául a periodogram módszert.Mozgó átlagos simításTrend ( ^m t ) becslése:8


Parciális autokovariancia függvény 91Bizonyítható, hogy <strong>az</strong> így deniált empirikus autokovariancia tagokból képzett =[^(i j)] 1i;jn mátrix pozitív szemidenit. Amennyiben a 12.1 egyenletben n helyett(n r)-rel normálnánk, úgy a kapott empirikus autokovariancia mátrixra ez nem teljesülne.Hasonlóképp értelmezhetjük <strong>az</strong> emprikus autokorrelációs függvényt is:^(h) := ^(h)^(0) :Box és Jenkins ökölszabálya szerint n 50 és h n=4 esetén van értelme <strong>az</strong> idosoranalízisével foglalkozni.Fontos megjegyezni, hogy <strong>az</strong> empirikus autokovariancia ill. autokorreláció függvényeketnem-stacionárius esetben is ki tudjuk számítani, ezért a kapott eredményekértelmezésénél ezt gyelembe kell venni.Ha például ^(h) függvény lecsengése lassú, hatványfüggvény jellegu, <strong>az</strong> <strong>az</strong> erosfüggés helyett jelentheti lassú determinisztikus trend jelenlétét is.Amennyiben a folyamatban szezonalitás van jelen ez a ^(h) periodicitását eredményezi.12.4 Parciális autokovariancia függvény(1) = cov(X 1 ; X 2 )(h) = cov(X 1 E (X 1 jX 2 ; : : : ; X h ) ; X h+1 E (X h+1 jX 2 ; : : : ; X h ))(k) = det R kdet R k;ahol R k <strong>az</strong> autokorreláció mátrix, R k = [(i j)] 1i;jk , Rk -t pedig úgy kapjuk R k-ból,hogy annak utolsó sorát a [ 1 ; : : : ; k ] vektorra cseréjük.12.5 Fehér zajFehér zaj Fehér zajnak hívjuk, és W N(0; 2 )-tel jelöljük <strong>az</strong>okat a folyamatokat, melyre (k) =2 ; k = 00; k 6= 0A fehér zaj spektrálfüggvénye konstans.12.6 Mozgóátlag (MA) folyamatokf() = 2; 2 [ ; ]2Mozgó átlag folyamat Akkor nevezünk egy X t folyamatot mozgó átlag folyamatnak hafelírhatóX t = 0 e t + 1 e t 1 + + q e t qalakban, ahol e t W N(0; 1) fehér zaj, i ; 0 i q pedig konstansok.


92 IdosorokX t és e t közötti összefüggést felírhatjuk a B backshift operátor segítséégével:X t = 0 e t + 1 Be t + + q B q e t= ( 0 + 1 B + + q B q )e tFormálisan deniálhatjuk a (z) polinomot a következoképp: (z) := 0 + 1 z + + q z q . Ezzel a jelöléssel:X t = (B)e tAz algebra alaptétele szerint egy n változós polinomnak pontosan n darab nem feltétlenülkülönbözo gyöke van. Ennek alapján felírhatjuk (z) gyöktényezos alakját:(z) = qqY(z z i ):rE (X r e s ) = s : r q s r0 : különben!qXqXE (X t+k X t ) = E X t+k i e t i = i E[X t+k e t i ] =i=0i=1i=0q kX i k+iMivel E (X t+k X t ) t-tol nem, csak k-tól függ, ezért X t gyengén stacionárius, és <strong>az</strong> autokovarianciafüggvénye: P q k(k) =i=0 i k+i : k q(12.2)0 : k > qAz elozo egyenletben kifejeztük (k) értékét a i értékek segítségével. Felvetodika kérdés, hogy lehet-e ugyanezt visszefelé, illetve mi annak a feltétele, hogy adott (k),k = 0,1,2 : : : ; q autokovariancia függvényhez létezzenek a 12.2 egyenletet kielégíto iértékek.Vagyis a kérdés: adott (k), k = 0,1,2; : : : ; q esetén megoldható-e (k) = b 0 b k +b 1 b k+1 + : : : + b g k b q , k = 0,1,2; : : : ; q egyenletrendszer.A válasz pedig, hogy a megoldhatóság feltétele, hogy aqX(s) := (0) + (k)(s k + s k )függvénynek <strong>az</strong> <strong>az</strong> jsj = 1 egységkörön csak páros multiplicitású gyökei legyenek.12.7 Autoregresszív (AR) folyamatokk=1Autoregresszív folyamatok Akkor nevezünk egy (X t ) folyamatot autoregresszívnek, hafelírhatóX t = 1 X t 1 + + p X t p + e talakban, ahol e t fehér zaj.A mozgó átlag folyamatoknál deniált függvényhez hasonlóan deniálhatjuk a(z) := 0 + 1 z + + p z p polinomot. Így(B)X t = e t :i=0


Autoregresszív (AR) folyamatok 9312.7.1 Példa, AR(1) folyamatX t := X t 1 + e t = e t + (X t 2 + e t 1 ) =kX j e t j + k+1 X t k 1j=0 X t kX 2 j e t j = 2(k+1) jjX t k 1 jj 2 ! 0j=0ha jj < 1. Ebben <strong>az</strong> esetben <strong>az</strong>t mondjuk, hogy <strong>az</strong> AR folyamat kauzális. Ebben <strong>az</strong>esetben felírhatjuk <strong>az</strong> X t -t1XX t = j e t jj=0alakban is, ami egy MA(1) folyamatnak felel meg. Ezt nevezzük <strong>az</strong> AR(1) folyamatkauzális MA(1) eloállításának.Észrevehetjük, hogy amennyiben <strong>az</strong> AR(1) folyamat kauzális, <strong>az</strong><strong>az</strong> létezik MA(1)eloállítása, akkor a(z) = 1polinomnak <strong>az</strong> egyedüli gyöke <strong>az</strong> egységkörön kívül helyezkedik el. Általánosságban isig<strong>az</strong> a következoEgy AR(p) folyamatnak akkor és csak akkor létezik kauzális MA(1) eloállítása haa (z) = 0 egyenletnek nincsen a jzj 1 egységkörön belül gyöke.Tekintsük most <strong>az</strong>t <strong>az</strong> esetet amikor jj > 1!zX t+1 = X t + e t+1X t = 1 X 1t+1 e t+1 =kX 1= e j t+j + 1 x t+kj=1jj > 1 eseténX t =1Xj=11 j e t+jVagyis jj > 1 esetén is létezik MA(1) eloállítás, ez <strong>az</strong>onban nem kauzális.AR(1) folyamatok autokovariancia - függvényét könnyen kifejezhetjük <strong>az</strong> MA(1)eloállításuk segítségével.cov(X t+h ; X t ) = limn!1E!nXnXX 1 j e t+k j k e t k = h 2j =h1 2j=0k=0j=0


94 Idosorok12.7.2 Yule-Walker egyenletekEzeket <strong>az</strong> egyenleteket <strong>az</strong> AR (p) folyamatokra tekintjük.X t = 1 X t 1 + + p X t p + e tX t k X t = 1 X t k X t 1 + + p X t k X t p + X t k e t(k) = E (X t k X t ) = 1 (k 1) + + p (k p)(k) = 1 (k 1) + + p (k p)Ezen utóbbi egyenletet k = 1,2; : : : ; p értékekre felírva és mátrix alakba rendezve kapjuka Yule-Walker egyenletrendszert.01 0 1 0 1 0 1 p 1 1 1 1 0 p 2 2B@.. . .C B C. . A @ . A = 2B C@ . A p 1 1 0 p pEnnek segítségével találhatunk adott (1); : : : ; (p) értékekhez olyan 1 ; : : : ; p együtthatókat,hogy a kapott AR(p) folyamat autokorreláció - függvényének elso p eleme <strong>az</strong>adott (1); : : : ; (p)-val egyezzen. Ugyanez <strong>az</strong> egyenlet használható a ^ 1 ; : : : ; ^ p értékekbecslésére is a ^ 1 ; : : : ; ^ p segítségével.12.8 Autoregresszív - mozgóátlag (ARMA) folyamatokAz X t folyamatot ARMA(p,q) folyamatnak nevezzük, ha(B)X t = (B)e t ; (12.3)ahol (B) p-ed és (B) q-ad fokú polinomok.Akkor nevezzük a folyamatot kauzálisnak, ha létezik MA(1) eloállítása. Egykauzális ARMA folyamat autokovariancia - függvényét <strong>az</strong> MA(1) eloállításában szereploegyütthatókkal a következo tétel segítségével tudjuk kifejezni:Amennyiben X t stacionárius, és P 1j= 1 j jj < 1 akkor <strong>az</strong> t := P 1j= 1 jX t jfüggvény is stacionárius, és autokovariancia - függvénye: (h) =1X1Xj= 1 k= 112.8.1 A kauzalitás szükséges és elégséges feltételej k (h j + k)Tegyük fel, hogy a (z) és (z) polinomoknak nincs közös gyöke. Ezt nyugodtan feltehetjük,mivel ellenkezo esetben a (12.3) egyenletben ezzel a közös gyökkel egyszerusíthetünk.Az X t ARMA(p,q) folyamat kauzalitásának szükséges és elégséges feltétele, hogya (z) = 0 egyenletnek ne legyen a jzj 1 egységkörön belül gyöke.1Xj=0jz j = (z)(z) ; jzj 1


Az átlag és <strong>az</strong> autokovariancia becslései 95Invertálhatóság Az X t folyamatot invertálhatónak nevezzük, ha 9 j : P 1j=0 j jj


96 IdosorokZ e ih f()d = 121Xn= 1Z K(n)e i(hn) = K(h):Ennek egyszeru következménye <strong>az</strong> alábbi állítás. Egy (h) sorozatraP 1h= 1 j(h)j < 1Pés , f() = 1 12 n= 1 e in (n) 0: autokovariancia függvényEnnek alkalm<strong>az</strong>ásaként számítsuk ki, mikor lesz <strong>az</strong> alábbi alakú K függvény autokovarianciafüggvény! 8< 1 ha h = 0K(h) = ha h = 1:0 egyébkéntf() = 121Xn= 112.9.2 Aszimptotikus normalitásLegyen példáule in K(n) = 12 (1 + 2 cos ) 0 ) jj 1 2X t = +1Xj= 1jZ t j ;ahol Z t független, <strong>az</strong>onos eloszlású 0 várható értékkel és 2 szórásnégyzettel, továbbáEkkor12.9.3 (n) becslése1Xj= 1d(n) = 1 nj jj < 1 deX n d ! N ; 1 nXnht=11Xj= 11Xj= 1j 6= 0:(n)!X t XnXt+h Xn;ahol 0 h n 1:Ez általánosságban torzított becslés (bár bizonyos további feltételek mellett aszimptotikusantorzítatlan), de viszont a c h in = (i \ j) mátrixa pozitív szemidenit.1i;jnEnnek bizonyításához elég, hogy c n = 1 n MMT a következo <strong>az</strong> Y i = X i Xn jelölésselkifejezett M mátrixszal


ARMA modellek becslései 97230 0 : : : 0 0 Y 1 Y 2 : : : Y n 1 Y n0 0 : : : 0 Y 1 Y 2 Y 3 : : : Y n 0M =6. . : : : . . . . : : : . .:74 0 Y 1 : : : Y n 2 Y n 1 Y n 0 : : : 0 0 5Általános ökölszabályként elmondhatjuk, hogy (h) becslésejó, ha n 50 és h n 4 .12.9.4 Az autokorrelációk mikor különböznek szignikánsan 0-tól?Ha a következo alakú szurt független zajraX t =1Xj= 1jZ tj d(h)d=(h)akkord(0)és Z t független, <strong>az</strong>onos eloszlású 0 várható értékkel és 2 szórásnégyzettel, továbbáakkor1Xj= 1j jj < 1 és E Z 4 i< 1h d(1); : : : d (h)id! N[(1); : : : (h)] ; 1 n W ;ahol W <strong>az</strong> ún. Bartlett mátrix.W i;j =1X[(k + i) + (k i) 2(i)(k)] [(k + j) + (k j) 2(j)(k)] :k=1Például a független fehér zaj folyamatra (l) 6= 0, ha l 6= 0, <strong>az</strong><strong>az</strong> 1 ha i = jW i;j =0ha i 6= j<strong>az</strong><strong>az</strong>d(1); : : : ; d (h) iid N0; 1 ;nennek kondenciaintervalluma 1:96 1 p n, amely értéket a normális eloszlás táblázatábólolvashatunk ki.12.10 ARMA modellek becsléseiAmikor egy folyamatot ARMA modellel közelítünk, a következo lépések szerint járunkel:1. megbecsüljük p-t és q-t, <strong>az</strong> ARMA folyamathoz tartozó két polinom fokszámát


98 Idosorok2. megbecsüljük a polinomok együtthatóit3. megbecsüljük a szórásnégyzetet12.10.1 Ismert p és qTiszta autoregresszív esetben felírhatjuk a Yule-Walker egyenleteket:X t 1 X t 1 p X t p = e t ahol e t W N(0; 2 )aholp = p ;p = [(ij)] p i;j=1 T p = [(1); : : : ; (p)]Továbbá T = [(1); : : : ; (p)]: 2 = D 2 e t = D 2 (X t 1 X t 1 p X t p ) = (0) T p :Így a Yule-Walker becslések a következo alakúak lesznek:és12.10.2 Ismeretlen pc pb = bpb 2 = d (0) b T b p :Ha p nem ismert és AR(m)-et próbálunk illeszteni, akkor <strong>az</strong>t várjuk, hogy [ m;m kicsi lesz.p ncm md! N m (0; 2 1m );ahol m <strong>az</strong> X m+1 legjobb lineáris közelítésének együtthatóvektora: Xm+112.10.3 A Durbin-Levinson algoritmus T m (X 1 ; : : : ; X m ) ! min:A mátrixinvertálás kikerülésére a Durbin-Levinson algoritmust használjuk.rendu illesztés együtthatóib m = bm;1 ; b m;2 ; : : : b m;m = R b m 1 b mLegyenek <strong>az</strong> m-edéshbv m = b(0) 1 b T b imRm 1 b m :


ARMA modellek becslései 99b 2 (1) . Továbbá a becsült parciális autokovarian-Ekkor b 1;1 = b(1) és bv 1 = b(0) 1cia függvény"b m;m =264b(m)3b m;17.b m;m 1mX1j=1b m 1;j b(m j)645 = b m 1b m;m2#=bv m 1b m 1;m 137. 5b m 1;1ésbv m =bv m11 b 2m;m:Elméletileg (m) = m;m = 0, ha m > p, gyakorlatilag p n b m;m ! N(0; 1),<strong>az</strong><strong>az</strong> P 1:96 p 1n< b m;m < 1:96 p 1n= 0:95. A rendre ezzel elozetes becslést adhatunk:nbp = min r : 8m > r j b m;m j < 1:96 p 1no.12.10.4 Az innovációs algoritmusA Gram-Schmidt ortogonalizációs eljárással független vektorokból ortogonális rendszert készíthetünkvetítésekkel. Az eljárást idosorokra is alkalm<strong>az</strong>hatjuk a következo módon:E (X) t= 0 és (i; j) := E (X i X j )H n := hX 1 ; : : : ; X n i = hX 1^X1 ; : : : ; X n^Xn i ahol ^X n+1 := pr Hn X n+1 :80; n = 0>< nP ^X n+1 = n;j X n j+1^Xn j+1 ; n 6= 0 :j=0 >:A együtthatók rekurzív kiszámítását a v segédváltozóval (szórásnégyzet) a következorendszer adja meg:v n :=X n+1^Xn+1 2ígyv 0 = (1; 1)# n;n k = 1 Xk 1"(n + 1; k + 1) k;k j n;n j v j ahol k = 0::n 1v kj=0v n = (n + 1; n + 1)Xn 1 2 n;nj=0jv jEnnek bizonyítását úgy kezdjük, hogy 0 k n esetén X 1^X1 ; : : : ; X n^Xnortogonális, hiszen X i^Xi 2 H j 1 , ha i < j, és X j^Xj ? H j 1 . Tehát ^Xn+1 deníciójáthasználva


100 Idosorokh ^X n+1 ; X k+1^Xk+1 i = n;n k v k ;amely egyenlethez a X n+1^Xn+1 ? X k+1^Xk+1 <strong>az</strong>onosságot adva kapjuk, hogyhX n+1; X k+1^Xk+1 i = n;n kv k :Ebbe ^X k+1 defnícióját írvatovábbá n;n k = 1 Xk 1hX n+1 ; X k+1 k;k jX j+1^Xj + 1 i =v k"1(n + 1; k + 1)v kv n =j=0#Xk 1 k;k j n;n j v jj=02 X n+1^Xn+1 = jXn+1 j 2 + ^X 2n+1 =(n + 1; k + 1)Xn 1 2 n;nj=0Például a MA(1) folyamat predikcióját így adhatjuk meg:jv jX t = Z t +Z t 1 aholZ t W N(0; 2 )8 >:v 0 = (1; 1) = 2 (1 + 2 );8< n;j =:1v n 1 2 j = 10 2 j nv n = (1 + 2 ) 2 1 2 4 ;vn 2 1Tehát a predikció:r n := v n 2 = (1 + 2 )1v 2 n 1 2 2 :^X n+1 = r n 1(X n^Xn )


ARMA modellek becslései 10112.10.5 Mozgóátlag folyamatok becsléseiAz X 1 ; : : : ; X n adatokra a következo elofeltevést tesszük annak analógiájára, hogy <strong>az</strong> X ^Xmennyiségek voltak a hibák:X t = Z t + ^ m;1 Z t 1 + + ^ m;m Z t m ahol Z t W N(0; ^v m):2Ha ^(0) > 0, akkor vezessük be a becsült együtthatók vektorára a ^m = ^m;1 ; : : : ; ^m;mjelölést! Ezekre a következo rekurzív becslés érvényes:és^ m;m k = ^v 1k"^v 0 = ^(0)^(m k)Xk 1j=0^ m;m j ^k;k j^v j#^v m = ^(0)Xk 1j=0^ 2 m;m j^v j ahol k = 0; : : : ; m 112.10.6 Aszimptotikus viselkedés ARMA folyamatok eseténA jelölések rövid leírása a következo:(B)X t = (B)Z t ahol Z t IID(0; 2 ) és E Zt 4 < 11X (z)(z) =(z) , jzj 1; 0 = 1Ekkor minden k-raj=0p nh^m;1 1; : : : ; ^ m;k kid! N(0; A)aholtovábbáúgy hogyA i;j =min(i;j)Xr=1m(n) ! 1i r j rm(n) = o( 3p n) és ^v mp! 2 :Itt jegyezzük meg, hogy AR(p) esetben a Durbin-Levinson algoritmus által a p -readott ^ p =^p;1 ; : : : ; ^p;p becslés konzisztens, ha n ! 1. Viszont MA(k) esetben <strong>az</strong>innovációs algoritmus által adott ^q = ^q;1 ; : : : ; ^q;q becslés nem konzisztens, viszonta ^m;1 ; : : : ; ^m;q már <strong>az</strong>.miattA gyakorlatban MA(q) esetben tudjuk, hogy (m) = 0, ha m > q, és Bartlett tétele


102 Idosorok^(m) d ! N12.10.7 Maximum likelihood becslések0; 1 n!n qX(i) :E (X t ) = 0 tulajdonságú Gauss folyamat esetén a n = E X n X T njelöléssel a likelihoodfüggvény a következo:i= qL( n) = 1(2) n=2 1(det n) 1=2 exp 12 XT n1n X n :A mátrixinvertálás és a determinánsszámítás kikerülésére a következo algoritmus javasolt:k = 0; : : : ; n 1 esetén<strong>az</strong><strong>az</strong>Xk 1^X k+1 =j=0 k;kjX j+1^Xj+10B@01^X 1C. A =^X nB@0 0 0 : : : 0 1;1 0 0 : : : 0 2;2 2;1 0 : : : 0.. . . .. . n 1;n 1 n 1;n 2 n 1;n 3 : : : 010B@CA1X 1^X1C. A :X n^XnA képletben szereplo mátrixot jelöljük a következoképpenC = [ i;i j ] n 1i;j=0 ahol j 0 esetén i;j= 0:Ezt a mátrisot módosítsuk úgy, hogy a foátlóba 1-eket írunk: C := C + Id. EkkorCX n^Xn= ( C + Id)X n^Xn = ^X n + X n^Xn = X n<strong>az</strong><strong>az</strong> n = E X n XnT = CE X n^Xn X n^Xn TC T = CDC Taholezért a determináns egyszeruen számítható.D = Diag(v 0 ; v 1 ; : : : ; v n 1 )det n= ( det C) 2 det D = v 0 v 1 : : : v n 1 :


ARMA modellek becslései 103A kitevo is egyszerubb alakra hozható:X T n T 1n X n = X n^Xn CT 1 CX n^Xn = T X n^Xn C T C T 1 D 1 C 1 CX n^Xn = T X n^Xn D1X n^Xn = 2nXX j^Xjj=1v j 1Tehát végeredményképpen a likelihood függvény legegyszerubb alakja:2L( n) = (2) n=2 (v 0v 1 : : : v n 1 ) 1=2 6exp 4 1 2 23nXX j^Xj75 :v j 1j=1

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!