Tartalmi kivonat
Többváltozós statisztikai módszerek (elektronikus tananyag) Bolla Marianna, Krámli András, Nagy-György Judit Tartalomjegyzék 1. El®ismeretek 1: valószín¶sgelmélet 1.1 Elméleti háttér 9 . 9 1.11 Valószín¶ségelméleti alapismeretek . 9 1.12 Feltételes várható érték . 12 1.13 A normális eloszlásból származtatott eloszlások . 15 1.14 Többváltozós ismeretek . 18 . 20 . 28 1.2 Feladatok 1.3 Tesztek 2. El®ismeretek 2: statisztikai alapok 2.1 Elméleti háttér 31 . 31 2.11 Az egyváltozós statisztika alapfogalmai . 31 2.12 Becsléselmélet . 39 2.13 Hipotézisvizsgálat . 45 . 53 . 77 2.2 Feladatok 2.3 Tesztek 3. A
többdimenziós normális eloszlás, Wishart eloszlás 3.1 Elméleti háttér 81 . 3.11 Többdimenziós normális eloszlás 3.12 Wishart eloszlás 81 . 81 . 86 . 90 . 95 3.2 Feladatok 3.3 Tesztek 4. Paraméterbecslés és hiptézisvizsgálat többdimenziós normális modellben 99 4.1 Elméleti háttér . 99 4.11 Paraméterbecslés többdimenziós normális modellben . 99 4.12 Hipotézisvizsgálat többdimenziós normális modellben 4.2 Feladatok 4.3 Tesztek . 103 . 107 5. Lineáris módszerek 1: f®komponensanalízis, faktoranalízis 5.1 Elméleti háttér 5.11 . 101 109 . 109 F®komponensanalízis . 109 3 4 TARTALOMJEGYZÉK 5.12 Faktoranalízis . 113 5.2
Feladatok 5.3 Tesztek . 116 . 120 6. Lineáris módszerek 2: regresszióanalízis, a legkisebb négyzetek módszere121 6.1 Elméleti háttér . 121 6.11 Regresszióanalízis . 121 6.12 Legkisebb négyzetek módszere 6.2 Feladatok 6.3 Tesztek . 123 . 128 . 133 7. Lineáris módszerek 3: Egy- és többszempontos varianciaanalízis135 7.1 Elméleti háttér . 135 7.11 Egyszempontos varianciaanalízis 7.12 Többszempontos varianciaanalízis interakcióval . 140 7.2 Feladatok 7.3 Tesztek . 135 . 144 . 146 8. Kontingenciatáblák elemzése: diszkriminanciaanalízis, korrespondenciaanalízis, informác 8.1 Elméleti háttér . 147 8.11
Diszkriminanciaanalízis 8.12 Korrespondanciaanalízis . 153 8.13 Információelméleti módszerek . 156 8.14 . 147 Az I-vetület numerikus meghatározása 8.2 Feladatok 8.3 Tesztek . 164 . 164 . 166 9. Klaszteranalízis, többdimenziós skálázás 9.1 Elméleti háttér 169 . 169 9.11 Klaszteranalízis . 169 9.12 Többdimenziós skálázás 9.2 Feladatok 9.3 Tesztek . 172 . 173 . 173 10.Többváltozós küszöbmodellek, logit, probit 10.1 Elméleti háttér 10.2 Feladatok 10.3 Tesztek . 179 . 179 11.Randomizált módszerek nagyméret¶ problémákra 11.1 Elméleti háttér 11.2 Feladatok 11.3 Tesztek 179 . 179 181 .
181 . 182 . 182 5 TARTALOMJEGYZÉK 12.Algoritmikus modellek 12.1 Elméleti háttér 183 . 183 12.11 ACE-algoritmus (általánosított regresszióra) 183 12.12 Jackknife eljárás . 187 12.13 Bootstrap eljárás 189 12.2 Feladatok . 191 12.3 Útmutatások . 193 12.4 Végeredmények 193 13.Függelék 195 13.1 Lineáris algebra 195 13.2 Függelék 2: Valószín¶ségelméleti képletgy¶jtemény . 201 13.21 Kolmogorov axiómái: 201 13.22 Szitaformula: . 201 13.23 Események függetlensége, feltételes valószín¶ség 201 13.24 Valószín¶ségi változó 202 13.25 Valószín¶ségi változó momentumai:
203 13.26 A generátorfüggvény: . 204 13.27 A karakterisztikus függvény: 204 13.28 Nevezetes diszkrét eloszlások: 205 13.29 Nevezetes abszolút folytonos eloszlások: . 205 13.210Sztochasztikus konvergencia, majdnem biztos konvergencia:206 13.211Nevezetes összefüggések . 207 13.212Spektrálel®állítási tétel 207 6 TARTALOMJEGYZÉK Annotáció Jelen elektronikus tananyag els®sorban alkalmazott matematikus szakos hallgatók számára készült, de mindazok számára hasznos segédanyag, akik valamelyik természettudományi szakot hallgatják, vagy már elvégezték azt, rendelkeznek a középiskolai tanyagot jelent®sen nem meghaladó matematikai m¶veltséggel (a dierenciál- és integrálszámítás elemeivel), munkájuk során szembetalalálják magukat statisztikai problémákkal, és ambícionálják az általuk használt statisztikai programcsomagok
mögött álló elmélet alapelveinek megértését. Bevezetés Jelen elektronikus Tananyag célja a többváltozós statisztikai módszerek bemutatása, illusztrálása statikus ábrákkal és animációkkal, valamint számos a megértést segít® és ellen®rz® feladattal. A többváltozós statisztikai módszereket természetesen nem lehet megérteni a matematikai statisztika alapfogalmainak és a valószín¶ségszámítás elemeinek ismerete nélkül. A tananyag felhsználói munkájának megkönnyítése céljából az el®zetes tudnivalókat függelékben valamint részletes fogalom- és képletgy¶jteményben összefoglaltuk. Az általános statisztikai tudnivalókat is illusztráltuk ábrákkal, és számos e tárgykörbe tartozó feladatot is kit¶ztünk. A Tananyag összeállítása során szembesültünk azzal a ténnyel, hogy olyan látszólag nyilvánvaló fogalomnak mint pl. a marginális eloszlás kett®nél több valószín¶ségi változó együttes eloszlása
esetén az egzakt deniciója már reménytelenül bonyolult. Ilyenkor az ábra sem segít: számpéldákkal illusztráltuk a fogalmat A többváltozós statisztika klasszikus módszereit (ilyenek a regresszióanalízis, a legkisebb négyzetek módszere, a varianciaanalízis és a diszkriminanciaanalízis) együttesen normális (Gauss) eloszlású valószín¶ségi változókra dolgozták ki a XX. század els® felében Ezek a módszerek er®sen építenek a lineáris algebrának azon eredményeire, amelyek talán látszólagos egyszer¶ségük miatt kisebb hangsúlyt kapnak a matematikai képzésben, pedig a legkiválóbb matematikusok is komoly munkát fektetnek a lineáris algebra modern módszereinek tankönyvekben való feldolgozására; csak egy példa a sok közül: Lax Péter Abel-díjas matematikus rendkívül élvezetes, és számos új matematikai eredményt tartalmazó, magyarul is olvasható könyvet írt e témakörr®l, A Tananyag feladatai között is számos
statisztikai eredet¶, a lineáris algebra segítségével megoldható feladat van. Már itt gyelmeztetjük a felhasználót, hogy ezen feladatok megoldásához fejlett térszemléletre van szükség. A modern módszerek (pl. a klaszteranalízis) inkább épülnek a heurisztikára, noha ezek elméleti megalapozásának is nagy és mély matematikai eszköztárat igényl® irodalma van. Éppen emiatt ebben a tárgykörben gyakorlatilag nem lehet vonzó és elemi eszközökkel megoldható feladatokat kit¶zni. 7 TARTALOMJEGYZÉK Vannak olyan új módszerek, amelyekkel jelen sorok írója nem tud mit kezdeni, ilyen a gyakoriságtáblák közelítése alacsonyabb rangú mátrixokkal (korrespondenciaanalízis), ugyanis a lineáris algebra módszereit mechanikusan alkalmazva negatív valószín¶ségeket is kaphatunk eredményként. Ugyanakkor számos statisztikus sikerrel alkalmazza ezt a módszert, mi sem hagyhattuk ki a Tananyagból. Ezzel szemben a gyakoriságtáblák
elemzésének információelméleti módszereit, amelyeknek a kidolgozásában nagy szerepe van a magyar matematikusoknak els®sorban Csiszár Imrének részletesen ismertetjük, és ebben a tárgykörben feladatokat is kit¶zünk. Egy másik általunk csak érintett módszer a rendkívül nagyméret¶ mátrixokkal kapcsolatas (spektrálfelbontási) feladatok véletlen kiválasztással történ® közelítése. Itt az a probléma, hogy kisméret¶ bemutatható példát nem találtunk. Zárszóként két megjegyzés: 1. A statisztika legnevesebb m¶vel®i, Kolmogorovtól a vezet® magyar statisztikusokig egybehangzóan állítják, hogy vakon nem lehet statisztikát csinálni, azaz az adatok kritikus megszemlélése nélkül már értelmes hipotézist sem lehet föltenni. Erre nyújt lehet®séget az ún többdimenziós skálázás, azaz az adatok optimalis beágyazása lehet®leg minél kisebb dimenziós euklideszi térbe. 2. Bármilyen látványos is egy elektronikus tananyag,
csupán a képerny® nézésével és kattintásokkal nem lehet elmélyülni egyetlen tudományágban sem. Az nem várható el egy felhasználótól, hogy az elmélet részleteit megjegyezze, de nem hagyható ki a papírral-ceruzával, ha úgy nem megy kalkulátorral, esetleg formulakezel® programok használatával történ® aktív részvétel a tanulási folyamatban. Végül néhány szó a Tananyag forrásairól. A közvetlen statisztikai ismeretek forrása a két szerz® (Bolla Marianna és Krámli András, A statisztikai következtetések elmélete, Typotex 2005) könyve, valamint az irodalomjegyzékben idézett néhány eredeti folyóiratcikk. Innen csak az alapvet® deníciókat és tételeket vettük át, a hangsúly a feladatokon és az illusztációkon van. A feladatok nagy részét a harmadik szerz® (Nagy-György Judit) t¶zte ki a gyakorlatokon. A teljes ábra- és animacióanyagot is ® készítette. Ezek jelent®s része ma már közkinccsé vált eredményeket
ilusztrál, néhány bonyolultabb ábra Bolla Marianna javaslatára készült, az eredeti dolgozatok alapján újraszerkesztve. Az el®szóhoz tartozik két videó is, az els®n látható animáció a GlivenkoCantelli tételt (a matematikai statisztika alaptételét) szemlélteti, a másodikon felrajzolt ábra pedig a MarcsenkoPasztur-tételben szerepl® függvényt ábrázolja. Szeged, 2012. december 17 Krámli András 1. fejezet El®ismeretek 1.: valószín¶sgelmélet 1.1 Elméleti háttér 1.11 Valószín¶ségelméleti alapismeretek Ebben a paragrafusban a valószín¶ségelméletKolmogorov-féle felépítését ismertetjük, különös kiemelve a feltéles várható érték Kolmogorov-féle denícióját és annak a statisztikában használatos tulajdonságait. Hangsúlyozzuk, hogy a feltételes várható érték (és a feltételes valószín¶ség is) valószín¶ségi változó, amely bizonyos optimum tulajdonsággal rendelkezik. A nem matematikus szakos
hallgatóknak elegend® annyit tudni az alábbi absztrakt deníciók nagy részér®l, hogy léteznek. Az alkalmazó természettudományi hallgatók számára is feltétlenül tudnivaló deníciókat és állításokat *-gal megjelöljük. Mindenek el®tt vezessük be a valószín¶ségimez® Kolmogorov féle denícióját. 1. Deníció (Kolmogorov-féle (Ω, A, P) valószín¶ségi mez®) (i) Adva van egy nem üres nevezzük, és ω -val Ω halmaz (eseménytér), Ω elemeit elemi eseményeknek jelöljük. Ω részhalmazainak egy A Ω A ∈ A, A ∈ A B ∈ A ⇒ A ∪ B ∈ A.) (ii) Ki van tüntetve az (iii) A σ -algebra, (iv) minden az (v) A azaz A∈A . algebrája (Ω ∈ A, A ∈ A ⇒ Ak ∈ A (k = 1, 2, . ) ⇒ ∪∞ k=1 ∈ A. eseményhez hozzá van rendelve egy P(A) nemnegatív szám, esemény valószín¶sége. P(Ω) = 1. (vi) Ha Ak ∈ A, páronkent egymást kizáró események, akkor P(∪∞ k=1 ) = 9 ∑∞ k=1 P(Ak ). 10
FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 2. Állítás (szita-formula*). P(A1 ∪ · · · ∪ An ) = n ∑ (n) (−1)k−1 Sk , k=1 n≥k és (n) Sk ∑ := P(Ai1 ∩ · · · ∩ Aik ). 1≤i1 <···<ik ≤n 3. Deníció (események függetlensége*). Az A1 , . , An események páronként 1 ≤ j < k ≤ n párra P(Aj ∩ Ak ) = P(Aj ) · P(Ak ) (illetve minden 1 ≤ k ≤ n egészre és i1 < · · · < ik ε ≤ n idexsorozatra P(Ai1 ∩· · ·∩Aik ) = P(Ai1 )·· · ··P(Aik )). A teljes függtelenség implikálja (illetve teljesen) függetlenek, ha minden a páronkénti függetlenséget. Fordítva ez nem igaz! 4. Deníció (feltételes valószín¶ség*). P(A|B) := ha P(A ∩ B) , P(B) P(B) > 0. 5. Deníció (teljes eseményrendszer*). A1 , , An ∈ A, P(Ai ∩ Aj ) = 0, ha P(B) > 0. 6. Állítás (Bayes tétele*). 0, akkor Ha A1 , . , An teljes eseményrendszer és P(B) > P(B|Aj ) · P(Aj ) P(Aj |B) =
∑n k=1 P(B|Ak ) · P(Ak ) 7. Deníció (valószín¶ségi változó*). valós érték¶ függvény, amelyre X Az Ω halmazon értelmezett olyan X(ω) {ω : X(ω) ≤ x} minden valós x-re esemény. Ha értékkészlete megszámlálható halmaz, akkor diszkrét valószín¶ségi változóról beszélünk. 8. Deníció (valószín¶ségi változók függetlensége*). Az X1 , . , Xn valószín¶ségi {X1 (ω) ≤ x1 }, . , {Xn (ω) ≤ xn } események páronként (illetve teljesen) függetlenek, x1 , . , xn minden értékére változók páronként (illetve teljesen) függetlenek, ha az 9. Deníció (valószín¶ségi változók eloszlásfüggvénye*). változó eloszlásfüggvénye FX (x) := P(X ≤ x). FX (x) Az X valószín¶ségi monoton nemcsökken®, jobbról folytonos függvény. lim FX (x) = 0 lim FX (x) = 1. n−∞ (i) Diszkrét eset. Ha az akkor eloszlása: X n∞ valószín¶ségi változó értékkészlete pj := P(xj ) {x0 , x1 , . },
1.1 11 ELMÉLETI HÁTTÉR (ii) Abszolút folytonos eset. Ha van olyan f (t) függvény amelyre FX (x) = ∫x f (t)dt. Ekkor az f (t) függvényt az X valószín¶ségi változó s¶r¶ségfüg−∞ gvényének nevezzük. 10. Deníció (valószín¶ségi változó momentumai, absztrakt deníció). ∫ Az X valószín¶ségi változó várható értéke E(X) := X(ω)dP, Ω ha ez az integrál létezik. Az X valószín¶ségi változó n-edik momentuma (abszolút) monteuma Mn := ∫ n X(ω) dP, (:= Ω |X(ω)|n dP), ha a fenti integrálok léteznek. Ω Ha Ψ(x) tetsz®leges Borel-mérhet® valós függvény (azaz a {x : Ψ(x) ≤ y} ∫ halmaz minden y ∈ R-re Borel-mérhet®), akkor E(Ψ(X)) := Ω Ψ(X(ω))dP. 2 2 2 Az X valószín¶ségi változó D szórásnégyzete D := E[(X − E(X)) ] = 2 2 E(X ) − [E(X)] . ∫ 11. Deníció (kovariancia, korreláció, absztrakt deníció) változó, X és Y Két valószín¶ségi kovarianciája: Cov(X, Y ) := E[(X −
E(X))(Y − E(Y ))]. Két valószín¶ségi változó, X és Y korrelációja: rX,Y := Cov(X, Y ) D(X) · D(Y ) 12. Deníció (valószín¶ségi változó várható értékének kiszámítása*). (i) Diszkrét eset. Ha az X valószín¶ségi változó értékkészlete {x0 , x1 , . }, akkor várhtó értéke: E(X) := ∞ ∑ xj P(xj ) = j=0 ∞ ∑ xj pj , j=0 amennyiben a fenti sor abszolút konvergens (ii) Abszolút folytonos eset. Ha az f (t) X akkor várhtó értéke: valószín¶ségi változó s¶r¶ségfüggvénye ∫ E(X) := ∞ xf (x)dx −∞ amennyiben a fenti integrál létezik. Ha ismerjük a várható érték kiszámítási módját, a magasabb momentumok és szórásnégyzet kiszámítási módja már könnyen adódik: (i) n-edik momentum: (ii) szórásnégyzet: Mn := E(Mn ), D := E(X 2 ) − [E(X)]2 . 2 Hasonlóan számítható ki két valószín¶ségi változó kovarianciája és korrelációja. Ez természetesen nem azt jelenti,
hogy a tényleges számolás elvégzése is könny¶. 12 FEJEZET 1. 1.12 ELISMERETEK 1.: VALÓSZÍNSGELMÉLET Feltételes várható érték A fent ismertetett valószín¶ségelmélet alapismeretek már elegend®ek a feltételes várható érték fogalmának bevezetéséhez, tulajdonságaik, valamint diszkrét és abszolút folytonos esetben kiszámítási módjuk ismertetéséhez. 13. Deníció (egy σ -algebrára nézve vett feltételes várható érték) X valószín¶ségi változónak az A1 ⊆ A σ -algebrára nézve akkor vehet® E(X|A1 ) feltételes várható értéke, ha E(X) létezik. X1 -et az alábbi két az Az X1 := tulajdon- ság deniálja. 1. X1 A1 -mérhet®, azaz minden valós x-re {ω : X1 ≤ x} ∈ A1 . A ∫∈ A1 halmazra E(1A · X) = E(1A · X1 ) vagy másképpen írva X dP, ahol 1A jelenti az A halmaz indikátorfüggvényét. XdP = A A 1 2. Minden ∫ Bebizonyítható, hogy 1. es 2 feltételek teljesíthet®k, és X1 majdnem
biztosan egyértelm¶. 14. Megjegyzés Ha A1 valamely Y valószín¶ségi változó{Y (ω) ≤ x} x ∈ R nívóhalmazai által generált σ -algebra, akkor van értelme az E(X|Y ) feltételes várható értéknek. 15. Állítás Felsoroljuk a feltételes várható érték alapvet® tulajdonságait. 1. A feltételes várható érték vétel lineáris operáció, azaz E((a · X + b · Y )|A1 ) = a · E(X|A1 ) + b · E(Y |A1 ). 2. Ha az Y valószín¶ségi változó A1 -mérhet®, akkor E(Y · X|A1 ) = Y E(X|A1 ). 3. Ha az X valószín¶ségi változó független Y -tól, akkor E(X|Y ) = E(X). 4. Toronyszabály: E(Y ) = E[E(Y |X)]. Y valószín¶ségi f (x) valós füg- A statisztika egyik alapvet® feladata az ún. regresszió, azaz egy változó egy X valószín¶ségi változó valamilyen Borel-mérhet® gvényével való optimális közelítése (az optimális szó jelentése különböz® esetekben más és más lehet). Az alábbi állítás alapvet®
jelent®sg¶ ennek a célnak a megvalósítása szempontjából. 16. Állítás x} x ∈ R Ha létezik E(Y ) és Y Borel-mérhet® t(x) X valószín¶ségi változó {X(ω) ≤ Ax σ -algebrára, akkor akkor van olyan mérhet® az nívóhalmazai által generált valós függvény, hogy P(Y (ω)) = t(X(ω)) = 1 1.1 13 ELMÉLETI HÁTTÉR A 16. Állítás egy közvetlen alkalmazása a következ® 17. Állítás Ha E(Y 2 ) < ∞, min t : tA-mérhet® Y valószín¶ségi E(Y |X). azaz az éppen akkor E(Y − t(X))2 = E(Y − E(Y |X))2 , változó legjobb közelítése X Borel-mérhet® függvényeivel Most rátérünk a feltételes eloszlás (diszkrét eset), feltételes s¶r¶ségfüggvény, valamint a feltételes várható érték kiszámítási módjára. 18. Deníció (feltételes eloszlás) Legyen az X és Y valószín¶ségi változók x1 , . , xm , illetve y1 , , yn , együttes eloszlásuk ∑n (pij ), az X , illetve Y perem- (vagy marginális)
eloszlásai legyenek pi· = j=1 pij , illetve p·j = ∑m p . Ekkor a feltételes valószín¶ségdeníciója alapján az Y valószín¶ségi ij i=1 változó X = xi melletti feltételes eloszlása: pij pj|i = , j = 1, . , n pi· értékkészlete 19. Deníció (feltételes várható érték, diszkrét eset) az Y valószín¶ségi változó X = xi E(Y |X = xi ) = A fenti jelölésekkel melletti feltételes várható értéke: n ∑ yj · pj|i = j=1 n 1 ∑ yj · pij . pi. j=1 20. Megjegyzés E(Y |X = xi ) Vegyük észre, hogy sem a (pj|i ) feltételes eloszlás, sem az feltételes várható érték nem függ az xi konkrét értékt®l! 21. Deníció (feltételes s¶r¶ségfüggvény) Legyen f (x, y) az X és Y valószín¶∫∞ f (x, y)dy pedig az X −∞ valószín¶ségi változó perem- (vagy marginális) s¶r¶sége. Az Y valószín¶ségi válségi változók együttes s¶r¶ségfüggvénye, tozó X=x f1 (x) := feltétel melletti feltételes s¶r¶sége:
f2|1 (y|x) = lim ∆x0 ∆y0 = lim P(X ∈ [x, x + ∆x), Y ∈ [y, y + ∆y)) = P(X ∈ [x, x + ∆x)) · ∆y P(X ∈ [x, x + ∆x), Y ∈ [y, y + ∆y)) ∆x0 ∆y0 = P(Y ∈[x,x+∆x)) ∆x · ∆x · ∆y = (1.1) f (x, y) . f1 (x) Most megfogalmazzuk a Bayes-tételnek a statisztikában rendkívül hasznos, abszolút folytonos eloszlásra érvényes alakját. 22. Tétel (Bayes-tétel) Legyenek X , Y , f (x, y), f1 (x) zok, mint a fenti denícióban. Ekkor f2|1 (y|x)f1 (x) . f (y|x)f1 (x)dx −∞ 2|1 f1|2 (x|y) = ∫ ∞ és f2|1 (y|x) ugyana- 14 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 23. Deníció (feltételes várható érték, abszolút folytonos eset) jelölésekkel az Y valószín¶ségi változó X =x A fenti feltétel melletti feltételes várható értéke: ∫ ∞ 1 E(Y |X = x) = y · f2|1 (y|x)dx = f1 (x) −∞ ∫ ∞ −∞ y · f (x, y)dy. (1.2) E(Y |X = x) feltételes várható érték ellentétben a diszkrét
esettel függ t(x). A feltételes várható érték szemléletes jelentése: Az E(Y |X) nem más, mint az Y valószín¶ségi változó integrálközepe az X valószín¶ségi változó nívóhalmazain. Az az x értékt®l; jelölje ezt a függést Végül deniáljuk a feltételes szórásnégyzetet, kovarianciát, és az ún. parciális korrelációt. 24. Deníció (feltételes szórásnégyzet) les szórásnégyzete az X Az Y valószín¶ségi változó feltéte- valószín¶ségi változóra nézve: D2 (Y |X) := E[Y − E(Y |X)2 |X]. 25. Deníció (feltételes kovariancia) les kovarianciája az X Az Y és Z valószín¶ségi változók feltéte- valószín¶ségi változóra nézve: Cov(Y, Z|X) := Cov(Y − E(Y |X), Z − E(Z|X)). 26. Deníció (parciális korreláció) les kovarianciája az X Az Y és Z valószín¶ségi változók feltéte- valószín¶ségi változóra nézve: rY,Y |X := Cov(Y, Z|X) . D(Y − E(Y |X)) · D(Z − E(Y |Z))
Vegyük észre, hogy míg a feltételes szórásnégyzet és a feltételes kovariancia valószín¶ségi változók, amelyek függenek a feltételt®l, a parciális korreláció szám, ami csak 27. Állítás rY,Z -t®l, rY,X -t®l és rZ,X -t®l függ; igaz az alábbi állítás. rY,Z − rY,X · rZ,X rY,Z|X := √ . 2 2 (1 − rY,X )(1 − rZ,X ) A parciális korreláció szemléletesen azt a jelenséget írja le, hogy két valószín¶ségi változó (Y és Z ) azért korreláltak er®sen, mert mindketten er®sen korreláltak egy X -szel. A fenti állítás bizonyítása harmadik valószín¶ségi változóval, nevezetesen azon az alapvet® tényen múlik, hogy két valószín¶ségi változó kovarianciája két vektor skaláris szorzatának tekinthet®, és ha ez a kovariancia zérus, akkor a két valószín¶ségi változó mint vektor mer®leges egymásra. 1.1 15 ELMÉLETI HÁTTÉR 1.13 A normális eloszlásból származtatott eloszlások 28. Deníció
(normális eloszlás) X Az m várható érték¶ és σ 2 szórásnégyzet¶ valószín¶ségi változó s¶r¶ségfüggvénye f (x) := √ 1 (x − m)2 exp{− }. 2 2πσ (1.3) ∫x Φ(x) := −∞ f (s)ds eloszlásfügvény nem fejezhet® ki elemi függvényekkel. 2 2 Az m várható érték¶ és σ szórásnégyzet¶ normális eloszlás jelölése: N (m, σ ). Az alábbi ábra mutatja a standard normális eloszláshoz, azaz N (0, 1)-hez A tartozó s¶r¶ségfüggvényt. 1.1 ábra ϕ(x) 29. Deníció (n szabadságfokú χ2 eloszlás) Ha X1 , . , Xn független N (m, σ 2 ) valószín¶ségi változók, az Yn := X12 + · · · + Xn2 valószín¶ségi változó deníció szerint Yn ∼ χ2 (n), melynek s¶r¶ségfüggvénye fn (x) = xn/2−1 e−x/2 , 2n/2 Γ(n/2) szabadságfokú centrált ha χ2 -eloszlású: x > 0. ∫∞ −x Γ(α) := 0 xα−1 √ e . Megjegyezzük, hogy Γ(α+1) = αΓ(α), Γ(n) = (n−1)! Gamma(1/2) = π ahol és Yn 16
FEJEZET 1. 1. Az 2. A ELISMERETEK 1.: VALÓSZÍNSGELMÉLET χ2 (n)-eloszlás G(n/2, 1/2) Gamma-eloszlás. χ2 (n) eloszlás tetsz®leges momentuma meghatározható, a számolás vis- szavezethet® a normális eloszlás páros momentumainak meghatározására: E(Yn ) = n, D2 (Yn ) = 2n. 3. Ha X ∼ N (0, σ 2 ), akkor minden n E(X 2n ) = természetes számra n−1 ∏ (2j + 1)σ 2n (1.4) j=0 4. Ha n ∞, Yn eloszlása N (n, 2n)-nel közelíthet®. Az alábbi ábrák mutatják az 1, 2, 3, 4, és 5 szabadságfokú χ2 eloszlásokhoz tartozó s¶r¶ségfüggvényeket. 1.2 ábra χ2 (1-5) s¶r¶ségek 30. Deníció (n szabadságfokú Student-féle eloszlás (t-eloszlás)) standard normális eloszlású valószín¶ségi változó, és akkor Zn := deníció szerint tozó: Zn ∼ t(n) 31. Állítás A n √ Yn ∼ χ(n) független Ha X X -t®l, X X n· √ =√ Yn Yn /n szabadsági fokú standard Student-eloszlású valószín¶ségi vál- t(n)
eloszlás s¶r¶ségfüggvénye: ∫ ∞ n−1 2 t 2 e−t dt = ( ) n+1 2 n z2 0 π nΓ( 2 ) 1 + n ( ) − n+1 2 1 Γ( n+1 z2 2 ) =√ 1 + . n π n Γ( n2 ) gn (z) = √ (1.5) 1.1 17 ELMÉLETI HÁTTÉR 1.3 ábra t(1) és t(5) s¶r¶ségek Az alábbi ábrák mutatják az 1, és 5 szabadságfokú Student eloszlásokhoz tartozó s¶r¶ségfüggvényeket. A s¶r¶ségfüggvény (1.5) alakjából leolvasható, hogy a n ∞. standard normális eloszláshoz, ha Ugyancsak (1.5)-b®l látható az is, hogy Az 1 szabadságfokú t-eloszlás χ (m), eloszlásban tart a Zn -nek csak n−1 momentuma véges. a Cauchy-eloszlás. 32. Deníció ((n, m) szabadságfokú F -eloszlás) 2 Zn Ezt az alábbi animáció szemlélteti. Ha Xn ∼ χ2 (n) és és Ym ∼ akkor a Zn,m := valószín¶ségi változó Zn,m (n, m) Xn n Ym m szabadságfokú F -eloszlású: Zn,m ∼ F(n, m). változó s¶r¶ségfüggvénye ( ) ( n ) n2 −1 nΓ n+m z 2 ( n ) ( m ) ( m ) n+m . fn,m (z) =
mΓ 2 Γ 2 1 + n z 2 m Az alábbi ábrák mutatják az (1,1), (1,2), (1,3), (1,9), (2,1), (2,2), (2,3), (2,9), (3,1), (3,2), (3,3), (3,9), (9,1), (9,2), (9,3) és (9,9) szabadságfokú F eloszlásokhoz tartozó s¶r¶ségfüggvényeket. 33. Deníció (Béta-eloszlás) változók, akkor a Ha X1 , . , Xn , , Xn+m független ∑n 2 i=1 Xi Z̃n,m = ∑n+m 2 i=1 Xi valószín¶ségi változó A Z̃n,m B(n/2, m/2)-eloszlású: Zn,m ∼ B(n/2, m/2). fZn,m (z) s¶r¶ségfüggvénye ( ) Γ n+m n m 2 fZ̃m,n (z) = ( n ) ( m ) z 2 −1 (1 − z) 2 −1 , Γ 2 Γ 2 változó ha 0 < z < 1. N (0, 1)- 18 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET ··· ··· ··· . . . ··· 1.4 ábra F s¶r¶ségek n A fenti képletnek akkor is van értelme, ha a kitev®ben szerepl® 2 illetve m helyett tetsz®leges a illetve b pozitív számok állnak. Ez az (a, b)-rend¶béta2 eloszlás s¶r¶ségfüggvénye: fa,b (z) = 1 · z a−1 (1 − z)b−1 , B(a, b)
Vegyük észre, hogy a letes U(0, 1)-eloszlással! 1.14 Eddig ha 0 < z < 1. B(1, 1)-eloszlás megegyezik a [0, 1] intervallumon egyen- Többváltozós ismeretek X1 , . , X n független N (θ, σ 2 ) valószín¶ségi változókat jelentettek. Most kimondunk egy állítást megkönnyíti a normális eloszlású valószín¶ségi változók függetlenségenek ellen®rzését. 34. Állítás X1 , . , Xn független N (θ, σ 2 ) valószín¶ségi változók lineáris kombinációi, akkor Cov(Yi , Yj ) = δij maga után vonja az Y1 , , Ym Ha Y1 , . , Ym az változók (teljes!) függetlenségét. Most már minden ismeret rendelkezésünkre áll ahhoz, hogy megfogalmazzunk egy, a becsléselméletben és a hipotézisvizsgálatban gyakran használt tételt, ami Lukács Jen® tételének speciális esete (l. [21]) 35. Tétel (Lukács Jen®) változók, legyen továbbá Legyenek X1 , . Xn független N (θ, σ ∑n ∑n 1 1 ∗2 i=1 Xi , Sn := n−1 i=1 (Xi − n
X̄ := 2 ) valószín¶ségi X̄)2 . 1.1 19 ELMÉLETI HÁTTÉR 1. X̄ ∼ N (θ, σ 2 /n), 2. (n − 1)Sn∗2 /σ 2 ∼ χ2 (n − 1), 3. X̄ és Sn∗2 függetlenek. 36. Következmény √ Y = 37. Tétel Ha X1 , . , Xn n(X̄ − θ) √ ∼ t(n − 1) . Sn∗2 N (0, ϑ) független √ n · X̄ Z := √∑ n 2 j=1 Xj ′ és valószín¶ségi változók, akkor S 2 (X) := n ∑ Xj2 j=1 függetlenek. 38. Következmény A √ nX̄ T =√ Sn∗2 2 Student-statisztika is független S -t®l, ugyanis egyszer¶ számolással adódik, hogy ′ ′ Z a T monoton függvénye: Z = √T 2T+n−1 . ∗ (X̄ és Sn denícióit l. 35 tételben) A varianciaanalízis alapvet® eszköze a következ® meglep® tétel, amely a 35. tétel általánosításának is tekinthet®. 39. Tétel (FisherCochran-tétel) X = (X1 , . , Xn )T ∼ Nn (O, In ) véletlen vektor (komponensei független N (0, 1)-változók) és legyenek a Q = ∑n 2 T XT In X = XT X = i=1 Xi és a
Qj = X Aj X (j = 1, . , k) X-szel és a szimmetrikus, n × n-es Aj mátrixokkal (j = 1, . , k ≤ n) képzett kvadratikus Legyen alakok olyanok, hogy rájuk Q = Q1 + Q2 + · · · + Qk teljesül. Legyen Qj rangja: rk(Aj ) = nj A Q1 , Q2 , , Qk kvadratikus alakok 2 pontosan akkor független χ -eloszlásúak n1 , n2 , . , nk szabadságfokkal, ha k ∑ nj = n. j=1 A FisherCochran-tétel fontossága miatt kivételesen közöljük annak egy elχ2 -eloszlás denícójanak egyszer¶ következménye, emi bizonyítását. Az egyik irány a a másik meglep® irány az alábbi lineáris algebrai állításból adódik. 20 FEJEZET 1. 40. Állítás Ha az ELISMERETEK 1.: VALÓSZÍNSGELMÉLET n-dimenziós egységmátrix I n = A 1 + · · · + Ak A1 , . , Ak alakú, ahol az (1.6) valós szimmetrikus mátrixok és rang(A1 ) + · · · + rang(Ak ) = n, (1.7) akkor ezen mátrixok rang(A1 ), . , rang(Ak ) dimenziós ortogonális alterekre való
ortogonális projekciók mátrixai. Az alábbi megjegyzés segít abban, hogy bonyolult számítások elvegzése nélkül is alkalmazzuk a FisherCochran tételt. 41. Megjegyzés A kvadratikus alakok rangját az alábbi heurisztikus formulá- val számolhatjuk (Q itt is a kvadratikus alak rövidítése): rang(Q) =a Q-ban szerepl® független azonos eloszlású valószín¶ségi változók száma mínuszaz ugyanezen valószín¶ségi változók alapján függetlenül becsült paraméterek száma. Végül kimondunk egy tételt, ami bizonyos értelemben indokolja, hogy els® közelítésben miért veszünk mindig lineáris regressziót. 42. Állítás változók. Az Legyenek Y, X1 , . , Xn együttesen normális eloszlású valószín¶ségi Ŷ := E(Y |X1 , . , Xn ) feltételes várható érték az X1 , , Xn valószín¶ségi változók lineáris függvénye. Mivel a 17. állítás szerint Y feltételes várható értéke az X1 , . , Xn valószín¶ségi változókra
éppen a négyzetes középben való legjobb közelítés a fenti állítás szerint ez a közelítés az 1.2 X 1 , . , Xn valószín¶ségi változók lineáris függvénye. Feladatok 1. Számítsuk ki a Tipp: λ paraméter¶ Poisson eloszlás els® négy momentumát! Alkalmazzuk a momentumoknak a generátorfüggvény deriváltjai alapján történ® kiszámítási módját. Válasz: M1 = λ, M2 = λ2 +λ, M3 = λ3 +3λ2 +λ, M4 = λ4 +6λ3 +7λ2 +λ. X 2. Legyen egy (r, p) paraméter¶ valószín¶ségi változó. Számítsuk ki (r > 1) 1 E( X−1 ) negatív binomiális eloszlású várható értéket! Tipp: Használjuk a deníciót képletgy¶jtemény. p . Válasz: A deníció alapján r−1 3. Számoljuk ki az mentumát, ahol Tipp: n-edrend¶ λ k < n. paraméter¶ Gamma eloszlás deníciót képletgy¶jtemény. Válasz: A deníció alapján λk (n−k−1)! . (n−1)! −k -adik mo- 1.2 21 FELADATOK 4. Legyenek X, Y független,
azonos eloszlású, véges várható érték¶ valószín¶ségi változók. Határozzuk meg E(X + Y |X) és E(X|X + Y ) feltételes várható értékeket! Tipp: hogy Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre, X és Y szerepe szimmetrikus! Válasz: X + E(Y ) ill. 5. Legyen X és Y X+Y 2 . két független, 1/2 paraméter¶ Bernoulli-eloszlású valószín¶ségi változó. Adjuk meg E(X|X + Y ) által generált σ -algebrát és E(X|X + Y ) eloszlását! Tipp: X + Y által generált σ -algebrát. Válasz: Z := E(X|X + Y ), P (Z = 0) = 1/4, P (Z = 1/2) = 1/2, P (Z = 1) = 1/4. 6. Legyen 2 E(X ) X és nemnegatív valószín¶ségi változó. Tegyük fel, hogy léteznek az 1 E( X ) várható értékek! (a) Határozzuk meg E(X 2 |X)-et! (b) Határozzuk meg 1 E( X |X)-et! Tipp: értéke Egy X valószín¶ségi változó f (X) függvényének X -re f (X), ha ez utóbbi várható értéke létezik. feltételes várható
Válasz: (a) X 2, (b) 1 X. 7. Legyen X a [−1, 1] intervallumon egyenletes eloszlású valószín¶ségi válE(X|X 2 )-t! tozó. Határozzuk meg Tipp: Használjuk a deníciót és a feltételes várható érték tulajdonságait. Válasz: A deníció alapján: 0. 8. Legyenek X1 , X2 a [0, 1] intervallumon egyenletes eloszlású független valószín¶ségi Y := min{X1 , X2 }, valamint Z := max{X1 , X2 }. Határoz- változók, továbbá zuk meg (a) E(Y |Z), (b) E(Z|Y ), (c) E(X1 |Z) feltételes várható értékeket! Tipp: X1 és Használjuk a feltételes várható érték denícióját! Használjuk ki X2 Válasz: szimmetriáját, valamint azt, hogy X1 + X2 = Y + Z ! 22 FEJEZET 1. (a) Z/2, (b) (Y + 1)/2, (c) 3 4 Z. 9. Legyenek R. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET X, Y ∼ N (0, 1) független valószín¶ségi változók, továbbá a, b, c ∈ aX + bY + c? (a) Milyen eloszlású (b) Adjuk meg |X| s¶r¶ségfüggvényét! (c)
Határozzuk meg X2 (d) Milyen eloszlású X 2 + Y 2? Tipp: s¶r¶ségfüggvényét! Milyen eloszlást követ X 2? (c) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó füg- gvénye eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz: (a) N (c, a2 + b2 ), 2 (b) √ 2π 2 exp(− x2 ) ha x≥0 és 0 egyébként, (c) x−1/2 exp(−x/2) √ , azaz 2π (d) χ2 (2), ami megegyezik a λ = 1/2 paraméter¶ Exp(1/2) exponenciális χ2 (1) eloszlással. 10. Legyenek X, Y ∼ Exp(λ) X +Y? (a) Milyen eloszlású (b) Adjuk meg Z= független valószín¶ségi változók. X Y s¶r¶ségfüggvényét! Tipp: (a) Alkalmazzuk a képletgy¶jtemény nevezetes abszolút folytonos eloszlások felsorolásását. (b) Alkalmazzuk a képletgy¶jtemény 2 valószín¶ségi változó hányadosának s¶r¶ségfüggvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos
eloszlások felsorolását. Válasz: (a) G(2, λ). (b) 2 (1+z)2 , ha X≥0 azaz F(2, 2) 1.2 23 FELADATOK 11. * Legyenek N, X1 , X2 . N egy p X1 , X2∑ , . pedig λ paraméter¶ exponenN eloszlású lesz i=1 Xi ? független valószín¶ségi változók, ahol paraméter¶ geometriai eloszlású, ciális eloszlásúak. Milyen Tipp: Alkalmazzuk a képletgy¶jtemény megfelel® formuláit és írjuk be az exponenciális eloszlás karakterisztikus függvényét az 1, 2, . értékkészlet¶ geometriai eloszlás generátorfüggvényébe. Válasz: Exp(pλ) 12. Mi a kapcsolat az alábbi eloszlásseregek között? (a) Bernoulli, binomiális és Poisson; (b) geometriai és negatív binomiális; (c) exponenciális, χ2 és Gamma; (d) Student és Cauchy. Tipp: Alkalmazzuk a képletgy¶jteményt, és keressük meg hogy a fel- soroltak között melyik eloszlás speciális esete, ill. határesete egy másik eloszlásnak. Válasz: (a) Bernoulli ⊂ (b) geometriai
binomiális: a Poisson határesete; ⊂ negatív binomiális; (c) exponenciális: (d) Cauchy: 13. Legyen X egy χ2 (2) ⊂ Gamma; t(1). (α, λ), Y pedig (β, λ) paraméter¶ Gamma eloszlású, egymástól X/Y egy (α, β) paraméter¶ független valószín¶ségi változó. Igaz-e, hogy másodfajú Béta eloszlású valószín¶ségi változó, amely s¶r¶ségfüggvénye f (x) = Tipp: Γ(α + β) xα−1 · . Γ(α)Γ(β) (x + 1)α+β képletgy¶jtemény 2 valószín¶ségi változó hányadosának s¶r¶ségfüg- gvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz: 14. * Legyen Igaz. X egy (α, β) paraméter¶ másodfajú Béta eloszlású valószín¶ségi változó. Igazoljuk, hogy 1 X valószín¶ségi változó (β, α) paraméter¶ másodfajú Béta eloszlású! X (b) 1+X valószín¶ségi változó (α, β) paraméter¶ Béta eloszlású! (a) (c) 1 1+X valószín¶ségi
változó (β, α) paraméter¶ Béta eloszlású! 24 FEJEZET 1. Tipp: ELISMERETEK 1.: VALÓSZÍNSGELMÉLET F eloszlás kén/2 m/2 paraméter¶ másodfajú Béta elos2 az n, m szabadságfokokkal normált χ elos- Keressük meg a képletgy¶jteményben a Fischer-féle pletét, vegyük észre, hogy az zlású valószín¶ségi változó zlású valószín¶ségi változók hányadosa. Továbbá alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvényének illetve valószín¶ségi változók hányadosának s¶r¶ségére vonatkozó képletet. Válasz: 15. Legyen L. Tipp X1 , . , Xn , Xn+1 , , Xn+m ∼ Exp(λ) független azonos eloszlású valószín¶ségi változók. (a) Milyen eloszlású ∑n i=1 Xi ? (b) Igazoljuk, hogy ∑n i=1 Z = ∑n+m Xi i=n+1 statisztika (n, m) Xi paraméter¶ másodfajú Béta eloszlású! (c) Igazoljuk, hogy ∑n 1 i=1 Xi = ∼ Beta(n, m). ∑n+m 1 + 1/Z X i i=1 Tipp: (a) Keressük meg a
képletgy¶jteményben a megfelel® eloszlásokat. (b) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változók hányodosának eloszlására vonatkozó képletét. (c) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változók hányodosának eloszlására vonatkozó képletét. Válasz: (a) G(n, λ). (b) L. Tipp (c) L. Tipp 16. Mi a kapcsolat a Student, F és Béta eloszlásseregek között? Tipp: Alkalmazzuk a képletgy¶jteményt, és keressük meg, hogy a fel- soroltak között melyik eloszlás speciális esete, ill. melyik eloszláshoz tartozó valószín¶ségi változó függvénye egy másik eloszláshoz tartozó valószín¶ségi változónak. Válasz: Ha Ha X ∼ t(n), Zm,n ∼ F(m, n), akkor akkor X 2 ∼ F(1, n) Y = Zm,n 1+Zm,n ∼ B(m/2 − 1, n/2 − 1) 1.2 25 FELADATOK 17. Legyenek X1 , . , Xn ∼ Exp(λ) független azonos eloszlású valószín¶ségi Y1 , . , Yn valószín¶ségi változóket a következ® mó- változók.
Deniáljuk don: Y1 = X1 , Y2 = X1 + X2 , . , Yn−1 = X1 + · · · + Xn−1 (a) Legyen Z = X1 +· · ·+Xn . Határozzuk meg az Y1 , , Yn valószín¶ségi Z = z feltétel mel- változók együttes feltételes s¶r¶ségfüggvényét a lett. (b) Határozzuk meg az Y1 /Z, . , Yn−1 /Z valószín¶ségi változók együttes s¶r¶ségfüggvényét! Tipp: (a) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvénye eloszlására vonatkozó képletét, kihasznalva, hogy az X és Y valószín¶ségi változók közötti összefüggés lineáris és a Jakobi determináns értéke 1! (b) Alkalmazzuk az el®z® alfeladat eredményét! Válasz: (a) 1 n−1 , azaz n − 1 darab független azonos eloszlású a [0, z] inter(n−1!) z vallumon egyenletes eloszlású valószín¶ségi változó együttes s¶r¶ségfüggvénye. (b) n−1 darab független azonos eloszlású a [0, 1] intervallumon egyenletes eloszlású valószín¶ségi változó együttes
s¶r¶ségfüggvénye. 18. Legyenek X1 , . , Xn ∼ N (0, 1) és Y1 , , Ym ∼ N (0, 1) független 2 := Y12 + . + Ym2 Tn2 := X12 + . + Xn2 és Tm vál- tozók, továbbá (a) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvénye eloszlására vonatkozó képletét! (b) Alkalmazzuk az el®z® pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (c) Alkalmazzuk az el®z® két pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. Tipp: Válasz: 19. Legyen X1 , , Xn+1 X12 + . + Xn2 (a) Határozzuk meg ∼ N (0, 1) X12 független minta, továbbá legyen s¶r¶ségfüggvényét! Yn := 26 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET (b) Milyen eloszlású a Tn2 valószín¶ségi változó ? (c) Milyen eloszlású a Zn := √
Y1 Tn2 /n valószín¶ségi változó ? (d) Milyen eloszlású a Zn,m := mTn2 2 nTm valószín¶ségi változó ? Tipp: (a) Alkalmazzuk a képletgy¶jtemény egy valószín¶ségi változó függvénye eloszlásának kiszamítására vonatkozó formuláját. (b) Alkalmazzuk az el®z® pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (c) Alkalmazzuk az el®z® két pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. Válasz: (a) χ2 (1) (b) n (c) (n, m) szabadságfokú Student szabadságfokú F (t(n)) eloszlású. eloszlású. 20. Legyen X1 , , Xn+1 ∼ N (0, 1) független minta, továbbá legyen Yn = √ √ 2 Milyen eloszlású a Zn = X22 + · · · + Xn+1 nX1 Yn valószín¶ségi változó Tipp: Alkalmazzuk a képletgy¶jteményben található abszolút
folytonos eloszlások felsorolását. Válasz: n szabadságfokú Student (t(n)) eloszlású. 21. Legyenek Xn ∼ chi2 (n) és Ym ∼ χ2 (m) független valószín¶ségi változók. Milyen eloszlású a Z̃n,m := valószín¶ségi változó Tipp: (n/2, m/2) mXn nYm paraméter¶ béta eloszlású! Alkalmazzuk a képletgy¶jteményben a két valószín¶ségi változó hányadosa eloszlására vonatkozó képletet és az abszolút folytonos eloszlások felsorolását. Válasz: (n/2, m/2)-paraméter¶ béta eloszlású. 1.2 27 FELADATOK 22. Legyen X1 , . , Xn+m független standard normális eloszlású változók. Mi- lyen eloszlású a ∑n 2 i=1 Xi Z̃n,m := ∑n+m 2 i=1 Xi valószín¶ségi változó Tipp: (n/2, m/2) paraméter¶ béta eloszlású! Alkalmazzuk a képletgy¶jteményben a két valószín¶ségi változó hányadosa eloszlására vonatkozó képletet és az abszolút folytonos eloszlások felsorolását. Válasz: (n, m)-paraméter¶ F
23. Adjuk meg Xn eloszlású. határeloszlását (n ∞), ha Xn egy n szabadságfokú egy n szabadságfokú Stundent eloszlású valószín¶ségi változó! Tipp: Elemi analízis. Válasz: N (0, 1) 24. Adjuk meg χ2 X√ n −n határeloszlását (n n ∞), ha Xn eloszlású valószín¶ségi változó. Tipp: Alkalmazzuk a centrális határeloszlás-tételt! A szórásnégyzet kiszámításához alkalmazzuk a képletgy¶jteményben a normális eloszlás páros momentumaira adott formulát. Válasz: N (0, 2) 25. Legyen √X1 , . , Xn ∼ N (0, 1) független azonos eloszlású változók, továbbá T := X12 + . + Xn2 (a) Legyen (b) Legyen Z1 := X1 /T . Z := X/T . Bizonyítsuk be, hogy Bizonyítsuk be, hogy Z Z12 és és T 2 T2 is függetlenek! is függetlenek! Tipp: (a) A számoláshoz a Bayes-tételt alkalmazzuk. El®ször meghatározzuk 2 2 a T statisztika f (t|y) feltételes s¶r¶ségfüggvényét adott Y1 = y 2 esetén. Ez nem más, mint a
χ (n − 1) eloszlás s¶r¶ségfüggvénye a t−y helyen. 2 Bayes tétele alapján határozzuk meg az Y1 valószín¶ségi változó 2 g(y|t) s¶r¶ségfüggvényét adott T = t helyen! Vegyük észre, hogy a nevez®ben a χ2 (n − 1) és a χ2 (1) eloszlás χ2 (n) eloszlás s¶r¶ségfüg- s¶r¶ségfüggvényeinek a konvolúciója áll, ami a gvénye. Így adódik a (t − y) 2 −1 y − 2 n t 2 −1 n−1 g(y|t) = C · összefüggés (C normáló tényez®). 1 28 FEJEZET 1. A Z12 tört h(y|t) ELISMERETEK 1.: VALÓSZÍNSGELMÉLET h(y|t) = t · g(ty|t) = C · (1 − y) ami éppen a T2 = t feltételes s¶r¶ségfüggvénye adott B(1/2, n/2)-eloszlású Z 2 n−1 2 −1 helyen: y− 2 , 1 valószín¶ségi változó feltétel nélküli s¶r¶ségfüggvénye. 2 2 (b) El®ször bizonyítsuk be hogy Z és T függetlenek! Vezessünk be új 2 2 2 2 változókat: Y1 = n(X) , Y2 , . , Yn valószín¶ségi változókat úgy, 2 2 2 2 2 hogy Y1 , . , Yn
független ∼ χ (1) eloszlásúak legyenek és az Y1 , , Yn 2 2 Z1 , . , Zn egyenl®ség teljesüljön Ez mindig megtehet® az Y2 = n ∑ u2j Xj , Y3 = j=1 választással, ahol az n ∑ u3j Xj , . Yn = j=1 uij n ∑ unj Xj j=1 valós számok ortonormált és az azonosan 1 sorvektorra ortogonális sorvektorok koordinátái. Ezután alkalmazzuk az el®z® feladat eredményét Z 2 és T 2 valószín¶ségi változók függetlenségb®l kovetkeztethZ és T valószín¶ségi változók függetlenségére, felhasználva Végül a etünk hogy a számláló s¶r¶ségfüggvénye páros. Válasz: A fenti számolások valójában fölöslegesek, ha gyelembe vesszük a többdimenziós Ip kovariancia mátrixú normális eloszlás szimmetriatula- jdonságát (l. többdimenziós normális eloszlás) 1.3 Tesztek 1. Határozzuk meg E(1/X|X)-et, ha X tetsz®leges véletlen változó és a szük- séges várható értékek léteznek. (a) Nem feltétlenül létezik.
(b) X (c) 1/X (d) −1/X Válasz: (c) 2. Határozzuk meg E(X 2 |X)-et, ha X tetsz®leges véletlen változó és a szük- séges várható értékek léteznek. (a) Nem feltétlenül létezik. (b) √ X (c) X (d) X2 = 1.3 29 TESZTEK Válasz: (d) 3. Ha X és léteznek) Y független változók, E(X + Y |X) = (a) X +Y. (b) E(X + Y ). (c) E(X) + Y . (d) X + E(Y ). akkor (ha a szükséges várható értékek Válasz: (d) 4. Legyenek X1 , . , Xn független X1 + . + Xn ? standard normális eloszlású változók. Mi- lyen eloszlású (a) standard normális (b) N (0, n) (c) N (0, n2 ) (d) t(n) Válasz: (b) X1 , . , Xn X1 + . + X n ? 5. Legyenek független χ2 (m) eloszlású változók. Milyen eloszlású (a) F(n,m) (b) F(m,n) (c) χ2 (mn) (d) χ2 (n + m) Válasz: (c) 6. Legyenek X 1 , . , Xn λ paraméter¶ X 1 + . + Xn ? független tozók. Milyen eloszlású exponenciális eloszlású vál- (a) exp(nλ) (b) Gamma(n, λ)
(c) Béta(n,λ) (d) másodfajú Béta(n,λ) Válasz: (b) 7. Melyik igaz? (a) A különböz® szabadságfokú χ2 χ2 elosα, λ paraméter¶ eloszlások családja (röviden zlássereg) és exponenciális eloszlássereg a különböz® Gamma eloszlások családja (röviden Gamma eloszlássereg) részei. 30 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET χ2 eloszlásseregek az exponenciális eloszláscsalád részei. (b) A Gamma és (c) Az exponenciális és Gamma eloszlásseregek a (d) Egyik eloszlássereg sem része a többi. Válasz: (a) χ2 eloszlássereg részei. 2. fejezet El®ismeretek 2.: statisztikai alapok 2.1 2.11 Elméleti háttér Az egyváltozós statisztika alapfogalmai Az alábbiakban röviden összefoglaljuk az egyváltozós statisztikai módszereknek a Tananyagban használt alapfogalmait. Az egyváltozós statisztikai feladatokat kissé mesterségesen szokás becsléseleméletre és hipotézisvizsgálatra osztani. Mindkét
feladatkörben megkülönböztetnek paraméteres és nemparaméteres módszereket A Tananyag ezek közül csak a paraméteres módszerek többváltozós analogonjait és más az egyváltozós statisztikában fel sem merül® módszereket tárgyal. A Tananyag formálisan nem támaszkodik a rendezett minták elméletére, de a rendezett minták implicit módon szinte minden statisztikai módszerben megjelennek, ezért röviden erre is kitérunk. Alapstatisztikák és rendezett minták Legyen X 1 , . , Xn 43. Deníció független azonos eloszlású Az n-elem¶ minta. 1∑ X̄ = Xi n i=1 n statisztikát mintaátlagnak nevezzük. Ha hangsúlyozni szeretnénk a mintaelemszámot, akkor az ha pedig a konkrét realizációkkal számolunk, akkor 44. Deníció Az 1∑ S = (Xi − X̄)2 n i=1 n 2 31 x̄-t vagy X̄n jelölést használjuk, x̄n -t írunk. 32 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK statisztikát empirikus (tapasztalati) szórásnégyzetnek
nevezzük, az 1 ∑ n S2 = (Xi − X̄)2 n−1 n − 1 i=1 n S∗2 = statisztikát pedig korrigált empirikus (tapasztalati) szórásnégyzetnek. A fenti mennyiségek gyöke az empirikus (tapasztalati) szórás illetve a korrigált empirikus ∗ (tapasztalati) szórás, melyeket S illetve S jelöl. A szórásnégyzet, a második momentum és a várható érték közötti összefüggések az alábbi Álításból (mely a merev testek zikájából jól ismert Steiner-tetel átfogalmazása) következnek 45. Állítás (Steiner-tétel) c∈R Az x1 , . , xn ∈ R rögzített értékekkel és tetsz®leges valós számmal 1∑ 1∑ (xi − c)2 = (xi − x̄)2 + (x̄ − c)2 n i=1 n i=1 n n teljesül. 46. Következmény A Steiner tételb®l c=0 választással következik, hogy az empirikus szórásnégyzetet a következ®képpen is számolhatjuk: 1∑ 2 X − X̄ 2 = X 2 − X̄ 2 . n i=1 i n S2 = 47. Deníció Legyen k rögzített pozitív egész. Az 1∑ k X n i=1 i
n Mk = statisztikát k-adik empirikus (tapasztalati) momentumnak nevezzük, az 1∑ (Xi − X̄)k n i=1 n Mkc = statisztika pedig a k-adik empirikus (tapasztalati) centrális momentum. Nyilván S 2 = M2c = M2 − M12 . 48. Deníció Legyen (X, Y )T pedig vele azonos eloszlású független azonos eloszlású illetve SY (X1 , Y1 )T , . , (Xn , Yn )T minta. Jelölje SX 2-dimenziós valószín¶ségi változó, n-elem¶ a komponensek empirikus szórását! A 1∑ 1∑ (Xi − X̄)(Yi − Ȳ ) = Xi Yi − X̄ Ȳ C= n i=1 n i=1 n n 2.1 33 ELMÉLETI HÁTTÉR statisztikát empirikus (tapasztalati) kovarianciának, az R= ∑n C = √(∑ n SX SY Xi Yi − nX̄ Ȳ ) (∑n ) 2 2 − nX̄ 2 i=1 Yi − nȲ i=1 2 i=1 Xi statisztikát pedig empirikus (tapasztalati) korrelációnak nevezzük. 49. Deníció felvev® Az X1 , . , Xn mintaelemek értékeit nem-csökken® sorrendben X1∗ , X2∗ , . , Xn∗ valószín¶ségi változókat n-elem¶ rendezett
mintának nevez- zük, azaz X1∗ (ω) ≤ X2∗ (ω) ≤ · · · ≤ Xn∗ (ω), Tehát minden konkrét x1 , x2 , . , xn ∀ω ∈ Ω × Ω × · · · × Ω = Ωn . realizáció esetén ezt az n valós számot kell nagyság szerint nem csökken® sorrendbe rendezni, és a nagyság szerint i∗ ediket xi -gal jelölni. Természetesen az Ω különböz® elemeire más és más lesz a mintaelemek sorrendje, és így a rendezés is. Nyilván a rendezett mintaelemek már nem függetlenek egymástól, és nem is azonos eloszlásúak. 50. Deníció ∗ Xk+1 -ot, páros Empirikus mediánon értjük páratlan n (n ∗ ∗ esetén pedig (Xk + Xk+1 )/2-t. = 2k + 1) esetén n (n = 2k ) Ez valójában a középs® mintaelem, és amennyiben a realizációból számolt értékét m jelöli, ezzel teljesül a Steiner-tétel 51. Állítás L1 - normában vett megfelel®je: 1∑ 1∑ |xi − c| = |xi − m|. n i=1 n i=1 n min c∈R n A fenti minimumot a minta átlagos
abszolút eltérésének is szokták nevezni. A mediánnak több el®nye is van a várható értékkel szemben. • Olyan eloszlásoknak is létezik a mediánja, amelyeknek a várható értéke nem létezik. • A minta mediánja (empirikus medián) az eltolási paraméternek a mintaátlagnál stabilabb becslése, érzeketlen egy-két kiugró adatra. A következ®kben egy n-elem¶ minta alapján kívánjuk közelíteni a háttérelos- zlást, ezért megkonstruáljuk az ún. empirikus eloszlásfüggvényt, amir®l belátjuk, hogy elég nagy n-re jól rekonstruálja az ismeretlen eloszlásfüggvényt, akármi is legyen a véletlen minta. Ezt a tényt fogalmazza meg precízen a Glivenko Cantelli-tétel, melyet a statisztika egyik alaptételének is szoktak tekinteni. 52. Deníció (Empirikus (tapasztalati)) véletlen függvényt értjük: tetsz®leges Fn∗ (x) := 0, i=1 I(Xi < x) = nk , n 1, ∑n x∈R ha ha ha eloszlásfüggvény alatt a
következ® számra legyen x ≤ X1∗ , ∗ Xk∗ < x ≤ Xk+1 ∗ x > Xn . (k = 1, . , n − 1) 34 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK I(·) az argumentumban álló esemény indikátorváltozója. Könny¶ látni, I(Xi < x) indikátorváltozók független azonos eloszlású Bernoulli eloszlásúak F (x) paraméterrel, ahol F az X háttérváltozó eloszlásfüggvénye. Itt hogy az 2.1 ábra empirikus eloszlásfüggvény Fn∗ az x1 , . , xn realizációra olyan, mint egy Y ∼ U(x1 , . , xn ) diszkrét egyenletes eloszlású valószín¶ségi változó eloszlásfüggvénye 2 2 Nyilván E(Y ) = X̄ és D (Y ) = S . Megjegyezzük, hogy 53. Tétel (GlivenkoCantelli-tétel) gvény és x∈R E(Fn∗ (x)) = F (x), és Legyen F (x) az elméleti eloszlásfüg- rögzített. Akkor limn∞ Fn∗ (x) = F (x), D2 (Fn∗ (x)) = F (x)(1 − F (x)) , n 1 valószín¶séggel. A tételt animáció is szemlélteti. Rendezett mintaelemek eloszlása
és együttes s¶r¶sége X háttérváltozó abszolút folytonos eloszlású F eloszlás- és f A rendezett mintaelemekre X1∗ < X2∗ < · · · < Xn∗ , Legyen most az s¶r¶ségfüggvénnyel. 1 valószín¶séggel. 2.1 35 ELMÉLETI HÁTTÉR El®ször határozzuk meg Xk∗ Fn;k -val jelölt eloszlás-, és fn;k -val jelölt s¶r¶ség- függvényét! Nyilván Fn;k (x) = P(Xk∗ < x) = P(legalább k db. mintaelem < x) = n ( ) n ( ) ∑ ∑ n n = P(pontosan i db. mintaelem < x) = [F (x)]i [1 − F (x)]n−i i i i=k i=k (2.1) A s¶r¶ségfüggvényt nem ennek a deriválásával, hanem más meggondolással lehet egyszer¶en kiszámolni, a végeredmény: ( fn;k (x) = n Az U[0, 1] integrálját ) n−1 [F (x)]k−1 [1 − F (x)]n−k f (x). k−1 (2.2) egyenletes eloszlásra alkalmazva a (2.1) formulát és (22) formula 0-tól y -ig a következ® értékes összefüggést nyerjük: ( )∫ y n ( ) ∑ n i n−1 n−i y (1 − y) =n uk−1
(1 − u)n−k du. i k−1 0 i=k Az egyenletes eloszlásból vett 5 elem¶ rendezett minta elemeinek s¶r¶ségeit mutatják az alábbi ábrák. 2.2 ábra 5 elem¶ rendezett minta elemeinek s¶r¶ségei A képletgy¶jtemény alapján láthtó, hogy az egyenletes eloszlásból vett nYk∗ k -adik rendezett mintaeleme B(k, n − k + 1) Béta-eloszlású. ∗ Ennek alapján meghatározhatók Yk momentumai. Így: elem¶ minta 36 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2.3 ábra Egyenletes minta hisztogramja, 5 elem¶ rendezett minta 1,3,5 elemének hisztogramjai k n+1 k(k + 1) ∗ 2 E(Yk ) = (n + 1)(n + 2) E(Yk∗ ) = D2 (Yk∗ ) = E(Yk∗ )2 − E2 (Yk∗ ) = (2.3) k(n − k + 1) (n + 1)2 (n + 2) (k = 1, . , n) Végül megadjuk akárhány rendezett mintaelem együttes s¶r¶ségfüggvényét. Xk∗1 , Xk∗2 , . , Xk∗r -ét (1 ≤ k1 < k2 < · · · < kr ≤ Legyenek ezek a mintaelemek: n). fn;k1 ,.,kr (x1 , , xr ) = n! · (k1 − 1)!(k2 −
k1 − 1)! · · · (kr − kr−1 − 1)!(n − kr )! · F (x1 )k1 −1 [F (x2 ) − F (x1 )]k2 −k1 −1 · · · [F (xr ) − F (xr−1 )]kr −kr−1 −1 [1 − F (xr )]n−kr · · f (x1 ) · · · f (xr ), ha x1 ≤ x2 ≤ · · · ≤ xr , (2.4) és nyilván 0 különben. 2.1 37 ELMÉLETI HÁTTÉR Az alábbi szürkeárnyalatos ábra f5,1,5 -öt mutatja egyenletes eloszlásból vett rendezett minta esetén. 1 0.8 0.6 0.4 0.2 0 2.4 ábra r =1 Az f5,1,5 speciális esetben megkapjuk a (2.2) képletet Az r =n speciális esetben megkapjuk az összes rendezett mintaelem együttes s¶r¶ségfüggvényét. { n!f (x1 ) · · · f (xn ), fn;1,.,n (x1 , , xn ) = 0, x1 ≤ x2 ≤ · · · ≤ xn különben. ha Az eredmény nem meglep®, hiszen az összes rendezett mintaelem együttes eloszlása olyan, mint az összes (független) mintaelem együttes eloszlása azzal a n különbséggel, hogy a rendezés miatt az el®bbi eloszlás R -nek az x1 ≤ x2 ≤ · · ·
≤ xn egyenl®tlenség által meghatározott, 1/n! részarányú szimplexére kon- centrálódik. Elégségesség, teljesség, exponenciális eloszláscsalád Legyen Ω, AP P = {Pθ : θ ∈ Θ}. Az X1 , , Xn független T (X1 , . , Xn ) = T (X) statisztikájában a mintaele- statisztikai mez®, ahol azonos eloszlású minta egy mekben rejl® a θ paraméterre vonatkozó informaciót s¶ritjük ösze. 54. Deníció Likelihood-függvényen értjük a mintaelemek együttes valószín¶x = (x1 , . , xn ) ∈ Rn rögzített, és Lθ (x) a likelihood-függvény az x helyen. Ha a háttéreloszlás diszkrét pθ valószín¶ségfüg- ség illetve s¶r¶ségfüggvényét. Legyen gvényel, akkor Lθ (x) = Pθ (X = x) = n ∏ Pθ (Xi = xi ) = i=1 ha pedig abszolút folytonos fθ n ∏ i=1 s¶r¶ségfüggvénynyel, akkor Lθ (x) = n ∏ i=1 fθ (xi ). pθ (xi ), 38 FEJEZET 2. 55. Deníció ELISMERETEK 2.: STATISZTIKAI ALAPOK T (X) statisztika
elégséges a θ Azt mondjuk, hogy a ha diszkrét esetben a Pθ (X = x|T (X) = t) = Lθ (x) , Pθ (T (X) = t) ha 0 paraméterre, T (x) = t, (2.5) különben feltételes valószín¶ség, abszolút folytonos esetben pedig az Lθ (x) , fθT (t) fθ (x|T (X) = t) = feltételes s¶r¶ség nem függ s¶r¶ségfüggvényét a t θ-tól, ∀θ ∈ Θ, T (x) = t, ha 0 ahol (2.6) különben fθT (t) jelöli a T (X) statisztika helyen. A fenti deníció alapján látható, hogy az elegséges statisztika a mintaelemekben rejl® a θ paraméterre vonatkozó teljes információt tartalmazza. Felmerül a kérdés: hogyan lehetne megsejteni egy elégséges statisztika alakját? A választ a következ® tétel adja meg. 56. Tétel (NeymanFisher faktorizáció) pontosan akkor elégséges, ha létezik olyan zlete)) és h(x) (x ∈ X ) Egy X minta T (X) statisztikája gθ (t) (θ ∈ Θ, t ∈ T (=T értékkés- mérhet® függvény,
hogy Lθ (x) = gθ (T (x)) · h(x) teljesül minden θ ∈ Θ, x ∈ X esetén. Azaz a likelihood-függvény csak a T statisztikán keresztül függ a paramétert®l. Természetesen a teljes minta vagy a rendezett minta is elégséges statisztika, de mi minél egyszer¶bbet szeretnénk kapni. Ezért bevezetünk a valamilyen paraméterre elégséges statisztikák között egy részben rendezést: azt mondjuk, T1 a T2 -nek alárendelt statisztika, ha van olyan mérhet® v függvény, hogy T1 = v(T2 ). Ezt úgy jelöljük, hogy T1 ≤ T2 , és a T1 statisztika gazdaságosabb T2 -nél. Ha T1 és T2 kölcsönösen alárendeltek a másiknak, akkor ekvivalenseknek mondjuk ®ket: T1 = T2 (nyilván ekkor v invertálható függvény). hogy 57. Deníció A T elégséges statisztikát minimális elégséges statisztikának nevez- zük, ha alárendelt statisztikája bármely más elégséges statisztikának. 58. Deníció A T statisztika teljes, ha a Eθ (g(T )) = 0,
összefüggés a g ∀θ ∈ Θ függvényeknek egy elég gazdag (például folytonosan deriválható) osztályára teljesül, akkor g = 0, ahol PTθ jelöli a T PTθ (g = 0) = 1, statisztika által generált mértéket. 2.1 39 ELMÉLETI HÁTTÉR T Ennnek a tulajdonságnak a jelent®sége az, hogy, ha a statisztika elégséges és teljes akkor minimális elegséges. Ugyanakkor ezt a tulajdonságot nehéz elln®rizni, de az alább deniált ún exponenciális eloszláscsaládra teljesül 59. Deníció Azt mondjuk, hogy az X háttérváltozó eloszlása tagja ponenciális eloszláscsaládnak, ha diszkrét esetben a valószín¶ség-, az ex- abszolút folytonos esetben a s¶r¶ségfüggvénye a következ® alakban állítható el®: k ∑ c(θ) · exp aj (θ) · Tj (x) · h(x), ∀θ ∈ Θ. (2.7) j=1 k = dim(Θ), c és aj -k véges, mérhet® függvények mérhet® valós függvények. Itt (A c>0 ún. súlyfüggvény biztosítja , hogy
a 60. Tétel ∑ Θ-n, Tj -k vagy ∫ n-elem¶ X = (X1 , . , Xn ) mintát ( n ) n ∑ ∑ T (X) = T1 (Xi ), . , Tk (Xi ) i=1 elégséges statisztika a θ h pedig véges, 1 legyen). Vegyünk egy Akkor és a fenti eloszlásból. (2.8) i=1 paraméter-vektorra. Ismeretes, hogy a normális-, exponeciális-, Poisson-, Bernoulli-, geometriai- Γ-eloszlások tagjai az exponenciális eloszláscsaládnak. A negatív binomiális (Pascal), binomiális, polinomiális eloszlások csak rögzített rend esetén azok (csak a valószín¶ség(ek) a paraméter(ek)). A diszkrét és folytonos egyenletes eloszlások viszont nem tagjai. 2.12 Becsléselmélet Pontbecslések, torzítatlanság, hatásosság, konzisztencia P = {Pθ : θ ∈ Θ}. A θ paramétert X = (X1 , . , Xn ) független azonos eloszlású minta alapján konstruált T (X) statisztika segítségével. Jelölje θ̂ ill. ψ̂ az így kapott becslést! Legyen (Ω, A, P) statisztikai mez®, ahol vagy annak
valamely ψ(θ) függvényét szeretnénk becsülni az 61. Deníció (Torzítatlanság) T (X) torzítatlan becslés Eθ (T (X)) = ψ(θ), ψ(θ)-ra, ha ∀θ ∈ Θ. Ezt a fogalmat a legegyszer¶bb példán szemléltetjük. 62. Állítás X̄ mindig torzítatlan becslés m(θ) = Eθ (X)-re, 63. Deníció (Aszimptotikus torzítatlanság) aszimptotikusan torzítatlan becslés ψ(θ)-ra, T (Xn ) ha lim Eθ (T (Xn )) = ψ(θ), n∞ A ha ez véges. ∀θ ∈ Θ. statisztikasorozat 40 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK A szórásnégyzet becslésén szemléltetjük mindkét fogalmat. 64. Állítás Legyen X1 , , Xn független azonos eloszlású minta egy tetsz®leges 2 2 olyan eloszlásból, melyre minden θ ∈ Θ esetén σ (θ) = Dθ (X) < ∞. Akkor 1∑ 1∑ 2 = (Xi − X̄)2 = X − X̄ 2 , n i=1 n i=1 i n Sn2 Sn∗ 2 := n n 2 n−1 Sn pedig torzítatlan becslése a szórásnégyzetnek. Megjegyezzük, hogy az Sn∗ 2 becslés
torzítatlansága a Steiner-tétel következménye. Hatásosság (eciencia) 65. Deníció T1 és T2 statisztika torzítatlan becslés a θ paraméterre, ψ(θ) függvényére. Azt mondjuk, hogy T1 hatásosabb (emint T2 , ha Legyen a vagy annak valamely ciensebb) becslés, D2θ (T1 ) ≤ D2θ (T2 ), és legalább egy θ0 ∈ Θ 66. Deníció esetén (2)-ben < ∀θ ∈ Θ, teljesül. Egy torzítatlan becslés hatásos (eciens) becslés, ha bármely más torzítatlan becslésnél hatásosabb. A következ® tétel azt állítja, hogy amennyiben van hatásos becslés, az egyértelm¶. 67. Tétel (Egyértelm¶ségi) Legyen a lan, hatásos becslés ugyanarra a ψ(θ) T1 és T2 statisztika egyaránt torzítatparaméterfüggvényre. Akkor Pθ (T1 = T2 ) = 1, ∀θ ∈ Θ. Tételek garantálják, hogy exponenciális eloszláscsalád esetén X̄ a várható érték hatásos becslése. Nem minden eloszláscsalád esetén igaz ez Az U[0, θ] ∗ egyenletes
eloszláscsalád esetén például legyen θ̂ Xn legnagyobb rendezett mintaelem n+1 2n -szerese, ez szintén várható érték torzítatlan becslése (l. (18)), és hatásosabb, mint X̄ Konzisztencia A konzisztencia azt jelenti, hogy a meggyelések számának növelésével javul a becslés pontossága. 68. Deníció ψ(θ)-ra, A T (Xn ) statisztikasorozat gyengén (er®sen) konzisztens becslés θ ∈ Θ-ra n ∞ esetén T (Xn ) ψ(θ) sztochasztikusan (1 ha minden valószín¶séggel). A nagy számok er®s törvénye maga után vonja az alábbi Állítást. 69. Állítás Eθ (X) Ha X1 , . , Xn független azonos eloszlású minta X -re X̄n er®sen konzisztens becslés m(θ)-ra. véges, akkor és m(θ) = 2.1 41 ELMÉLETI HÁTTÉR Ezt szemlélteti az alábbi animáció. 70. Deníció A T (Xn ) statisztikasorozat a ψ(θ) paraméterfüggvény négyzetes 2 középben konzisztens becslése, ha minden θ ∈ Θ-ra Eθ (T (Xn )) < ∞ (∀n ∈ N) és lim
Eθ (T (Xn ) − ψ(θ))2 = 0. n∞ 71. Állítás slést ad T (Xn ) statisztikasorozat négyzetes középben konzisztens becakkor a becslés gyengén konzisztens is. Ha a ψ(θ)-ra, A szórásnégyzet becslése konzisztenciájának bizonyításának eszköze az alábbi önmagában is érdekes Állítás. 72. Állítás D2 (Sn2 ) = (n − 1)[(n − 1)M4c − (n − 3)σ 4 ] , n3 és D 2 (Sn∗ 2 ) 1 = n ( M4c CramérRao-egyenl®tlenség Legyen a θ (Ω, P, P) ) n−3 4 − σ . n−1 P = {Pθ : θ ∈ Θ}. Célunk az, hogy ψ(θ) függvényére konstruált torzítatlan statisztikai mez®, ahol paraméterre vagy annak valamely becslések szórásnégyzetére alsó korlátot adjunk. Ha egy torzítatlan becslésre ez a korlát eléretik, akkor biztosak lehetünk abban, hogy hatásos becslésünk van, ami az 67 Tétel alapján egyértelm¶. Szükségünk lesz a következ®, R. A Fishert®l származó fogalomra, l[11] 73. Deníció X Legyen X = (X1 , . , Xn
) független azonos eloszlású minta az háttérválozó eloszlásából, amely a θ paramétert®l függ (θ ∈ Θ), itt csak a dim(Θ) = 1, Θ konvex esettel foglalkozunk. A fenti minta Fisher-féle informá- ciója az ( In (θ) = Eθ ∂ lθ (X) ∂θ )2 ≥0 mennyiséggel van deniálva, ahol lθ (x) = ln Lθ (x) az ún. log-likelihood függvény-t jelöli Az információmennyiségt®l elvárjuk, hogy független valószín¶ségi változók esetén additív legyen. Ez itt nem részletezett regularitási feltételek mellett amelyek fennálnak az exponenciális eloszláscsaládokra, de például az egyenletes eloszláscsaládra nem állnak fenn igaz is. Így a denícióban szerepl® független azonos eloszlású valószín¶ségi változók esetén igaz az In (θ) = nI1 (θ). 42 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Ugyanezen regularitási feltételek mellett igaz az módját biztosító ( I1 (θ) = −E I1 (θ) egyszer¶bb kiszámítási ) ∂2
ln L (X) θ ∂θ2 összefüggés. A következ® állítás illusztrálja azt a tényt, hogy az elégséges statisztika tartalmazza a mintában lév®, a paraméterre vonakozó teljes információt. 74. Állítás Legyen X = (X1 , . , Xn ) független azonos eloszlású minta egy θ paramétert®l függ® eloszlásból (θ ∈ Θ), és tegyük fel, hogy In (θ) < ∞. Akkor tetsz®leges T (X) elégséges statisztikára IT (θ) = In (θ), ahol IT (θ) ugyanúgy számolható a T statisztika valószín¶ség ill. s¶r¶ségfüggvényéb®l, mint ahogyan a teljes minta információja a mintaelemek együttes eloszlásából. Miután a CramérRao egyenl®tlenségben szerepl® valamennyi fogalmat deniáltunk, kimondhatjuk magát a tételt. 75. Tétel (CramérRao-egyenl®tlenség) Legyen (Ω, A, P) reguláris statisztikai P = {Pθ : θ ∈ Θ}, dim(Θ) = 1. Legyen X = (X1 , , Xn ) független azonos eloszlású minta a Pθ eloszlásból, amir®l most tegyük fel, hogy
abszolút folytonos. Tegyük fel továbbá, hogy a T (X) statisztika valamely deriválható ψ függvénnyel képzett ψ(θ) paraméterfüggvény torzítatlan becslése, mez®, ahol ∀θ ∈ Θ D2θ (T ) < +∞, továbbá teljesülnek az alábbi bederiválhatósági feltételek: ∂ ∂θ és ahol ∫ ∂ ∂θ ··· ∫ ∫ ∫ ∫ ··· Lθ (x) dx = ∫ ··· ∫ ∫ ··· ∫ T (x)Lθ (x) dx = n-dimenziós ∂ Lθ (x) dx, ∂θ ∫ ··· T (x) ∂ Lθ (x) dx, ∂θ ∀θ ∈ Θ ∀θ ∈ Θ, integrálást jelent a likelihood-függvény tartóján. Akkor D2θ (T ) ≥ (ψ ′ (θ))2 , In (θ) ∀θ ∈ Θ. 2 2 Példaként megemlítjük, hogy az N (θ, σ ) normális eloszlásra ismert σ es−2 etén I1 = σ , és a θ̂ = X̄ átlagra az egyenl®tlenség helyett egyenl®ség áll, azaz eléretik az információs határ, míg az Exp(λ) exponenciális eloszlásra a torzítatλ̂ = n−1 becslés a következ® tétel miatt hatásos, de az
információs határ nX̄ nem éretik el. Ugyanakkor a U(0, θ) egyenletes eloszlás lan θ̂ = Xn∗ (a legnagyobb rendezett mintaelem n+1 -szerese) n 2.1 43 ELMÉLETI HÁTTÉR becslés szórásnégyzete 1/n nagyságrend¶, azaz lényegesen kisebb, mint az in- formációs határ, mert a bederiválhatósági feltételek nem teljesülnek. 76. Tétel (RaoBlackwellKolmogorov-tétel) Legyen P = {Pθ ; θ ∈ Θ}. Legyen X = (X1 , , Xn ) minta valamely Pθ eloszlásból. Legyen továbbá mez®, ahol zlású (a) T (X) elégséges statisztika, (b) S(X) torzítatlan becslés a Akkor T -nek van olyan (Ω, A, P) statisztikai független azonos elos- ψ(θ) paraméterfüggvényre. U = g(T ) függvénye, amely ψ(θ) (1) szintén torzítatlan becslése a ∀θ ∈ Θ, (2) U legalább olyan hatásos becslése (3) U konstrukciója a következ®: paraméterfüggvénynek: Eθ (U ) = ψ(θ), ψ(θ)-nak, mint S : D2θ (U ) ≤ D2θ (S), ∀θ ∈ Θ. U :=
Eθ (S|T ) = g(T (X)), ∀θ ∈ Θ (ezt nevez- zük blackwellizálásnak). A tétel üzenete: a hatásos becsléseket a minimális elégséges statisztika függvényei közt kell keresni. Becslési módszerek A paraméterek (akár többdimenziós paraméterek) becslésére számos ad hoc módszer ismertes, itt csak az ún. maximum-likelihood becslést ismertetjük els®sorban azért, mert általánosan alkalmazható, és az általa kapott eredmény közel esik a más becslések (például az ún. Bayes-becslés, vagy a momentum módszeren alapuló becslés) által kapott eredményhez. (Ω, A, P) statisztikai mez®, ahol P = {Pθ ; θ ∈ Θ} (a paramétertér leX1 , . , Xn független azonos eloszlású mintát a Pθ eloszlásból (θ ismeretlen). Az x1 , , xn realizáció birtokában a paraméter becslésének azt a θ̂ -ot fogadjuk el, amely mellett anLegyen het többdimenziós és legyen konvex). Vegyünk egy nak a valószín¶sége, hogy az adott realizációt
kapjuk, maximális. Mivel ezt a valószín¶séget a likelihood-függvény tükrözi, a módszer ezt maximalizálja. A maximumhely csak a realizációtól függ, tehát statisztikát kapunk becslésként. 77. Deníció Lθ (x) : n-elem¶ mintához tartozó likelihood-függvény. A θ̂: θ̂(x1 , . , xn ) statisztikát a θ paraméter maximum likelihood (ML-)becslésének nevezzük, ha θ̂ globális maximumhelye a likelihood-függvénynek, azaz Legyen Lθ̂(x1 ,.,xn ) (x1 , , xn ) ≥ Lθ (x1 , , xn ) teljesül ∀θ ∈ Θ és (x1 , . , xn ) Megjegyzés. Ha létezik is esetén. L-nek globális maximuma minden realizáció esetén, az nem biztos, hogy a max. helyek egyértelm¶ek Ezesetben választanunk kell a max. helyek között Áltlános tételek biztosítják, hogy n ∞ esetén a különθ∗ valódi értékéhez √ ∗ konvergálnak. Tehát a θ̂n M-L becslés aszimptotikusan torzítatlan, s®t n(θ − θn )-nel aszimptotikusan N (01/I1 (θ∗ ))
normális eloszlású, azaz aszimptotikusan eciens. böz® maximumhelyek a paraméter 44 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Kondencia intervallum szerkesztés Az eddigiekben ún. pontbecslésekkel foglalkoztunk, vagyis a becsülend® paramétert v. paraméterfüggvényt a mintaelemekb®l képzett egyetlen statisztikával becsültük Most becslésként egy egész intervallumot melynek határait természetesen statisztikák jelölik ki fogunk használni A köznapi beszédben úgy fogalmazunk, hogy a ψ(θ) paraméterfüggvény P Ta és Tf statisztikák ψ(θ) nem valószín¶ségi Legyen X = (X1 , . , Xn ) valószín¶séggel a által meghatározott intervallumban van. Természetesen változó. Az alábbi kijelentésnek mégis van értelme független azonos eloszlású minta a Pθ sokaságból (θ ismeretlen)! 78. Deníció 1−ε A (Ta (X), Ta (X)) statisztikapárral deniált intervallum legalább szint¶ kondenciaintervallum a ψ(θ)
paraméterfüggvényre, ha Pθ (Ta (X) < ψ(θ) < Tf (X)) ≥ 1 − ε, ahol ε el®re adott kis pozitív szám (például tartozó szignikanciaszint pedig (2.9) ε = 0.05, ε = 001, a hozzájuk 95%, 99%). Nem világos, hogy a denícióban szerepl® Pθ valószín¶ség milyen paraméterértékhez tartozik. Egyes szerencsés esetekben az (2.9) beli valószín¶ség nem függ θ-tól. Kondenciaintervallum szerkesztése a normális eloszlás várható értékére ismert szórás esetén X1 , . , Xn ∼ N (µ, σ02 ) független azonos eloszlású minta, ahol σ02 ismert, µ (a várható érték) ismeretlen paraméter. (X̄ −rε , X̄ +rε ) szimmetrikus alakban: Legyen Pµ (X̄ − rε < µ < X̄ + rε ) = Pµ (|X̄ − µ| < rε ) = Pµ (−rε < X̄ − µ < rε ) = ( ) ( ) ( ) −rε X̄ − µ rε rε −rε √ < √ < √ √ √ Pµ =Φ −Φ , σ0 / n σ0 / n σ0 / n σ0 / n σ0 / n Φ(·) normális eloszlásfüggvény, és rε
-t úgy kell megválasztani, ( standard ) Φ−1 (1− 2ε )σ0 rε√ √ hogy 2Φ − 1 = 1 − ε , teljesüljön. Így rε = . σ0 / n n Vegyük észre, hogy a kondenciaintervallum hossza n növelésével és a σ0 ahol szórás csökkentésével csökken. Ismeretlen szórásnégyzet esetén a a standard normális eloszlást a megfelel® szabadságfokú Student-eloszlással helyettesítjük. Pθ (Ta (X) < ψ(θ) < Tf (X)) ≥ 1−ε vaθ-tól. Ha a feladatot nem lehet θ-tól független szimmetrikus valószín¶ségeire visszavezetni, akkor monoton nem csökken® ψ(θ) függ- A fenti két esetben az (2.9) képletben lószín¶ség nem függ eloszlás vény esetén a következ®k®ppen járunk el. El®ször önkényesen felbontjuk az (29) Pθ1 (Ta (X) > ψ(θ)) ≤ ε/2-re és Pθ2 (ψ(θ) > Tf (X)) ≤ ε/2-re. Szavakψ(θ1 ) értékét csökkentjük, a minta θ1 melletti valószín¶sége, 1 − ε/ fölé n®, míg ha ψ(θ2 ) értékét növeljük, a minta θ2
melletti valószín¶sége, ε/2 alá csökken. Az eljárás akkor korrekt, ha a θa (ε) függvény monoton nem növekv®, míg a θf (ε) függvény monoton nem csökken®. képletet ban kifejezve, ha 2.1 45 ELMÉLETI HÁTTÉR λ paraméterére szerkesztett kondencia inX1 , . , Xn ismeretlen λ paraméter¶ Poisson eloszlásból vett független azonos eloszlású minta, ismeretes, hogy az Y = X1 + · · · + Xn összeg elégséges statisztika, és eloszlása nλ paraméter¶ Poisson. ∑Y λja Számítsuk ki azt a λa értéket, amire exp(−λa ) j=0 j! = 1 − ε/2, majd azt ∑Y λja a λf értéket, amire exp(−λf ) j=0 j! = ε/2, Nyilván λ csökkentésével a deniáló összeg n®, és λ növelésével a deniáló A módszert a Poisson-eloszlás tervallummal illusztráljuk. Legyen összeg csökken. Az alábbi ábra λ függvényében mutatja 2.5 ábra A [λa , λf ] exp(−λ) exp(−λ) intervallumot tekinthetjük a ∑Y λ j=0 j! -t. ∑Y λ
λ j=0 j! paraméter 1−ε magbízhatósági szint¶ kondencia intervallumának. Ezt az alábbi ábra illusztrálja (a kék terült 1 − ε). Az alábbi interakív ábra a binomiális eloszlás p paramétere esetén szemlélteti a fenti eljárást. 2.13 Hipotézisvizsgálat A Tananyagban csak ún. paraméteres hipotézisvizsgálatokkal foglalkozunk Ez tekinthet® a paraméterbecslési feladat egy speciális esetének, amikor el®zetes információnk van a paraméter lehetséges értékeir®l, és csak azt kell eldönteni, hogy melyik érték a valószín¶bb. Valójában a hipotézisvizsgálat majdnem minden feladatát az egyszer¶ alternatívára vezetjük vissza Tegyük fel, hogy a paramétertér mindössze két elemb®l áll: Θ = {θ0 , θ1 }. θ = θ0 Θ hipotézist szokás 46 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2.6 ábra Konndencia intervallum a Poisson eloszlás λ paraméterére H1 : θ = θ1 } az ellen-hipotézis. Θ
paramétertartományt két halmaz diszjunkt uniójára (T heta = T heta0 cupT heta1 és T heta0 ∩ T heta1 = ∅). Leggyakrabban a null-hipotézis egyszer¶ θ = θ0 , míg az ellenhipotézis θ ̸== θ0 H0 -lal jelölni és null-hipotézisnek nevezni, míg a Mindkét hipotézis lehet összetett is: a alakú. Döntésünkkor kétféle hibát követhetünk el: 1. Elvetjük a null-hiptézist, pedig igaz; ezt nevezzük els®fajú hibának, mert ennek a valószín¶sége egyszer¶ nullhipotézis esetén null-hipotézishez tartozó eloszlás alapján kiszámolható. A hipotézisvizs- gálat a gyakorlatban legtöbbször úgy történik, hogy keresünk a mintaelemeknek egy olyan függvényét, amelynek eloszlása az egyszer¶ null-hipotézis fennállása esetén ismert. Ez a próbastatisztika (ha szerencsénk van, az ellen-hipotézishez tartozó paraméterértékekre is ismert) 2. Elfogadjuk a null-hiptézist, pedig nem igaz; ezt nevezzük másodfajú hibának, H1 hipotézis esetén
függ a θ ∈ Θ1 paramétert®l. X = (X1 , . , Xn ) minta alapján lehet determin- ennek a valószín¶sége összetett Döntésünk valamely, az isztikus, és (diszkrét értékkészlet¶ valószín¶ségi változók esetén) ún. randomizált A determinisztikus döntéskor a Xk kritikus tartományra. Xe ∩ Xk = ∅, X mintateret felosztjuk Xe Xe ∪ Xk = X . Az els®fajú hiba valószín¶sége egyszer¶ null-hipotézis esetén: Pθ0 (X ∈ Xk ). A hipotézisvizsgálatban a döntést próbának nevezik. elfogadási- és 2.1 47 ELMÉLETI HÁTTÉR A kritikus tartományt leggyakrabban ún. { Ψ próbafüggvénnyel deniáljuk: X ∈ Xe ⇔ Ψ(X) = 0, X ∈ Xk ⇔ Ψ(X) = 1. El®fordulhat, hogy ilyen alakú próbafüggvénnyel még egyszer¶ alternatíva esetén sem lehet minden ε értékére pontosan beállítani az els®fajú hibát, s®t a mintateret sem lehet két diszjunkt tartományra osztani úgy hogy az els®fajú hiba adott ε legyen. Ilyenkor
háromérték¶ (randomizált) próbafüggvényt alka- lmazunk: 0, Ψ(X) = p, 1, Ha Ψ(X) = p, akkor a nullhipotézist p valószín¶séggel elfogadjuk. Ha a null-hipotézis összetett a próba terjedelmér®l beszélünk. 79. Deníció A Xk kritikus próba pontos terjedelme: sup Pθ (X ∈ Xk ). θ∈Θ0 A pontos terjedelem diszkrét eloszlások esetén általában nem érhet® el. 80. Deníció Az Xk kritikus tartománnyal értelmezett próba ereje a alternatívával szemben: βn (θ, ε) = 1 − Pθ (X ∈ Xe ) = Pθ (X ∈ Xk ), θ ∈ Θ1 θ ∈ Θ1 teljesül. A próbák esetén is deniálható a torzítatlanság, nevezetesen, ha er®függvénye az ellen-hipotézishez tartozó paraméterértekre sem kisebb, mint a próba terjedelme. Precízen fogalmazva: 81. Deníció Az Xk kritikus jedelm¶ torzítatlan, ha tartománnyal deniált próba legfeljebb Pθ (X ∈ Xk ) ≤ ε, ha θ ∈ Θ0 , Pθ (X ∈ Xk ) ≥ ε, ha θ ∈ Θ1 . ε
ter- és Rögzített terjedelem esetén elvárható, hogy a mintaelemszám növelésével próba másodfajú hibája az ellen-hipotézishez tartozó minden paraméterértékre nullához tartson. 48 FEJEZET 2. 82. Deníció próba ε Az terjedelm¶ ELISMERETEK 2.: STATISZTIKAI ALAPOK (n) n elem¶ mintához tartozó Xk konzisztens, kritikus tartománnyal deniált ha (n) sup Pθ (Xn ∈ XXk ) = ε, ∀n ∈ N θ∈Θ0 és (n) lim βn (θ, ε) = lim Pθ (Xn ∈ Xk ) = 1, n∞ ∀θ ∈ Θ1 . n∞ A hipotézisvizsgálat legalapvet®bb tétele az egyszer¶ alternatívára érvényes NeymanPerson-Lemma. 83. Tétel (NeymanPearson-Lemma) H0 : θ = θ 0 egyszer¶ alternatívára tetsz®leges H1 : θ = θ 1 versus ε > 0-ra A létezik ε terjedelm¶ próba, amelynek másodfajú hibája minimális, amelynek (esetleg randomizált) próbafüggvénye 0, ψ(X) = p, 1, ha ha ha ahol a Lθj (X) j = 0, 1 és a c = cε meg, hogy a
próba terjedelme ε legyen 84. Megjegyzés >0 Lθ1 (X) Lθ0 (X) Lθ1 (X) Lθ0 (X) Lθ1 (X) Lθ0 (X) és < c, = c, (2.10) > c, p = pε számokat úgy választjuk Diszkrét eloszlás esetén általában nincs olyan a determinisztikus próba els®fajú hibája pontosan ε c érték, amire ezért randomizált próbát al- kalmazunk. Természetesen megtehetjük, hogy szigorúak vagyunk és sz¶kebb kritikus tartományt (kisebb c-t) választunk, vagy a kisebb els®fajú hiba el®nyosebb, és engedékenyebbek vagyunk. Az elméleti összefoglalóban egyetlen példát mutatunk arra az esetre, amikor a NeymanPearson-lemma alapján próba szerkeszthet®. Ez az ún u-próba. egymintás X : X1 , . , Xn független azonos eloszlású N (θ, 1) eloszlású minta, θ0 (null-hipotézis) és θ1 > θ0 (ellen-hipotézis). A normális Lθ1 (X) eloszlás s¶r¶ségfüggvényének alakjából kiolvasható, hogy a Lθ0 (X) ≥ c egyen√ ′ l®tlenség pontosan akkor
teljesül ha nX ≥ c′ , ahol √ √ c -t ugy kell megválasztani, ′ hogy P( nX > c ) = ε teljesüljön. Mivel Mivel nX standard normális elos−1 ′ zlású, c = Φ (1 − ε). A megfelel® kvantiliseket itt interaktív ábra segítségével Legyen θ lehetséges értékei határozhatjuk meg. Az er®függvény mutatja az u próba konzisztenciáját (az alsó kék vonal az els®fajú hibánál, a fels® 1-nél van). Az alábbi animáció az u próba konzisztenciáját mutatja. A NeymanPearson-lemma randomizált változata alapján szerkesztend® próba a feladatok között szerepel. Végül mutatunk egy általanosan használt módszert, amely számos módszer alapját képezi, és a többváltozós statisztikában más lehet®ség híján mindig ezt alkalmazzuk. 2.1 49 ELMÉLETI HÁTTÉR 2.7 ábra u próba els®fajú hibája 2.8 ábra u próba másodfajú hibája µ függvényében A Likelihood-hányados próba Ez a fajta próba olyan, viszonylag általános
esetekben használható, mikor a nullhipotézis azt jelenti, hogy paraméterünk a véges dimenziós, konvex paramétertér 50 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2.9 ábra u próba ereje (1−másodfajú hiba) µ függvényében valamely alacsonyabb dimenziós, összefügg® részsokaságába esik: H0 : θ ∈ Θ0 ahol versus H1 : θ ∈ Θ1 , Θ0 ∩ Θ1 = ∅, Θ0 ∪ Θ1 = Θ, és a dim(Θ0 ) = r, dim(Θ) = k jelöléssel r < k n-elem¶ minta alapján konstruálandó próbastatisztika: teljesül. Az λn (X) = supθ∈Θ0 Lθ (X) . supθ∈Θ Lθ (X) Tényleg statisztikát kapunk (λn (X) nem függ θ-tól), amely 0 és 1 közötti értékeket vesz fel. 85. Állítás Bizonyos regularitási feltételek mellett n∞ esetén −2 ln λn (X) χ2 (k − r) eloszlásban, Ezért ε H0 fennállása esetén. (l [3] 310 paragrafus) terjedelemhez a kritikus tartomány: Xk = {x : λn (x) ≤ λε } = {x : −2 ln λn (x) ≥ cε }, ahol a cε =
−2 ln λε > 0 konstans a χ2 (k − r) eloszlás 1−ε kvantilise. 2.1 51 ELMÉLETI HÁTTÉR A leggyakrabban használt próbák t-próba (Student-próba). Normális eloszlás várható értékének tesztelésére vagy két normális várható érték összehasonlítására használják ismeretlen szórás(ok) esetén. A gyakorlatban kis mintákra alkalmazzák, a normális eloszlást fel kell 2 tenni. Egymintás t-próba Legyen X ∼ N (µ, σ ) háttérváltozó ismeretlen paraméterekkel A H0 : µ = µ 0 hipotézis vizsgálatára az n elem¶ H1 : µ ̸= µ0 versus X1 , . , Xn ∼ N (µ, σ) független, azonos elos- zlású mintából konstruált próbastatisztika: t(X) = az 1−ε X̄ − µ0 √ n, Sn∗ szignikanciaszinthez konstruált kritikus tartomány pedig Xk = {x : |t(x)| ≥ tε/2 (n − 1)}, ahol tε/2 (n − 1) az n−1 szabadságfokú t-eloszlás (1 − ε/2)-kvantilise. A t- eloszlások kvantiliset itt interaktív ábra
segítségével tudjuk meghatározni. Null-hipotézisünket |t(x)| < tε/2 (n − 1), 1 − ε szinten elfogadjuk, ha a mintarealizációból számolt és elutasítjuk különben. Kétmintás t-próba. Legyen X ∼ N (µ1 , σ 2 ) és Y ∼ N (µ2 , σ 2 ) két tetsz®leges várható érték¶, de azonos szórású háttérváltozó. Az összes paraméter ismeretlen Még ebben a paragrafusban megmutatjuk, hogyan lehet ismeretlen szórások egyenl®ségét tesztelni. A H0 : µ1 = µ2 vers. H1 : µ1 ̸= µ2 n1 elem¶ X1 , . , Xn1 ∼ N (µ1 , σ 2 ) független, azonos Y1 , . , Yn2 ∼ N (µ2 , σ 2 ) független, azonos eloszlású, egymástól hipotézis vizsgálatára az eloszlású és az is független mintákból konstruált próbastatisztika: t(X, Y) = √ az 1−ε √ X̄ − Ȳ (n1 − ∗ 2 1)SX + (n2 − 1)SY∗ 2 · n1 n2 (n1 + n2 − 2) n1 + n2 szignikanciaszinthez konstruált kritikus tartomány pedig Xk = {(x, y) : |t(x, y)| ≥ tε/2 (n1
+ n2 − 2)}, ahol most az n1 + n2 − 2 szabadsági fokú t-eloszlást használjuk. A t-eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. F -próba. Két normális eloszlású változó szórásának összehasonlítására használják X ∼ N (µ1 , σ12 ) és Y ∼ N (µ2 , σ22 ) két ismeretlen paraméter¶, normális Legyen eloszlású háttérváltozó. A szórások egyenl®ségét szeretnénk tesztelni: H0 : σ 1 = σ 2 versus H1 : σ1 ̸= σ2 . 52 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK n1 elem¶ X1 , . , Xn1 ∼ N (µ1 , σ 2 ) független, azonos eloszlású és az Y1 , , Yn2 ∼ N (µ2 , σ 2 ) független, azonos eloszlású, egymástól is független minták alapján ∗ 2 2 2 ∗2 2 vizsgálódunk. Tudjuk, hogy (n1 − 1)SX /σ1 ∼ χ (n1 − 1) és (n2 − 1)SY /σ2 ∼ 2 χ (n2 − 1) függetlenek. Leosztva ®ket külön-kölön a saját szabadsági fokukkal, majd a hányadosukat véve F(n1 , n2
)-eloszlású valószín¶ségi változót kapunk, ezt tekinthetjük egyben az (n1 , n2 ) szabadsági fokú Fisher-eloszlás deníciójának. H0 fennállása esetén a hányados Az F (X, Y) = ∗ 2 SX , SY∗ 2 F(f1 , f2 ) eloszlású valószín¶ségi F(f2 , f1 ) eloszlású lesz, az X , Y szereposztást úgy választhatjuk, ∗ 2 ∗ 2 hogy a konkrét realizáció alapján számolt sX ≥ sY legyen. Ezután 1−ε szinten elutasítjuk H0 -t, ha F (x, y) ≥ Fε/2 (n1 − 1, n2 − 1), ahol a megfelel® szabadsági fokú F -eloszlás (1 − ε/2)-kvantilise a kritikus érték. Az F -eloszlások kvantiliset így ezt a próbastatisztikát vezetjük be. Mivel egy változó reciproka itt interaktív ábra segítségével tudjuk meghatározni. A következ® két próba ún. nemparaméteres próba, az els® esetben a H0 hipotézis az, hogy a minta egy adott diszkrét eloszlást követ, míg a második H0 hipotézis az, hogy a minta egy adott folytonos χ -próba. Legyen A1 , ,
Ar teljes eseményrendszer és esetben a 2 ∑r H0 : P(Ai ) = pi eloszlást követ. (i = 1, . , r), i=1 pi = 1 valószín¶ségek adottak. Végezzünk ∑rn db. megν1 , , νr az A1 , , Ar esemény gyakoriságát ( i=1 νi = n)! Akkor H0 fennállása esetén a (ν1 , . , νr ) valószín¶ségi változó polinomiális elosahol a pi > 0, gyelést! Jelölje zlású: { PH0 (ν1 = n1 , . , νr = nr ) = n1 n! n1 !···nr ! p1 0, A alábbi tétel biztosítja, hogy a az totikusan · · · pnr r , ∑r i=1 n1 + · · · + nr = n, különben. ha (νi −npi )2 próbafüggvény aszimpnpi χ2 -eloszlású. 86. Tétel Ha (ν1 , , νr ) polinomiális eloszlású (vagyis a (3.1)-beli H0 fennállása esetén), akkor r ∑ (νi − npi )2 i=1 npi n és p1 , . , pr (pi > 0) paraméterekkel n ∞ esetén χ2 (r − 1) eloszlásban. A χ2 -eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. pi értékekt®l, csak r-t®l.
Megjegyzés. A határeloszlás nem függ a KolmogorovSzmirnov-próba. Ezt a próbát tiszta illeszkedésvizsgálat céljára használjuk olyan esetekben, mikor a háttéreloszlás folytonos. A próbastatisztika konstrukciójánál kihasználjuk a KolmogorovSzmirnov tételkört. 2.2 53 FELADATOK Egymintás eset (illeszkedésvizsgálat): H0 : P(X < x) = F (x), ∀x ∈ R (F adott folytonos eloszlásfüggvény). H1 : Jelölje F∗ van olyan x ∈ R, P(X < x) ̸= F (x). a tapasztalati eloszlást és legyen Dn = sup |Fn∗ (x) − F (x)|. x∈R Amennyiben x∗1 ≤ · · · ≤ x∗n az x = (x1 , . , xn ) mintarealizáció rendezett alakja, akkor Dn (x) = max max{|Fn∗ (x∗i ) − F (x∗i )|, |Fn∗ (x∗i + 0) − F (x∗i )|} = i = max max{| i i−1 i − F (x∗i )|, | − F (x∗i )|}. n n H0 fennállása esetén √ lim P( nDn < z) = K(z), ∀z ∈ R, Kolmogorov tétele alapján tudjuk, hogy n∞ ahol { 0, K(z) = ∑∞ i −2i i=−∞
(−1) e 2 2 z =1−2 ha ∑∞ i−1 −2i e i=1 (−1) 2 2 z , ha z ≤ 0, . z > 0, A Kolmogorov-eloszlás kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. 2.2 Feladatok 1. Igaz-e, hogy a tapasztalati korreláció mindig −1 és 1 közé esik? Mikor teljesülhet valamelyik egyenl®ség? Tipp: Alkalmazzuk a véges dimenzós CauchySchwarz-egyenl®tlenséget! Válasz: Igaz. { 1, − 1, 2. Legyen ha a két minta egymás pozítív számszorosa, ha a két minta egymás negatív számszorosa. X1 , . , Xn független, p paraméter¶ Bernoulli eloszlásból vett statisztikai minta. (a) Milyen eloszlású (b) Adjuk meg a ∑n i=1 k -adik Xi ? empirikus (tapasztalati) momentum eloszlását! 54 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (c) Adjuk meg a második empirikus (tapasztalati) centrális momentum eloszlását! Tipp: (a) Elemi számolás. (b) A diszkrét eloszlású valószín¶ségi változók függvény
eloszlásának számolása. (c) Alkalmazzuk az el®z® 2 pont eredeményét k = 1, 2-re. Válasz: (a) Bn (p). nk /n, (n − 1)k /n, . , 1/n, 0 számok valószín¶ségei ugyanazok, mint a Bn (p) eloszlásban az n, n − 1, . , 1, 0 értékek valószín¶ségei ( )2 ( )2 (n+1) n − (n+1) , . . . , − számok valószín¶ségei ugyanazok, mint 2n 2n a Bn (p) eloszlásban az n, n − 1, . , 1, 0 értékek valószín¶ségei (b) Az (c) X 1 , . , Xn 3. Legyen független, λ1 , . , λn paraméter¶ Poisson eloszlásból vett minta. (a) Milyen eloszlású (b) Adjuk meg Tipp: X ∑n i=1 Xi ? eloszlását! Alkalmazzuk a képletgy¶jteményt. Válasz: (a) nλ (b) A paraméter¶ Poisson. {0, 1/n, 2/n, . } értékeket ugyanazzal nλ paraméter¶ Poisson-eloszlás. a valószín¶ségel veszi fel, mint az 4. Legyen X1 , . , Xn ∼ N (µ, σ 2 ) független minta Milyen eloszlású X ? (Ad- juk meg a várható értéket és a szórásnégyzetet is!) Tipp: l.
képletgy¶jtemény Válasz: N (µ, σ 2 /n). 5. Legyen X√ 1 , . , Xn ∼ U(−1, 1) n · X? független minta. Aszimptotikusan milyen eloszlású Tipp: Számítsuk ki a U(−1, 1) eloszlás els® két momentumát és alka- lmazzuk a centrális határeloszlás-tételt. Válasz: N (0, 1/3). 2.2 55 FELADATOK X1 , . , Xn 6. Legyen nyel. Aszimptotikusan milyen Tipp: 1 f (x) = 2√ e− 2 √ eloszlású n · X? független minta √ 2|x| s¶r¶ségfüggvén- A feladatban szerepl® valószín¶ségi változók várható értéke 0, σ 2 , ez utóbbit az exponenciális eloszlás s¶r¶ségfüg- szórasnégyzetet jelölje gvényének és második momentumának ismeretében kiszámíthatjuk. Alkalmazzuk a centrális határeloszlás-tételt Válasz: Vegyük észre, hogy f (x) a teljes számegyenesen van értelmezve! N (0, 1). 7. Legyen X 1 , . , Xn független, minta. Milyen eloszlású Tipp: λ paraméter¶ exponenciális eloszlásból vett X?
keressük meg a képletgy¶jteményben a gamma eloszlás s¶r¶ségfüggvényét- Válasz: G(n, λ). n-edrend¶ λ paraméter¶ gamma eloszlás −k -adik momenk < n. ∫ Tipp: Számitsuk ki az 0∞ X −k f (x)dx integrált, ahol f (x) a G(n, λ) −k eloszlás s¶r¶ségfüggvénye. Használjuk ki azt a tényt, hogy x f (x) G(n − k, λ) s¶r¶ségfüggvényének konstansszorosa (l.képletgy¶jtemény abszolút 8. Számoljuk ki az tumát, ahol folytonos eloszlások). Válasz: λk (n−1).(n−k) 9. X1∗ < . rendezett minta. 10. Legyen < Xn∗ (a) Igazoljuk, hogy a [0, 1] X1∗ , . , Xn∗ intervallumon egyenletes eloszlásból vett nem függetlenek! 1−Xn∗ , . , 1−X1∗ szintén a letes eloszlásból vett rendezett minta! (b) Igazoljuk, hogy (c) Milyen eloszlású ∗ Xk+1 − Xk∗ , ahol [0, 1] intervallumon egyen- 1 ≤ k < n? Tipp: (a) Elemi logika. (b) Hivatkozzunk a egyenletes eloszlás szimmetriájára. (c) l. rendezett minta
elemeinek együttes s¶r¶ségfüggvénye Válasz: ∗ ∗ (a) Ha például X1 = 0, 001, akkor X2 felveheti a 0,002 értéket, míg ∗ ∗ ∗ ha X1 = 0, 99, akkor X2 nem veheti fel a 0,002 értéket, azaz X2 ∗ ∗ feltételes eloszlása X1 -ra nézve függ X1 értékét®l. 56 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (b) Mivel az egyenletes eloszlás szimmetrikus az X1 1/2 ponra, 1−Xn , . , 1− szintén egyenletes eloszlásból vett minta, igy a bel®le képzett ren- dezett minta szintén az egyenletes eloszlásból vett rendezett minta. (c) ∗ Xk+1 −Xk∗ valószín¶ségi változók azonos eloszlású (de nem független!) ∗ ∗ ∗ valószín¶ségi változók, Xk+1 −Xk eloszlása azonos az X1 valószín¶ségi változóeloszlásával, ami B(1, n) Béta eloszlású. 11. Legyen X1 , . , Xn független, az [a, b] intervallumon egyenletes eloszlásból X1∗ < . < Xn∗ pedig a bel®le gyártott rendezett minta Adjuk vett minta, meg Xk
eloszlás- és s¶r¶ségfüggvényét, valamint várható értékét! Tipp: l. a rendezett minta elemeinek eloszlását Válasz: Eloszlásfüggvény: n ( ) ∑ n Gn,k (x) = [F (x)]j [1 − F (x)]n−j j j=k és a s¶r¶ségfüggvény: gn,k (x) = n ahol F az ( ) n−1 [F (x)]k−1 [1 − F (x)]n−k F ′ (x), k−1 [a, b] várható érték intervallumon egyenletes eloszlás eloszlásfüggvénye. A a+b k 2 · n+1 . √ független minta az F (x) = ∗ függvénnyel. Adjuk meg Xk s¶r¶ségfüggvényét! 12. Legyen X1 , . , X n x (0 < x < 1) eloszlás- Tipp: Lásd az el® z® feladat megoldását! Válasz: 1[0,1] 1/2 · gn,k (x) = n ( ) √ n − 1 √ k−1 [ x] [1 − x]n−k x−1/2 k−1 X1∗ < . < Xn∗ a [0, 1] intervallumon egyenletes eloszlásból vett ∗ ∗ rendezett minta, és Y1 < . < Yn az el®z®t®l független, szintén a [0, 1] ∗ intervallumon egyenletes eloszlásból vett rendezett minta. Adjuk meg Xk − ∗ Yk
s¶r¶ségfüggvényét (1 ≤ k ≤ n)! 13. Legyen Tipp: Két független B(k, n−k+1) eloszlású valószín¶ségi változó különb- ségének s¶r¶sége a kérdés, ami konvolúcióval meghatározható. Figyeljünk az integrálás tartományára! Válasz: 14. Legyen X1∗ , . , Xn∗ a λ paraméter¶ exponenciális eloszlásból vett ren- dezett minta. (a) Adjuk meg a vényét! k -adik (1 ≤ k ≤ n) mintaelem eloszlás- és s¶r¶ségfügg- 2.2 57 FELADATOK (b) Milyen eloszlású a ∗ δk := Xk+1 − Xk∗ , ahol 1 ≤ k < n? Tipp: (a) Alkalmazzuk a 12 feladatot, F (x) helyébe 1 − exp(−λx)-et írva. (b) Alkalmazzuk az exponenciális eloszlás örökifjú tulajdonságát. Válasz: (a) ( fn,k (x) = n ahol (b) ) n−1 [F (x)]k−1 [1 − F (x)]n−k f (x) k−1 F (x) = 1 − exp(−λx)-et és f (x) = λ exp(−λx). δk ∼ Exp[(n − k)λ]. X 1 , . , Xn 15. Legyen független, a (θ − 21 , θ + 21 ) intervallumon
egyenletes eloszlású minta. Legyen T (X) = Határozzuk meg Tipp: T (X) g(z) X1∗ + Xn∗ . 2 s¶r¶ségfüggvényét! Lásd A rendezett minták elemeinek együttes s¶r¶ségfüggvényér®l tanultakat! Ha X Y és valószín¶ségi változók együttes s¶r¶ségfüggvénye Z = X +Y ∫ g(z) = f (x, z − x)dx a konvolúcióhoz hasonlóan a gvénye: f (x, y), akkor valószín¶ségi változó s¶r¶ségfüg- Figyeljünk az integrálás tartományára, és használjuk fel azt a tényt, hogy a keresett s¶r¶ségfüggvény szimmetrikus Válasz: { g(z) = 16. Igazoljuk, hogy ha θ-ra! n · [1 + 2(z − θ)]n−1 , ha z < θ, n/2 · [1 − 2(z − θ)]n−1 , ha z > θ n > 1, függ a paramétert®l, akkor X1 nem elfajult és s¶r¶ségfüggvénye valóban T (X) = X1 semmilyen paraméterre sem elégséges! és Tipp: Használjuk fel elégséges statisztika denícióját! Válasz: Legyen két mintánk: X1 és X2 . A függetlenség együttes
s¶r¶ségfüggvényének feltételes s¶r¶ségfüggvénye pen X2 miatt kettejük X1 -re nézve ép- s¶r¶ségfüggvénye, ami természetesen függ a paramétert®l. 17. Igazoljuk, hogy a rendezett minta minden paraméterre elégséges statisztika! Tipp: X1 , . , Xn független azonos eloszlású valószín¶ségi fθ (x) s¶r¶ségfüggvénye, ahol θ egy paraméter. Legyenek Legyen az változók közös 58 FEJEZET 2. X1∗ , . , Xn∗ ELISMERETEK 2.: STATISZTIKAI ALAPOK a fenti valószín¶ségi változókból készített rendezett minta ele- mei. Mutassuk meg hogy az eredeti f (x1 , , xn ) s¶r¶ségfüggvény rekon∗ ∗ ∗ struálható a rendezett minta f (x1 , . , xn ) s¶r¶ségfüggvénye alapján! Válasz: f {x1 , . , xn } = 1(xπ(1) ≤···≤xπ(n) ) f ∗ (xπ(1) , , xπ(n) ) ahol π az a permutació ami szerint az aktuális minta rendezetté válik. Emögött az a heurisztikus tény húzódik meg, hogy ha van egy független
mintánk valamely F eloszlásból, azt rendezzük, majd a rendezett mintából véletlenszer¶en visszatevés nélkül kiválásztjuk a mintaelemeket, akkor ismét egy független mintát kapunk ugynabból az 18. Legyenek X1 , . , Xn független, a Xn∗ a ból vett minta! Igaz-e, hogy Tipp: F eloszlásból. [0, θ] intervallumon egyenletes eloszlásθ paraméterre elégséges statisztika? l. képletgy¶jtemény abszolút folytonos eloszlások és alkalmazzuk a Neyman-Fisher faktorizációt. Válasz: Igen. 19. Tegyük fel, hogy T statisztika torzítatlan becslése intsünk egy tetsz®leges becslése S statisztikát. Igaz-e, hogy θ paraméternek. TekE(T |S) is torzítatlan θ-nak? Tipp: Alkalmazzuk feltételes várható érték tulajdonságait, Válasz: Igen, mert E(E(T |S)) = E(T ). 20. Legyen X valószín¶ségi változó, amelynek létezik a szórása. (a) Tegyük fel, hogy ismert az E(X) = θ várható érték. Igazoljuk, hogy ∑n S12 = n1 i=1 (Xi − θ)
torzítatlan becslése a szórásnégyzetnek! Mit mondhatunk a konzisztenciáról? ∑ n 1 2 i=1 (Xi − X) n empirikus szórásnégyzet nem torzítatlan becslése a szórásnégyzetnek! (b) Az (a) pont segítségével igazoljuk, hogy az Sn2 = Készítsünk segítségével torzítatlan becslést! Tipp: (a) Közvetlen számolás. Alkalmazzuk a nagy számok törvényét ( keressük meg a képletgy¶jteményben). (b) Közvetlen számolás. Válasz: (a) Er®sen konzisztens. (b) Az Sn∗2 = 1 n−1 ∑n i=1 (Xi − X)2 torzítatlan becslés. 21. Tekintsünk az alábbi eloszlásokból egy statisztikát az ismeretlen paraméterre! n elem¶ mintát! Adjunk elégséges 2.2 59 FELADATOK (a) p (b) (5, p) paraméter¶ paraméter¶ negatív binomiális eloszlás, paraméter¶ geometriai eloszlás, (c) (3, p) (d) G(2, λ), (e) G(α, 2), (f ) θ = (α, λ) (g) N (µ, 1), (h) N (0, σ 2 ), (i) N (µ, σ 2 ), (j) m (k) (l) [−α, α] Tipp: binomiális
eloszlás, paraméter¶ Gamma eloszlás, χ2 szabadságfokú θ = (a, b) B5 (p) eloszlás, paraméter¶ Béta eloszlás, intervallumon egyenletes eloszlás. l. képletgy¶jtemény nevezetes eloszlások, továbbá használjuk a Neyman-Fisher faktorizációt (l. elégséges statisztika) Válasz: (a) Pl. X1 + . + X n , (b) pl. X1 + . + Xn , (c) pl. X1 + . + Xn , (d) pl. X1 + . + Xn , (e) pl. X1 · . · Xn , (f ) pl.X1 X 1 · . · Xn , X1 + . + Xn , (h) pl. X12 + . + Xn2 , (i) pl. X1 + . + Xn , (j) pl. X1 + . + Xn , X12 + + Xn2 , ∏n ∏n i=1 Xi , j=1 (1 − Xj ), (k) pl. X1 , . , Xn független, vett minta. A Tipp: X12 + . + Xn2 , max{−X1∗ , Xn∗ }. (l) pl. 22. + . + Xn , (g) pl. θ θ = (r, p) paraméter¶ negatív binomiális eloszlásból paraméterre elégséges statisztika-e a mintaátlag? l. képletgy¶jtemény diszkrét eloszlások és Neyman-Fisher faktor- izáció (l. elégséges statisztika) Válasz:
Nem, itt két paraméterre kell elégséges statisztikát adni! 23. Elégséges statisztika-e θ paraméterre Lθ (X) (ahol Lθ a likelihood-függvény)? Tipp: Elemi logika. Válasz: Nyilván nem, hiszen benne van a paraméter. 60 FEJEZET 2. 24. Legyenek ELISMERETEK 2.: STATISZTIKAI ALAPOK X1 , . , Xn független, λ paraméter¶ Poisson eloszlású valószín¶ségi változók. (a) Igaz-e, hogy (b) Adjunk a λ X elégséges statisztika a λ paraméterre! paraméterre a fentit®l különböz® elégséges statisztikát! Tipp: (a) l. képletgy¶jtemény diszkrét eloszlások és Neyman-Fisher faktorizáció (b) L. elégséges statisztika tulajdonságait Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaösszeg és annak invertálható függvényei (utóbbiak a minimális megoldások) 25. Legyen X1 , . , Xn λ paraméter¶ exponenciális eloszlásból vett független minta. (a) Igaz-e, hogy (b) Adjunk a λ ∑n i=1 Xi elégséges
statisztika a λ paraméterre? paraméterre más elégséges statisztikákat! Tipp: (a) Írjuk fel a likelihood függvényt azaz az X 1 , . , Xn együttes s¶r¶ség- függvényét (l. képletgy¶jtemény abszolút folytonos eloszlások) (b) L. el®z® feladat Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaátlag, a mintaösszeg invertálható függvényei (utóbbiak a minimális megoldások). 26. Legyen X1 , . , Xn (a) Adjuk meg a független, p p paraméter paraméter¶ geometriai eloszlású minta. Y maximum likelihood becslését! (b) Alkalmasan transzformálva tegyük Y -t torzitatlan becsléssé! Tipp: (a) Közvetlen számolás. (b) Keressük meg a képletgy¶jteményben a negatív binomiális eloszlást, és okoskodjunk az E(1/X) kiszámításához hasonló módon, ugyanis a negatív binomiális eloszlás éppolyan általánosítása a geometriai eloszlásnak, mint a gamma eloszlás az exponenciális eloszlásnak. 2.2 61
FELADATOK Válasz: n Y n−1 (b) Y −1 . Vegyük észre, hogy ez a képlet (a) X1 , . , Xn 27. Legyen független, a n = 1-re nincs értelmezve! [θ + 12 , θ − 12 ] intervallumon egyenletes eloszlású minta. (a) X torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzí- tatlan becslést! (b) Xn∗ − 12 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével Xn∗ − 1 2 gyengén konzisztens becslései torzítatlan becslést! X (c) Igazoljuk, hogy er®sen és θ-nak! Tipp: (a) A mintaátlag torzitatlan becslése a várható értéknek. Xn∗ − 1 2 valószín¶ségi változó várható értékjét (l. a rendezett minták-ról szóló paragrafust). (b) Számítsuk ki az Y2 = Xn∗ − 1 2 becslések gyenge konzisztenciájá2 2 nak igazolásához számitsuk ki E(Y1 − θ) és E(Y2 − θ) négyzetes rizikókat és alkalmazzuk Csebisev-egyenl®tlenséget. Az Y1 becslés Y1 = X (c) Az és az a nagy számok
er®s törvénye miatt er®sen konzisztens, míg az négyzetes rizikója kisebb nagyságrend¶, mint az Y1 Y2 becslésé. ( A szükséges információkat keressük meg a képletgy¶jteményben és a rendezett minták-ról szóló paragrafusban). Válasz: (a) Igen. (b) Nem, de az Y2 + 1/(n + 1) már torzítatlan. (c) Az X er®s konzisztenciája az Útmutatás alapján nyilvánvaló, míg az Xn∗ − 12 gyenge konzisztenciája nyilvánvaló az Útmutató alapján (az er®s konzisztencia is igaz, de az (egyszer¶) bizonyítás eszköze nem szerepel a Tananyagban). 28. Legyen X 1 , . , Xn független, a [0, θ] intervallumon egyenletes eloszlású minta. (a) Adjunk maximum likelihood becslést (b) Igazoljuk, hogy (c) Mivel a θ/2-re 2X θ-ra! torzítatlan becslés θ-ra! szimmetrikus az eloszlásunk, a medián egybeesik a várható értékkel. Tegyük fel, hogy n páratlan, és készítsünk a tapaszθ-ra! talati medián segítségébel torzítatlan becslést 62
FEJEZET 2. (d) ELISMERETEK 2.: STATISZTIKAI ALAPOK X1 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (e) X1∗ torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (f ) Xn∗ torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (g) A fenti becslések közül melyik konzisztens? (h) Számítsuk ki és hasonlítsuk össze a fenti torzítatlan becslések szórásnégyzetét! Melyik a leghatásosabb? (i) Teljesül-e az In (θ) = nI1 (θ) összefüggés? Teljesül-e minden esetben a Cramér-Rao egyenl®tlenség? (j) Igazoljuk, hogy Xn∗ elégséges statisztika θ-ra. Segítségével blackwellizáljuk a fenti torzítatlan becsléseket! Tipp: (a) Vigyázzunk, a linelihood-függvény nem mindenütt deriválható! (b) A mintaátlag mindig torzítatlan becslése a várható értéknek, ami itt θ/2. (c) Legyen n = 2k +1, mivel két egymást
követ® rendezett minta különb- ségének várható értéke θ 2k+2 . (d) Nyilvánvaló. (e) E(X1∗ ) = θ/(n + 1). (f ) E(Xn∗ )θn/(n + 1) (g) Vizsgáljuk meg a szórásnégyzetüket! (h) θ=1 (i) A 2X esetén ismert mindegyik, használjuk ki! szórásnégyzete θ2 3n , I1 (θ) = 1 θ2 . (j) A rendezett mintákon alapuló becslésekre alkalmazzuk a következ® k ∗ ∗ ∗ heurisztikát: E(Xk |xn ) = n+1 |xn . Ami a 2X -ot illeti, hasonló heurisztika n−1 ∗ ∗ ∗ alapján: tetsz®leges n-re E(Xn |Xn ) = 2n Xn + f rac1nXn . Válasz: (a) Xn∗ (b) 2X (c) a tapasztalati medián kétszerese (jelölje ezt slése. (d) θ̂1 = 2X1 . (e) θ̂2 = X1∗ (n + 1). (f ) θ̂3 = Xn∗ (n + 1)/n. θ̂0,5 ) θ torzitatlan bec- 2.2 63 FELADATOK (g) θ̂1 (h) θ̂2 a leghatásosabb, de a θ̂0,5 szórásnégyzetének is ugyanekkora a 2 nagyságrendje (∼ 2/n ), elég nagy n-re ez is meghaladja az nI1 (θ) = n θ 2 információs határt. (i) A
Cramér-Rao egyenl®tlenség n 2X nagy értékeire csak a és a θ̂1 -re nem teljesül. Xn∗ statisztika elégségessége következik a Neyman-Fisher szorzattételb®l, gyelembevéve, hogy a likelihood függvény alakja Lθ (x) = 1 ∗ θ · 1{0≤xn ≤θ} . Valamennyi blackwellizált: θ2 (j) Az 29. Legyen X1 , . , X n független, a [−θ, θ] intervallumon egyenletes eloszlású minta. (a) Adjunk θ-ra torzítatlan becslést |X| segítségével! (b) Konzisztens-e a fenti becslés? Tipp: (a) Alkalmazzuk a következ® heurisztikus meggondolást: az független, a [−θ, θ] X 1 , . , Xn intervallumon egyenletes eloszlású mintát ugy is kisorsolhatjuk, hogy a [0, θ] Y1 , . , Yn p= Xk (2ε − 1)Yk intervallumon kisorsolunk az független mintát, valamint egy t®lük és egymástól is független 1/2 ε1 , . , εn Bernoulli-mintát Legyen k -ra. Ilymódon a feladatot visszavezettük az el®z® feladat (f ) paraméter¶ minden pontjára.
(b) Az el®z®ek alapján nyilvánvaló. Válasz: (a) (b) θ̂ = 2|X| (c) Igen. 30. Legyenek X1 , X2 , X3 rendre N (µ, 1), N (µ, 4), N (µ, 1/4) eloszlású független mintaelemek. (a) Milyen a, b, c értékekre lesz aX1 + bX2 + cX3 a, b, c választással kapjuk meg a leghatásosabb becslést a torzítatlan becslése µ-nek? (b) Milyen torzítatlanok közül? Tipp: A becslés akkor lesz torzitatlan, ha becslést akkor kapjuk meg, ha az a, b, c a + b + c = 1. Az optimális súlyok fordítottan arányosak a valószín¶ségi változók szórásnégyzeteivel (pl. Lagrange multiplikátor modszerrel igazolható) Válasz: a = 16 273 b= 1 273 c= 256 273 64 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK X1 , . , Xn független, θ paraméter¶ Bernoulli eloszlású mintát Y1 , . , Yn független amely háttérváltozója θ valószín¶séggel 1, 1 − θ valószín¶séggel 31. Tekintsük az és számítsuk ki a Fisher-információját! Tekintsük az
mintát is, −1 értéket vesz fel. Számítsuk ki ennek is a Fisher-információját és vessük össze az el®bb meghatározott információval! Tipp: Jelöljük 0, x = 1, illetve pθ (x)-szel annak a valószín¶séggét, hogy X = x. Itt x = x = −1, x = 1. Alkalmazzuk Cramér-Rao egyenl®tlenség paragrafusban szerepl® deníciót: ( I1 (θ) = illetve Válasz: 32. Legyen pθ (0) ( I1 (θ) = Mindkét esteben X1 , . , Xn )2 ∂ ∂θ pθ (0) )2 ∂ ∂θ pθ (−1) pθ (−1) In (θ) = független, p ( + )2 ∂ ∂θ pθ (1) pθ (1) ( + , )2 ∂ ∂θ pθ (1) pθ (1) , n θ(1−θ) paraméter¶ Bernoulli eloszlású minta. (a) Adjunk maximum likelihood becslést p-re! 2 (b) Számítsuk ki Dp (X)-ot is! Mit mondhatunk a CramérRao-egyenl®tlenség alapján? (c) Szeretnénk p-re torzítatlan becslést adni. Mekkora legyen szeretnénk, hogy becslésünk szórása ne haladja meg 0,03-at n, ha azt p bármely értéke esetén sem? Tipp: (a) Az M-L
becslés denicióját lásd a Becsléselmélet paragrafusban (b) Közvetlen számolás, az informaciós határt illet®en lásd az el®z® feladatot! (c) Legyen ez a becslés a (p̂ = X). Az el®z® pontban már kiszámítottuk D2p (X)-ot Keressük meg a max0≤p≤1 p(1−)p-t Válasz: (a) p̂ = (X). (b) D2p (X) = p(1−p) . A becslés hatásos, a Cramér-Rao egyenl®tlenségben n itt egyenl®ség all. (c) A 33. Legyen D2p (X) maximuma X1 , . , Xn 1 4n Ennek alapján független, ( n= 1 0,06 )2 . λ paraméter¶ exponenciális eloszlású minta. (a) Adjunk maximum likelihood becslést λ-ra! 2.2 65 FELADATOK (b) Számoljuk ki a minta Fisher-információját! (c) 1/X nem torzítatlan becslése a ségével X (d) Az η̂ λ paraméternek. Készítsünk segít- torzítatlan becslést és számoljuk ki η̂ szórásnégyzetét! elégséges statisztika segítségével blackwellizáljuk a fenti torzí- tatlan becslést! (Ismert, hogy az így kapott
becslés hatásos becslése λ-nak. Ellentmond-e ez a CramérRao egyenl®tlenségnek?) Tipp: (a) Alkalmazzuk a deníciót (l. képletgy¶jtemény és Becsléselmélet) (b) Alkalmazzuk a Cramér-Rao egyenl®tlenség megfelel® formuláját. (c) 1/X λ nem torzítatlan becslése a paraméternek. (d) A számoláshoz használjuk a Gamma eloszlást (l. képletgy¶jtemény), ennek alapján X (e) Az η̂ 1/X az statisztika alkalmas konstanszorosa lesz. Lásd az el®bbi észrevételt. Válasz: (a) 1/X . (b) In (λ) = (c) η̂ = 34. Legyen n−1 , nX η̂ (d) Az n λ2 D2 (η̂) = λ2 n2 (n−1)2 (n−2) becslés blackwellizáltja önmaga. X1 , . , Xn független, (2, λ) paraméter¶ Gamma eloszlású minta. (a) Adjunk maximum likelihood becslést (b) Adjunk becslést λ-ra λ-ra! a momentumok módszerével! (c) Torzítatlan becslése-e X1 statisztika a 1/λ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (d) Torzítatlan
becslése-e 1/X1 λ statisztika a paraméternek? Ha nem, készítsünk segítségével torzítatlan becslést! (e) Torzítatlan becslése-e 1/X statisztika a λ paraméternek? Ha nem, készítsünk segítségével torzítatlan becslést! ∑n i=1 Xi elégséges statisztika a λ paraméterre! Segítségével blackwellizáljuk a fenti torzítatlan becsléseket! (f ) Igazoljuk, hogy Tipp: Válasz: 35. Legyen X1 , . , Xn ∼ N (µ, 1) (a) Igazoljuk, hogy X1 független minta. torzítatlan, de nem konzisztens becslése Mit mondhatunk a CramérRao-egyenl®tlenség alapján? µ-nek! 66 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (b) Számítsuk ki a minta Fisher-információját! Számítsuk ki is! Igazoljuk, hogy X hatásos becslése (c) Torzítatlan becslése-e µ 2 -nek D2µ (X)-ot µ-nek! X1 X2 ? Mennyi a szórásnégyzete? Mondhatunk- e valamit a CramérRao-egyenl®tlenség alapján? (d) Torzítatlan becslése-e µ2 -nek X 2 ? Ha nem,
tegyük azzá, és számítsuk ki a szórásnégyzetét! Tipp: Válasz: 36. Legyen X1 , . , Xn ∼ N (0, ϑ) (ϑ = σ 2 ) független minta. (a) Adjuk maximum likelihood becslést 2 (b) Igazoljuk, hogy S1 1 n = ∑n ϑ-ra! 2 i=1 Xi hatásos becslése σ 2 -nek! (c) Igazoljuk, hogy a korrigált empirikus szórásnégyzet nem hatásos bec2 slése a σ paraméternek! Tipp: (a) Alkalmazzuk a deniciót (l.Becsléselmélet) (b) Számítsuk ki a minta ). és a ϑ̂ ϑ̂-ra vonatkozó Fisher-információját (l. Cramér-Rao M-L becslés szórásnégyzetét (c) Közvetlen számolás. Válasz: 1 n ∑n (a) S12 = (b) In (ϑ) = 37. Legyen i=1 1 2ϑ2 , Xi2 D2 (ϑ̂) = 2ϑ2 . X1 , . , Xn (a) Vegyük λ független, λ paraméter¶ Poisson eloszlású minta. maximum likelihood becslését! Minden realizáció mellett létezik-e maximum likelihood becslés? (b) Igazoljuk, hogy a maximum likelihood módszerrel kapott becslés torzítatlan és számítsuk ki a
szórásnégyzetét! Mit mondhatunk a Cramér Rao-egyenl®tlenség alapján? (c) Igazoljuk, hogy X1 λ-nak! Az X X1 becslést! is torzítatlan becslése statisztika segítségével blackwellizáljuk az (d) Torzítatlan becslése-e λ-nak az empirikus szórásnégyzet? Ha nem, tegyük azzá! Hatásos becslést kapunk-e így? (e) A fenti becslések közül melyik konzisztens? Tipp: (a) Közvetlen számolás. elégséges egyenl®tlenség 2.2 67 FELADATOK (b) Közvetlen számolás; számítsuk ki a minta In (λ) Fisher-információját. (c) Közvetlen számolás. Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre, hogy az X1 , . , Xn mintaelemek szerepe szim- metrikus! (d) Vegyük észre, hogy empirikus szórásnégyzet mindig torzítatlan becslése a szórásnégyzetnek. Alkalmazzuk konzisztencia paragrafusban a szóránégyzet becslésére megfogalmazott állítást! (e) Alkalmazzuk az el®z® részfeladatok eredményeit! Válasz: (a)
Igen. (b) Az információs határ eléretik, tehát a M-L becslés hatásos. (c) A mintaátlag (azaz a M-L becslés) lesz a blackwellizált. (d) Igen. A becslés nem lesz hatásos, bár ennek ellen®rzése az Útmutatás alapján hosszadalmas, a cáfolathoz elegend® λ egyetlen értékére elvégezni a számolást. (e) (c) kivételével mindegyik. 38. Legyen X1 , . , Xn ∼ Bin(5, p) (a) Vizsgáljuk meg a maximum likelihood és a momentumok módszerével kapott becslések torzítatlanságát és hatásosságát! (b) Számítsuk ki a minta Fisher-információját! Tipp: Válasz: 39. Adjunk becslést a negatív binomiális eloszlás paramétereire momentumok módszerével! Tipp: Válasz: 40. Tekintsük az p pa , p+1 x fa,p (x) = 0 ha különben a, p > 0 paraméterek. Adjunk θ = (a, p)-re! Tegyük fel, hogy p > 2. Adjunk s¶r¶ségfüggvény¶ Pareto-eloszlást, ahol maximum likelihood becslést becslést Tipp: Válasz: θ-ra x ≥ a, a momentumok
módszerével! 68 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 41. Tekintsünk egy kételem¶ független, mintát! A (µ, σ) (µ, 1) paraméter¶ Cauchy eloszlású paraméter¶ Cauchy eloszlás s¶r¶ségfüggvénye: fµ,σ (x) = π(σ 2 σ . + (x − µ)2 ) (a) Adjunk maximum likelihood becslést µ-re az x1 , x2 realizáció segít- ségével! (b) Tudunk-e becslést adni momentumok módszerével? Használjuk ki, hogy 1-nél kisebb momentumok is léteznek! Tipp: Válasz: 42. Legyen X1 , . , Xn független, [a, b] intervallumon egyenletes eloszlású minta (a) Adjunk becslést (a, b)-re a momentumok módszerével! (b) Adjunk maximum likelihood becslést (a, b)-re! Tipp: Válasz: X1 , . , Xn ∼ N (µ, σ 2 ) független minta Tudunk-e adni 1 − ε megbízhatósági szint¶ kondencia intervallumot σ -ra 43. Legyen (a) X−µ √ , σ/ n (b) 2 nSn 2 σ 2 (Sn = 1 n ∑n i=1 (Xi − µ)2 ) segítségével? Tipp: (a) Vizsgáljuk meg milyen
statisztika alapján kellene kondencia intervallumot adni! (b) Vizsgáljuk meg milyen statisztika alapján kellene kondencia intervallumot adni! Válasz: X−µ √ statisztika standard normális eloszlású, ebb®l σ/ n egyik paraméterre sem vonhatunk le következtetést. (a) Nem, mert a 2 nSn 2 σ 2 statisztika χ (n) eloszlású, ebb®l egyik paraméterre sem vonhatunk le következtetést. (b) Nem, mert a 44. Egy cukorgyárban kockacukrokat gyártanak Tegyük fel, hogy a cukrok élhossza közelít®leg normális eloszlású. Megmérjük 16 cukor élhosszúságát Az adatok átlaga 10,06 mm, tapasztalati szórása 0,46 mm. Adjunk 95% 3 megbízhatósági szint¶ kondencia intervallumot µ -re (azaz egy átlagos kockacukor térfogatára)! 2.2 69 FELADATOK Tipp: Alkalmazzuk a kondencia intervallum paragrafus példáját stan- dard normális eloszlás helyett a t(15) Student eloszlással a kocka élhosszára, x3 függvény monoton. majd használjuk fel azt a
tényt, hogy az Válasz: Táblázatból ismert, hogy ha X ∼ t(15), akkor P(X > 2, 12) = 0, 975 így a kocka élére a 10, 06±2, 12·0, 46/4 intevallum 95megbízhatósági 3 3 szint¶ kondencia intervallum. A térfogatra a [945, 87mm , 1093, 94mm ] nem szimmetrikus kondencia intervallumot kapjuk. X1 , . , Xn ∼ N (µ1 , σ 2 ) és Y1 , , Ym ∼ N (µ2 , σ 2 ) független minták. Adjunk 1 − ε szint¶ kondencia intervallumot µ1 − µ2 -re X − Y segítségével ((n, m, σ) ismert!) 45. Legyenek Tipp: várható éeték¶ valószín¶ségi változó határozzuk meg σe2 szórásn- egyzetét, majd alkalmazzuk kondencia intervallum paragrafusban kidolgozott példát µ = µ1 − µ2 -re Válasz: σe2 = σ12 n + . σ22 m A kondencia intervallum: X −Y ± σe · Φ−1 (1 − ε/2) √ n X1 , . , Xn ∼ N (µ1 , σ12 ) és Y1 , , Ym ∼ N (µ2 , σ22 ) független Adjunk 1 − ε szint¶ kondencia intervallumot σ1 /σ2 -re! 46. Legyenek
minták. Tipp: Tekintsük az ∑n 2 j=1 (Xj −µ1 ) η= n ∑m 2 j=1 (Yj −µ2 ) n σ22 statisztikát, vegyük észre, hogy η σ12 ∼ F (n, m). a ξ egy F (n, m) F1 (F2 ) értéket amelyre Jelöljön eloszlású valószín¶ségi változót; keressük meg azt az P (ξ < F1 ) = ε/2 (P (ξ > F2 ) = ε/2) Válasz: A P( ) argumentumát alkalmas átrendezése a P (η/F2 < σ12 ) = ε/2 σ22 és σ12 < η/F1 = 1 − ε/2 σ22 egyenl®ségre vezet. 47. Legyen X1 , . , Xn vett minta. Adjunk független, a 1−ε θ-ra (a) X1 + X2 , (b) Xn∗ Tipp: segítségével! [0, θ] intervallumon egyenletes eloszlásból megbízhatósági szint¶ kondencia intervallumot 70 FEJEZET 2. 2.10 ábra ELISMERETEK 2.: STATISZTIKAI ALAPOK P (ξ < F1 ) = ε/2 (P (ξ > F2 ) = ε/2) (a) Nyilvánvaló, hogy a minta töredékével (X1 + X2 ) túlságosan tág kon- dencia intervallumot kapunk. (b) Alsó határnak az maga az Xn∗ megfelel,
hiszen θ nem lehet ennél fels® határ meghatározásához vegyünk egy 0 < δ < θ ∗ ∗ számot és vizsgáljuk a P (δ < Xn < θ) = P (θ < Xn + δ) = 1 − ε ( θ−δ )n valószín¶séget. A jobb oldal valószín¶sége 1 − , ami egyenl® θ 1−ε-nal. Ebb®l δ -ra kapunk egy egyenletet Oldjuk meg és rendezzük kisebb. A θf át a középs® valószín¶ség argumentumát. Válasz: (a) Az X1 + X2 eset irreleváns. (b) A javasolt számitásokat eredménye: θf = Xn∗ /ε1/n . X1 , . , Xn független, λ paraméter¶ Poisson eloszlású minta λ-ra 1 − ε megbízhatósági szint¶ kondencia intervallumot 48. Legyen junk Ad- (a) a Csebisev-egyenl®tlenség felhasználásával! (b) a centrális határeloszlás-tétellel! Tipp: (a) A Csebisev-egyenl®tlenséget az X−λ valószín¶ségi változóra írjuk fel: P ((X − λ)2 > a2 ) ≤ D2 , a2 2.2 71 FELADATOK ahol D2 = λ/n. Ha a kondencia intervallumot X ± re p
alakban ker- essük, akkor a fenti egyenl®tlenség helyett vegyünk egyenl®séget és λ D2 tegyük fel, hogy a2 = ε, azaz a = nε Ezt az értéket írjuk be az egyenl®tlenség jobb oldalába. Így λ-ra kapunk egy másodfokú egyenletet 2 (b) Lásd a kondencia intervallum pargrafusban az N (µ, σ0 ) re kidolgo2 zott példát. Itt σ0 = λ, ezért, ha X ± rε alakban keressük a kondencia intervallumot Válasz: (a) Az egyenlet két megoldása: λ1,2 = 2(X + a2 ) ± √ 2 (2X + a2 )2 − 4X 2 , Ezek lesznek a kondencia határok. (b) −1 √ másodfokú egyenletnek rε = X−y lesz, ahol y az (1−y)2 − Φ (1−ε/2)y n √ az a megoldása amelyre rε 1/ n nagyságrend¶. n-szer egy kísérletet, legyen az A esemény bekövetkezéseinek Kn . Szerkesszünk rá 1 − ε megbízhatósági szint¶ kondencia intervallumot p = P(A)-ra n = 10 és n = 10000 esetén is! 49. Végezzünk el száma Tipp: Válasz: 50. Legyen X 1 , . , Xn független, a (θ −1/2, θ
+1/2) intervallumon egyenletes eloszlású minta. Adjunk 1 − ε megbízhatósági szint¶ kondencia interval∗ ∗ lumot θ -ra T (X) = (X1 + Xn )/2 segítségével! Tipp: Válasz: 51. Legyen X erkesszünk X eθ−x , ha x > θ . Sz1−ε megbízhatósági szint¶ kondencia intervallumot a θ paraméterre egy egyelem¶ minta, s¶r¶ségfüggvénye segítségével! Tipp: Válasz: 52. Legyen X1 , . , Xn független, λ paraméter¶ exponenciális eloszlású minta. (a) Konstruáljunk ε terjedelm¶ próbát λ-ra X1∗ (b) Konstruáljunk ε terjedelm¶ próbát λ-ra 1/X (c) A fenti próbák közül melyik konzisztens? segítségével! alapján! 72 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Tipp: Válasz: 53. Valódi (θ ) selejtarányra szeretnénk min®ségellen®rzést Vegyünk egy n= X1 , . , Xn Konstruáljunk ε = 0, 05 terjedelm¶ (randomizált) próbát a H0 : θ = θ0 = 0, 05 és H1 : θ = θ1 = 0, 1 választáshoz! Határozzuk meg
a másodfajú hibát is. A B(25, 0, 05) (F0 ) és a B(25, 0, 1) (F1 ) binomiális eloszlásokról az alábbi adatok ismertek: 25 elem¶ független Bernoulli-mintát: F0 (2) = 0, 873 F0 (3) = 0, 9, 66 P0 (3) = 0, 093 F1 (2) = 0, 873 F1 (3) = 0, 9, 66 P1 (3) = 0, 093, ahol P0 (3) ( P1 (3)) annak a valószín¶sége, hogy egy B(25, 0, 05) (B(25, 0, 1)) eloszlású valószín¶ségi változó pontosan a 3 értéket veszi fel. Tipp: Alkalmazzuk a NeymannPearson-lemmát. Vegyük észre, hogy az így konstrált próba kritikus tartománya lev® selejtes termékek x x>c alakú, ahol x a mintában száma. Látható, hogy olyan kritikus tartomány nincs, amely pontosan 0,05 terjedelem¶ próbát adna, (F0 (2) 0, 95), ezért randomizálnunk kell. Keressük meg azt a < 0, 95, F0 (3) > δ > 0 számot, F0 (2) + δP0 (3) = 0, 95. amelyre x > 3 Döntésünk: ha elvetjük a null-hipotézist, ha x = 3 akkor1 −δ valószín¶séggel vetjük el a
null-hipotézist. A másodfajú hiba kiszámításához határozzuk meg a B(25, 0, 1) binomiális eloszlás szerinti valószín¶ségét annak az eseménynek, hogy a null-hipotézst elfogadju, azaz Válasz: x≤2 plusz δ · P1 (3). A döntésben szerepl® szorzó δ = 0, 828, a másodfajú hiba való- szín¶sége 0,725. X1 egy egyelem¶, p paraméter¶ geometriai eloszlású minta. A H0 : p = 0,5 versus H1 : p = 0,9 esetén a mekkora a terjedelme annak 54. Legyen a véletlenített próbának, amelynek próbafüggvénye k≥3 0 0,5 k = 2 Ψ(X1 ) = 1 k=1 Adjuk meg a másodfajú hiba valószín¶ségét is! Tipp: Az el®z® feladathoz hasonló módon járunk el, azzal a könnyebb- séggel, hogy itt a próbafüggvény adott és a hibavalószín¶ségeket kell kiszámítani. (A geometriai 2.2 73 FELADATOK eloszlás megfelel® valószín¶ségeit l. képletgy¶jtemény) Válasz: Terjedelem: 0,375. Másodfajú hiba 0,046. 55. Legyen X1 , . , Xn λ
paraméter¶ exponenciális eloszlású minta. H0 : λ = λ0 és H1 : λ = λ1 > λ0 egyszer¶ alε terjedelm¶ próbát a Neyman-Pearson alaplemma független, Konstruáljuk meg a ternatívához tartozó segítségével! Tipp: ∑ Mivel n az Y = NeymannPearson-lemmában szerepl® likelihood hányados j=1 Xj monoton függvénye (a monotonitás iránya függ λ0 és λ1 viszonyátol) a próbafüggvény λ1 > λ 0 esetben { Ψ(Y ) = alakú lesz. Ha Válasz: 0 Y ≥c 1 Y <c F ∼ G(n, λ0 ) akkor a c = F −1 (ε) lesz az alkalmas konstans. Az Útmutató alapján c értéke konkrét n és λ0 értékekre kiszá- molható, l. ábra 56. X1 , . , Xn ∼ N (0, σ 2 ) független minta Konstruáljuk meg a H0 : σ = σ0 és H1 : σ = σ1 egyszer¶ alternatívához tartozó ε terjedelm¶ próbát a Neyman-Pearson alaplemma segítségével! Tipp: ∑ Mivel n az Y = NeymannPearson-lemmában szerepl® likelihood hányados 2 j=1 Xj monoton függvénye (a
monotonitás iránya függ σ0 és σ1 viszonyától). Válasz: σ1 > σ0 esetben { 0 Y ≤c Ψ(Y ) = 1 Y >c A próbafüggvény alakú lesz. Ha 57. Írjuk fel F ∼ χ2 (n) akkor a c = F −1 (1−ε) lesz az alkalmas konstans. n elem¶ mintára a likelihood-hányados próba λn (X) statisztikáját, ahol (a) (b) (c) (d) X ∼ geom(p) és H0 : p = p0 vs H1 : p ̸= p0 . X ∼ P oisson(λ) és H0 : λ = λ0 vs H1 : λ ̸= λ0 . X ∼ exp(λ) és H0 : λ = λ0 vs H1 : λ ̸= λ0 . X ∼ U (0, θ) és H0 : θ = θ0 vs H1 : θ ̸= θ0 . (e) Teljesülnek-e a fenti esetekben a regularitási feltételek? 74 FEJEZET 2. Tipp: ELISMERETEK 2.: STATISZTIKAI ALAPOK Az (a), (b), (c) esetekben alkalmazzuk a A hipotézisvizsgalat para- grafusban adott formulát. A számlálóban a likelihood függvénynek az az alakja szerepel, amelyben a paraméter az egyszer¶ null-hipotézishez tartozó érték; nevez®ben pedig (ahol a szuprémum szerepel) a likelihood függvénynek az
az alakja szerepel, amelyben a paraméter helyett annak M-L becslése áll. A (d) eset külön meggondolást igényel Válasz: (a) Legyen Y = ∑n j=1 Xj , és p̂ = n/Y λn (X) = (b) Legyen Y = ∑n j=1 Xj , és pn (1 − p)Y −n p̂n (1 − p̂)Y −n λ̂ = Y /n λn (X) = (c) Legyen Y = ∑n j=1 Xj , és Xn∗ > θ0 λ̂Y e−λ̂ λ̂ = n/Y λn (X) = (d) Ha λY e−λ λn e−nλY λ̂n e−nλ̂Y elvetjük a null-hipotézist, mert egy lehetetlen esemény következett be. Ellenkez® esetben λn (X) = ∗ Xn θ0 X1 , . , Xn ∼ N (µ, σ 2 ) független minta, mindkét paraméter ismeretlen (n elegend®en nagy) Legyen H0 : σ = 1 és H1 : σ ̸= 1 Kon- 58. Legyen struáljunk ezekhez 0,05 terjedelm¶ likelihood-hányados próbát! Tipp: Válasz: 59. Legyenek X1 , . , Xn ∼ N (µ1 , σ 2 ) és Y1 , . , Ym ∼ N (µ2 , σ 2 ) független minták. (a) Írjuk fel a H0 : σ = σ 0 és H1 : σ ̸= σ0 hipotézisekhez konstruált
likelihood-hányados próba statisztikáját! (b) Írjuk fel a H0 : µ1 = µ2 és H1 : µ1 ̸= µ2 hipotézisekhez konstruált likelihood-hányados próba statisztikáját, ha (c) Írjuk fel a H0 : µ1 = µ2 és H1 : µ1 ̸= µ2 ismert! hipotézisekhez konstruált likelihood-hányados próba statisztikáját, ha Tipp: Válasz: σ σ ismeretlen! 2.2 75 FELADATOK X1 , . , Xn ∼ N (µ, σ 2 ) független minta Tekintsük a H0 : σ = σ0 2 2 és H1 : σ > σ0 hipotéziseket, és azt a próbát, amelyre Xk = {x : nSn /σ0 > c} ∑n 1 2 2 (Sn = i=1 (Xi − X) az empirikus szórásnégyzet). Torzítatlan-e az n 60. Legyen adott próba? Tipp: χ2 Keressük meg a képletgy¶jteményben a vényét, és alkalmazzuk az y = σx fY (x) = xn/2−1 e−x/(2/σ) , (σ2)n/2 Γ(n/2) y ≥ 0. Vizsgáljuk meg, hogy a próba ereje hova tart, ha Válasz: eloszlás s¶r¶ségfügg- helyettesítést: σ∞ ! Nem. 61. Igaz-e, hogy az ε terjedelm¶ (kétoldali)
u-próba pontosan akkor fogadja el µ0 benne van az X segítségével µ-re szerkesztett 1 − ε a nullhipotézist, ha szint¶ kondencia-intervallumban? Tipp: Írjuk fel az elfogadási tartomány és alakítsuk át! Válasz: Igaz. X1 , . , Xn ∼ N (µ, σ02 ) független minta, (σ0 ismert) Legyen H0 : µ = µ0 és H1 : µ ̸= µ0 . Konstruáljunk ezekhez 0,05 terjedelm¶ likelihoodhányados próbát! Vessük össze a kapott próbát az u-próbával (két- és 62. Legyen egyoldali változatával is)! Tipp: Válasz: 63. Legyen (X1 , Y1 ), . (Xn , Yn ) ∼ N (m, C), ahol ( 2 σ1 ⊤ m = (µ1 , µ2 ) és C = 0 0 σ22 Tegyük fel, hogy a szórások ismertek. Szerkesszünk H1 : µ1 ̸= µ2 ) . H0 : µ1 = µ2 versus hipotézisekre (a) kétmintás u-próbát! (b) Alkalmazzunk önkontrollos vizsgálatot! Tipp: Mindkét esetben az X −Y valószín¶ségi változó σe2 szórásnégyzetét kell meghatározni. Válasz: A próbastatisztika a standard normális
eloszlású (a) A kétmintás u-próbánál σe2 = (b) Az önkontrollos vizsgálatnál σ12 n1 + σe2 = σ22 n2 . σ12 n + σ22 n . X − Y /σe . 76 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK A két próbafüggvény azonos, mert n = n1 = n2 . X1 , . , Xn ∼ N (µ, σ 2 ) független minta Tekintsük a H0 : µ = µ0 H1 : µ ̸= µ0 (a szórásnégyzet ismeretlen) t-próba statisztikáját: 64. Legyen versus t(X) = X − µ0 √ Sn∗ / n (a) Igazoljuk, hogy a likelihood-hányados próbához tartozó statisztika ( ∑n λn (X) = (Xj ∑nj=1 j=1 (Xj − X)2 )n/2 − µ0 )2 alakú. (b) Igazoljuk, hogy ( λn (X) = 1 1+ )n/2 . t2 (X) n−1 (c) Mutassuk meg, hogy ez azt jelenti, hogy a fenti likelihood-hányados próba a t-próba kétoldali változatával ekvivalens! Tipp: A hipotézisvizsgálat paragrafusban keressük meg a likelihood-hányados próba szerkesztésének módját. Itt a paramétertér 2 dimenziós: Θ = {(µ, σ 2 ) : µ ∈ R, σ
2 > 0}, a 0-hipotézis által kijelölt 1-dimenziós részsokaság pedig Θ0 = {(µ0 , σ 2 ) : σ 2 > 0}. Az X = (X1 , . , Xn ) független, azonos eloszlású minta alapján felírjuk az ( ) n 1 1 ∑ 2 Lµ,σ2 (X) = √ exp − 2 (Xi − µ) 2σ i=1 ( 2πσ)n likelihood-függvényt, majd vesszük ennek szuprémumát a Θ illetve a Θ0 halmazon: sup (µ,σ 2 )∈Θ Lµ,σ2 (X) = ( 1 ( ) ∑n 2 (X − X̄) i i=1 ) = exp − ( 1 ∑ n 2 n i=1 (Xi − X̄)2 )n/2 ∑n 2π n1 i=1 (Xi − X̄)2 ( )n/2 n n ∑n = e− 2 , 2 2π i=1 (Xi − X̄) 2.3 77 TESZTEK sup (µ,σ 2 )∈Θ0 Lµ,σ2 (X) = ( 1 ( ) ∑n (Xi − µ0 )2 i=1 ) = exp − ( 1 ∑n 2 n i=1 (Xi − µ0 )2 )n/2 ∑n 2π n1 i=1 (Xi − µ0 )2 ( )n/2 n n ∑ = e− 2 , n 2π i=1 (Xi − µ0 )2 A fenti számolásból nyilvanvalóan adódik (a), és egyszer¶ algebrai átalakításokkal (b). Válasz: Az Útmutatóban (a) és (b) megoldása már szerepel, a (c) abból következik, hogy
likelihood-hányados próba statisztika monoton függvénye a kétoldali t-próba statisztikájának. 65. Határozzuk meg az egyoldali u-próba er®függvényét! Igazoljuk, hogy a próba torzítatlan és konzisztens is! Hogyan változik a próba ereje, ha (a) ε, (b) θ − θ0 , (c) n n®? Tipp: Válasz: 66. Tekintsük az (X1 , Y1 ), . , (Xn , Yn ) mintát és az rsp Spearman-féle rangko- rrelációs együtthatót. |rsp | ≤ 1 és egyenl®ség pontosan akkor teljesül, ha i ̸= j párra Xi ≤ Xj az Yi ≤ Yj , illetve Yi ≥ Yj relációt vonja után (rsp el®jelének megfelel®en). (a) Igazoljuk, hogy minden maga (b) Igazoljuk, hogy ha a háttérváltozók függetlenek, akkor E(rsp ) = 0. Tipp: Válasz: X1 , X2 , . ∼ exp(λ) független azonos eloszlású minta Adjunk a H0 : λ = λ0 vs. H1 : λ = λ1 egyszer¶ alternatíva eldöntésére szekvenciális eljárást (ε1 els®fajú és ε2 másodfajú hibával)! Adjuk meg a várható 67. Legyen
lépésszámokat! Tipp: Válasz: 2.3 Tesztek 1. Milyen eloszlású a λ paraméter¶ exponenciális eloszlásból vett rendezett minta els® eleme? (a) exp(nλ) n elem¶ 78 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (b) exp(λ/n) (c) Gamma(n, λ) (d) Béta(1, n) Válasz: (a) N (m, σ 2 ) vett mintát, legyen X 2 statisztika (m, σ ) paraméternek? 2. Tekintsünk egy X elégséges a mintaátlag. Igaz-e, hogy (a) igen, a Neyman-Fisher faktorizáció miatt (b) igen, mivel torzítatlan becslése a várható értéknek (c) nem, mert két paraméterre nem lehet megadni elégséges statisztikát (d) nem, mert a mintának a mintaátlagra vett feltételes eloszlása 2 független, de σ -t®l nem. µ-t®l Válasz: (d) 3. Az alábbiak közül melyik az exponenciális eloszlás várható értékére elégséges statisztika? (a) Xn∗ (b) X⌊n/2⌋ ∗ +X⌈n/2⌉ ∗ (c) X1 . Xn (d) X 1 + . + Xn Válasz: (d) 2 4. Tekintsünk egy n elem¶ N (m, σ )
eloszlásból vett mintát Milyen becslése ∑n 2 2 2 σ -nek ( i=1 Xi − X )/(n + 1)? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl®tlenség alapján hatásos, er®sen konzisztens. (d) Torzítatlan, de a Cramér-Rao egyenl®tlenség alapján nem hatásos, er®sen konzisztens. Válasz: (a) 5. Tekintsünk egy n elem¶ ∑n σ 2 -nek ( i=1 Xi2 )/n? N (0, σ 2 ) eloszlásból vett mintát. Milyen becslése (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl®tlenség alapján hatásos, er®sen konzisztens. 2.3 79 TESZTEK (d) Torzítatlan, de a Cramér-Rao egyenl®tlenség alapján nem hatásos, er®sen konzisztens. Válasz: (c) n 6. Tekintsünk egy θ-nak elem¶ U (0, θ)
eloszlásból vett mintát. Milyen becslése a maximum likelihood becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, gyengén konzisztens. (d) Torzítatlan, nem hatásos, gyengén konzisztens. Válasz: (a) 7. Tekintsünk egy λ-nak n elem¶ Poisson(λ) eloszlásból vett mintát. Milyen becslése a momentumok módszerével vett becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, er®sen konzisztens. Válasz: (c) 8. Mi a kapcsolat a normális eloszlás várható értékére ismeretlen szórás esetén adott kondenciaintervallumnak és a t-próba között? (a) A t-próba elfogadja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba
esik. (b) A t-próba elfogadja a nullhipotézist, ha X a kondenciaintervallumba esik. (c) A t-próba elutasítja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba esik. (d) A t-próba elutasítja a nullhipotézist, ha X a kondenciaintervallumba esik. Válasz: (a) H0 : λ = λ 0 ε terjedelm¶ leger®sebb próba (ε > 0 9. Létezik-e az exponenciális eloszlás paraméterére vonatkozó, és H1 : λ = λ 1 hipotéziseket tesztel® tetsz®leges)? (a) Nem, mert 1/X nem torzítatlan becslése λ-nak. (b) Igen, a likelihood-hányados próba ilyen. (c) Igen, a Neyman-Pearson alaplemma alapján. 80 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (d) Igen, a Wald-féle szekvenciális eljárás ilyet ad. Válasz: (c) 10. Mennyi az (a) 1−ε (b) 1/ε (c) (d) ε terjedelm¶ egymintás, egyoldali u-próba másodfajú hibája? √ βn (mε) = 1 − Φ(uε − (µ − µ0 )/(σ0 / n)) √ 1 − βn (mε) = Φ(uε − (µ − µ0 )/(σ0 / n))
Válasz: (d) 11. Az egymintás egyoldali u-próba (a) torzítatlan és konzisztens. (b) nem torzítatlan de konzisztens. (c) torzítatlan de nem konzisztens. (d) nem torzítatlan és nem konzisztens. Válasz: (a) 12. Alkalmazható-e a t próba ismert szórás esetén? (a) Igen. (b) Csak normális eloszlású kis minta esetén. (c) Csak normális eloszlású nagy minta esetén. (d) Nem, mert az ismeretlen szórás feltétel, ismert szórás esetén csak az u próbát alkalmazhatjuk. Válasz: (a) 13. Mikor használhatjuk a χ2 próbákat? (a) Mindig. (b) Diszkrét háttérváltozó esetén mindig, folytonos háttérváltozó diszkretizálása esetén csak nagy mintaelemszám mellett. (c) Az illeszkedévizsgálatra vonatkozó χ2 próbát mindig, a többit csak nagy mintaelemszám esetén. (d) Csak nagy mintaelemszám esetén (mindegyiket, minden háttérváltozó esetén). Válasz: (a) 3. fejezet A többdimenziós normális eloszlás, Wishart eloszlás 3.1 3.11 A
Elméleti háttér Többdimenziós normális eloszlás p-dimenziós, nem-elfajult normális eloszlást az p-dimenziós standard normális eloszlás lineáris transzformáltjaként vezetjük be. 87. Deníció Y Azt mondjuk, hogy az véletlen vektor p-dimenziós standard normális eloszlású, ha komponensei 1-dimenziós standard normális eloszlásúak Y ∼ Np (0, Ip ) jelölést használjuk, utalva arra, hogy p-dimenziós Y véletlen vektor várható érték vektora a 0 vektor, kovarianciamátrixa pedig Ip (ezek az eloszlás paraméterei). és függetlenek. Erre az a Y s¶r¶ségfüggvénye a függetlenség miatt a komponensek s¶r¶ségfüggvényeinek szorzata, azaz g(y) = p ∏ ϕ(yi ) = √ i=1 ϕ jelöli (y1 , . , yp )T ahol 1 2π −( pe ∑p i=1 yi2 )/2 = 2 1 e−∥y∥ /2 , (2π)p/2 a standard normális s¶r¶ségfüggvényt (Gauss-görbét), az y = vektor pedig az együttes s¶r¶ségfüggvény argumentuma. Alkalmazzuk most a fenti Y-ra az X
= AY + m lineáris transzformációt, ahol (3.1) A p × p-s nem-szinguláris mátrix, m pedig pX várható érték vektora m, kovarianci- dimenziós vektor. Könny¶ látni, hogy amátrixa pedig: C = E(X − m)(X − m)T = E(AY)(AY)T = = E(AYY T AT ) = AE(YYT )AT = AIn AT = AAT , 81 82FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS ahol a vektorok oszlopvektorok, egy vektor várható értéke a komponensek várható értékeib®l álló vektor, egy mátrix várható értéke pedig az elemeinek a várható értékeib®l álló mátrix. 88. Deníció Az Y ∼ Np (0, Ip ) többdimenziós standard normális eloszlású véletlen vektor-ból a fenti (invertálható) lineáris transzformációval kapott X véletlen vektort nem-elfajult többdimenziós normális eloszlásúnak nevezzük, és ennek kifejezésére röviden az X ∼ Np (m, C) formulát használjuk. p-dimenziós normális eloszlású X véletlen vektor eloszlásának p dimenzió, az m várható
érték vektor és a C kovarianciamátrix. A p × p-s, szimmetrikus, pozitív denit C mátrix elemei: cij = cji az Xi és Xj komponensek kovarianciája (i ̸= j), cii pedig Xi szórásnégyzete 2 (varianciája). A kovarianciamátrixra a D X jelölést fogjuk használni A nem-elfajult paraméterei tehát a Az azonosan 1 f®diagonálisú kovarianciamátrixok geomteriai struktúráját az alábbi ábra, animáció és interaktív animáció személteti. 3.1 ábra elliptop Ha AAT A-ról C= A mátrixszal kikötjük, hogy négyzetes és nem-szinguláris mátrix, akkor a kovarianciamátrix pozitív denit. Megjegyezzük, hogy szinguláris végrehajtva 3.1 transzformációt, szinguláris, pozitív szemidenit Ilyen esetekben C rangja is kisebb lesz, mint p, C-hez jutunk. ekkor elfajult többdimenziós normális eloszlás ról beszélünk. A továbbiakban, hacsak külön nem mondjuk, akkor mindig a nem-elfajult esetre gondolunk. 3.1 83 ELMÉLETI HÁTTÉR 89. Állítás
Ha a C mátrix invertálható, akkor az X ∼ Np (m, C) véletlen vektor s¶r¶ségfüggvénye: f (x) = T −1 1 1 e− 2 (x−m) C (x−m) , (2π)p/2 |C|1/2 x ∈ Rp . (3.2) Megjegyezzük, hogy az elfajult többdimenziós normális eloszlás alacsonyabb dimenziós s¶r¶ségfüggvénye például úgy kapható meg, hogy az (3.2) képletben C−1 helyett C+ -t írunk (azaz a szinguláris C mátrix általánosított inverzét, l. Lineáris algebra) |C| 90. Állítás X ∼ Np (m, C) véletlen vektor komponensei C kovarianciamátrix diagonális. Az helyett pedig C pozitív sajátértékeinek szorzatát. pontosan akkor teljesen függetlenek, ha a Megjegyezzük, hogy p = 2 esetén Y s¶r¶ségfüggvénye körszimmetrikus és maximumhelye az origóban van. Az alábbi ábrákon látható a kétdimenziós standard normális eloszlás s¶r¶sége és egy, a segítségével konstruált olyan együttesen nem normális eloszlás s¶r¶sége, amely marginálisai standard
normálisok. 0.3 0.6 0.25 0.5 0.2 0.4 0.15 0.3 0.1 0.2 0.05 0.1 0 0 3.2 ábra 2 dimenziós standard normális és nem 2 dimenziós normális s¶r¶ség X = AY + m s¶r¶ségfüggvényének a maximumhelye viszont m-ben van, C ko- nívóhalmazai pedig ellipszisek, melynek tengelyirányait a nem-szinguláris varianciamátrix sajátvektorai jelölik ki, a tengelyek hossza pedig a megfelel® sajátértékek négyzetgyökével arányos. Ez a legegyszer¶bben az (1.2)-beli s¶r¶ségfüggvény exponensében álló kvadratikus alak (x − m)T C−1 (x − m) = (x − m)T UΛ−1 UT (x − m) = zT Λ−1 z = = 2 ∑ 1 2 z2 z2 zi = √ 1 2 + √ 2 2 λ λ1 λ2 i=1 i (3.3) f®tengely-transzformációjából látható; a nívóhalmazokat úgy kapjuk, hogy a fenti kvadratikus alakot valamely nemnegatív konstanssal tesszük egyenl®vé. 84FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 3.3 ábra 2
dimenziós normális normális s¶r¶ség egy szintvonal tengelyeivel (Gondoljuk meg, milyen értékhatárok közt mozoghat e konstans ahhoz, hogy valódi ellipsziseket kapjunk!) Az is látható, hogy a nívóhalmazok pontosan akkor körök, hogy ha a sajátértékek egyenl®ek, ez viszont ekvivalens azzal, hogy a komponensek függetlenek és azonos szórásúak. Ezt mindjárt általános p-re is belátjuk. Egy X ∼ Np (m, C) valószín¶ségi változó s¶r¶ségében álló kvadratikus alak hasonló módon (x − m)T C−1 (x − m) = zT Λ−1 z = alakúvá transzformálható a z = UT (x − m) p p ∑ 1 2 ∑ zi2 zi = √ 2 λ λi i=1 i i=1 koordinátatranszformációval (ami egy eltolást, majd egy forgatást jelent). Eredményképp egy olyan p-dimenziós ellipszoid egyenletét kapjuk, mely f®tengelyeinek hossza a sajátértékek gyökével arányos, irányukat pedig a sajátvektorok jelölik ki. Az ellipszoid pontosan akkor lesz gömb, ha λ1 = · · · = λp =
λ, ekkor a kovarianciamátrix C = U(λIp )UT = λIp √ alakú, ami ekvivalens azzal, hogy a komponensek függetlenek és azonos λ) szórásúak. Könny¶ látni, hogy amennyiben a komponensek függetlenek, de ( nem azonos szórásúak, ellipszoidot kapunk, melynek tengelyirányai a koordinátatengelyekkel párhuzamosak. Minden más esetben olyan ellipszoidok adódnak nívófelületekként, melyek tengelyei (legalábbis egy részük) elfordulnak (2dimenziós esetben az elfordulás szögéb®l következtethetünk a két komponens 3.1 85 ELMÉLETI HÁTTÉR közti korreláció mértékére): az alábbi ábrákon a ( 1 0.6 0.6 2 0 várható érték vektorú, ) kovarianciamátrixú 2-dimenziós normális eloszlás s¶r¶ségfüggvénye láthatók 3 dimenziós és szürkeárnyalatos ábrázolásban. 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 3.4 ábra 2 dimenziós normális s¶r¶ségek A kés®bbiekben használni fogjuk a következ® tételt. 86FEJEZET 3. A
TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS 91. Tétel Ha X ∼ Np (m, C) és a C kovarianciamátrix pozitív denit, akkor (X − m)T C−1 (X − m) ∼ χ2 (p). Az érdekesség kedvéért megemlítjük a normális eloszlás egy Harald Cramértól származó karakterizációját. 92. Tétel Ha X és Y zlású, akkor X és Y külön-külön is normális eloszlásúak. független valószín¶ségi változók és X +Y normális elos- A statisztikai vizsgálatokban el®forduló véletlen változók általában nem együttesen normális eloszlásúak, a normális eloszlásra kiszámolt statisztikai módszerek alkalmazásása indokolható az alábbi Tétellel. Emellett a skalár, s®t a diszkrét érték¶ valószín¶ségi változók statisztikai vizsgálatában olyan gyakran al2 kalmazott módszerek mint a χ -próba jogosságának indoklásában is szükségünk van a centrális határeloszlás tétel többdimenziós alakjára. 93. Tétel X1 , X2 , .
független, azonos eloszlású p-dimenziós véletlen m várható érték vektora és C kovarianciamátrixa létezik (utóbbi nem feltétlenül invertálható). Legyen Sn = X1 + · · · + Xn , n = 1, 2, Akkor 1 a standardizált részletösszegek sorozata, azaz az √ (Sn − nm) véletlen vektor n sorozat eloszlása konvergál az Np (0, C) eloszláshoz, ha n ∞. Legyenek vektorok, melyek Itt jegyezzük meg, hogy n növelésével a többdimenziós normális eloszlás valószín¶ségeinek numerikus integrálással történ® kiszámításának a m¶veletigénye ε megengedett hiba esetén nC/ε nagyságrend¶, még abban az esetben is, amikor egy n-dimenziós téglatest C kovarianciamátrixú normális eloszlás szerinti valószín¶ségét akarjuk meghatározni. Léteznek az Hermite-polinomok szerinti sorfejtésen alapuló módszerek, de ezek csak akkor m¶ködnek, ha C közel van az n-dimenziós n értékre egységmátrixhoz (n növelésével a korrelációknak
csökkenni kell). Nagy a Monte Carlo módszert kell alkalmazni, ennek m¶veletigenye a dimenziótól 2 függetlenül 1/ε . 94. Állítás Az X ∼ Np (m, C) véletlen vektor komponensei C kovarianciamátrix diagonális. pontosan akkor teljesen függetlenek, ha a A kés®bbiekben használni fogjuk a következ® tételt. 95. Tétel Ha X ∼ Np (m, C) és a C kovarianciamátrix pozitív denit, akkor (X − m)T C−1 (X − m) ∼ χ2 (p). 3.12 Wishart eloszlás A többdimenziós normális eloszlás paramétereinek becsléséhez és a paraméterekre vonatkozó hipotézisek vizsgálatához. Ehhez szükségünk van a becslésekben fellép® többdimenziós statisztikák eloszlásának meghatározására 3.1 87 ELMÉLETI HÁTTÉR 96. Deníció A p × p-s W véletlen mátrixot p-dimenziós, n szabadságfokú, C kovarianciájú (centrális) Wishart-mátrix nak nevezzük, ha el®állítható W = XXT alakban, ahol a p × n-es X véletlen mátrix oszlopvektorai
függetlenek és Np (0, C)-eloszlásúak. Egy ilyen W véletlen mátrix elemeinek együttes eloszlását p, n, C paraméter¶ (centrális) Wishart-eloszlás nak nevezzük, és a következ®képpen jelöljük: W ∼ Wp (n, C). W szimmetriája miatt valójában p(p + 1)/2-dimenziós eloszlásról van szó. Meg- jegyezzük, hogy a nem-centrális Wishart-eloszlás deníciója ugyanígy kezd®dik, csak ott X oszlopvektorai független Np (m, C) eloszlásúak lesznek. Ilyenekkel mi nem foglalkozunk, és a továbbiakban Wishart eloszláson mindig a centrálisat X∑mátrix oszlopvektorait X1 , X2 , . , Xn -nel jelölve vegyük észre, n T W = k=1 Xk Xk . Az ilyen el®állítást diádösszegnek hívjuk Amennyiben az X1 , X2 , , Xn vektorok független mintaelemek egy Np (0, C) eloszlású T véletlen vektorra, az X mátrixot adatmátrixnak is szokták nevezni, amely tehát értjük. Az hogy soronként tartalmazza a meggyeléseket. A Wp (n, I) eloszlást standard
Wishart-eloszlás nak nevezzük. Itt tehát az X1 , X2 , . , Xn vektorok ∑n p-dimenziós standard normális eloszlásúak. Ha speciálisan p = 1, akkor W = k=1 Xk2 , ami deníció szerint χ2 (n)-eloszlású. 97. Tétel Legyen a p×p-s C kovarianciamátrix pozitív denit. W ∼ Wp (n, C) C−1/2 WC−1/2 ∼ Wp (n, I). pontosan akkor teljesül, ha A fenti tétel azt fejezi ki, hogy egy Wishart-mátrix standardizáltja standard Wishart-eloszlású. Wishart-mátrixra példa az empirikus kovarianciamátrix konstansszorosa. Ezt fogalmazza meg pontosan a következ® tétel. 98. Tétel Legyen X1 , X2 , . , Xn független elem¶ minta egy zlású véletlen vektorra, továbbá legyen 1∑ Xk n n X̄ = és S= k=1 n ∑ Np (m, C) elos- (Xk − X̄)(Xk − X̄)T . k=1 Akkor 1 C), n (1) X̄ ∼ Np (m, (2) S ∼ Wp (n − 1, C), (3) X̄ és 99. Tétel (p < n), és S függetlenek egymástól. Legyenek X1 , . , Xn független azonos eloszlású Np (0, Ip )
változók X := (X1 , . , Xn ) p × n-es mátrix Akkor a W = XXT standard Wishart-mátrix s¶r¶sége cnp |W| alakú, ahol cnp csak p-t®l és n-t®l n−p−1 2 e− 2 trW 1 függ® konstans. (3.4) 88FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS X véletlen mátrix s¶r¶ségéb®l X1 , . , Xn független azonos eloszlású minta A bizonyításról csak annyit jegyzünk meg, hogy az kell kindulni, ami nem más, mint az alapján felírt likelihood-függvény: 1 1 e− 2 trW . (2π)np/2 Ebb®l W eleminek együttes eloszlása mértéktranszformációval határozható meg. Ecélból mátrixok lineáris transzformáltjainak Jacobi-determinánsait kell meghatároznunk (itt (1) |A| az X = AY, A matrix determinánsának abszolút értéke): ahol A tetsz®leges p × p-s nemszinguláris mátrix, X a p × n-es minta. Közvetlen számolással adódik a ∂X = |A|n . ∂Y (2) A mint (1)-ben, W a p×p Wishart mátrix, W = AVAT .
Ekkor az ún. Sverdrup-lemma [27] szerint ∂W = |A|p+1 . ∂V A Wishart-mátrix volt az els® véletlen mátrix, amit a matematikusok intenzíven tanulmányoztak (1937 óta). Vegyük észre, hogy a (3.4) formula szerint a Wishart mátrix s¶r¶ségfüggvénye a csak a sajatértékek osszegén és szorzatán (determináns, trace) keresztül függ a a mátrixelemekt®l, de ez nem a Wishart-mátrix spektrumának az eloszlása. A Wishart mátrix sajátértékeinek empirikus eloszlására vonatkozik a Marcsenko-Pasztur tétel (l. [????]) Tegyük fel, hogy mind p végtelenbe tart olymódon, hogy n c, ekkor n, mind pedig } 1 { p p # λj : λj < x F (x), p ahol λpj a W ∼ Wp (n, I) mátrix j -edik p (3.5) sajátértéke (monoton nemcsökken® rendezés mellett) és F ′ (x) = 1 √ (b − x)(x − a), 2πxc a < x < b. A (3.5) formulabeli konvergencia majdnem biztos, ha várható értéke 1, szorásnégyzete 0 < c ≤ 1. Az F eloszlás 1 + c. A zöld
grakon standard Wishart mátrix sajátértékeit mutatja, a kék pedig egy olyanét, amelyhez tartozó C mártix minden eleme közel 1. Az el®bbi ábra sajátértékei láthatóak hisztogramon is ábrázolva. N (0, 1) elosn×n szimmetrikus mátrix empirikus spekrumának viselkedést Meglep® módon a legegyszer¶bb véletlen mátrix a független zlású elemekb®l álló 3.1 ELMÉLETI HÁTTÉR 89 3.5 ábra Wishart-mátrixok sajátértékei 3.6 ábra Wishart mátrixok sajátértékeinek hisztogramjai csak az 1940-es években kezdte el tanulmányozni Wigner Jen®, a kaotikus kvantumrendszerek leírása céljából. 90FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS Az ilyen mátrixok λ sajátértékeinek rendezett mintáját const · √ n-nel nor- málva kapjuk a híres félkör-törvényt. } 1 { p p # λj : λj < x F (x), p ahol F ′ (x) = 2√ (1 − x2 ), π (3.6) −1 < x < 1. A (3.6) formulabeli konvergencia is
majdnem biztos 3.7 ábra Wigner hisztogram 3.2 Feladatok 1. Van-e olyan többdimenziós normális eloszlású vektorváltozó, amely komponensei nem függetlenek, de páronként korrelálatlanok? Tipp: Válasz: Nincs. Y1 , . , Ym független m-dimenziós normális? 2. Igaz-e, hogy ha eloszlásuk Tipp: Válasz: Igaz. normális eloszlásúak, akkor együttes 3.2 91 FELADATOK 3. Adjunk olyan (legalább 3 dimenziós) véletlen vektorváltozót, amely komponensei 1-dimenziós normális eloszlásúak, ® maga nem többdimenziós (és nem is elfajult többdimenziós) normális eloszlású! Tipp: Lásd a 3.3 ábrát! Válasz: { cϕ(x1 ) . ϕ(xn ), ha f (x1 , . , xn ) = (1 − c)ϕ(x1 ) . ϕ(xn ), ahol 0<c≤1 és ϕ(x) a standard normális eloszlás s¶r¶ségfüggvénye. Y ∼ Nd (m, C), 4. Legyen ahol C pozitív denit, szinguláris mátrix. Milyen eloszlású Tipp: Az X x1 . xn > 0 xy ≤ 0, ha B pedig egy d × d-s nem- X = BY?
véletlen vektor várható értéke Bm, ennek ismerteben fel- tehet®, hogy a szóban forgó véletlen vektorok várható értéke a 0vektor. Dkovarianciamátrixát pedig a D = E(XX⊤ ) = E(BYBY ⊤ ) képlet alapján számíthatjuk ki. Válasz: X ∼ Nd (Bm, BCB⊤ ). X ∼ N2 (m, C). 5. Legyen (a) Adjuk meg X komponenseinek tetsz®leges aX1 + bX2 lineáris kom- binációjának eloszlását! (b) Adjuk meg X komponenseinek korrelációs mátrixát! (c) Adjuk meg annak a lineáris transzformációnak a mátrixát, amely X véletlen vektort a 2-dimenziós standard normális eloszlásúba viszi át. Egyértelm¶-e ez a mátrix? Tipp: (a) Jelölje c11 , c12 , c22 a C mátrix független elemeit. D2 (aX1 + bX2 ) = Cov(aX1 + bX2 aX1 + bX2 ), használjuk a deníciót és a várható érték tulajdonságait! (b) Normáljuk alklamasan a (c) Tetsz®leges olyan A C mátrixot. mátrix, amelyre ACA⊤ = I2 . Válasz: (a) N (am1 + bM2 , a2 c11 + 2abc12 + b2 c22 , a2
c11 + 2abc12 + b2 c22 ) (b) a korrelaciós mátrix f®atlójában 1-ek állnak, az c√ tható pedig r1,2 = √ 12 c11 c22 (c) Az A = C−1/2 például jó választás, egy 2×2 r12 korrelációs együt- pozitív denit mátrix- nak általában 4 különböz® négyzetgyöke van, és ezzel a lehetséges mátrixok köre még nem merült ki, mert ha pedig ortonormalt, akkor DV D alkalmas mátrx, is alkalmas mátrix. V 92FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS Xi ∼ Nd (mi , Ci ), i = 1, . , n ∑ n i=1 Xi eloszlását! 6. Legyenek juk meg Tipp: Analóg a független skalár független véletlen vektorok. Ad- N (mi , σi2 ) k esetével. Válasz: Nd ( n ∑ mi , sumni=1 Ci ) i=1 X 7. Legyen egy d dimenziós ún. szimmetrikus normális eloszlású vektor, azaz komponensei azonos eloszlásúak és bármely két komponens kovarianciája ugyanakkora. (a) Határozzuk meg a korrelációs mátrix spektrálfelbontását! (b)
Határozzuk meg C−1 -et, ahol C a kovarianciamátrix! X d-dimenziós standard normális eloszlásúba viszi át. (c) Adjuk meg annak a lineáris transzformációnak a mátrixát, amely véletlen vektort a (d) Mutassuk meg, hogy bármely két komponens korrelációja nagyobb −1 mint (1 − d) . Tipp: Jelölje R a korrelációs mátrixot, ami 1 ρ. ρ 1. R . . . . . ρ ρ. alakú, ahol ρ ρ . . . 1 ρ ∈ [0, 1]. Ezen speciális alak miatt (a) Az C = σ 2 R. ρ ρ. ρ ρ. R − (1 − ρ)Id = . . . . . ρ ρ. ρ ρ . . . ρ dρ. Ismeretes, hogy ha A d×d-s mátrix sajátértékei λ1 , . , λd , akkor A+cId sajátértékei λ1 + c, . , λd + c (spektrál-leképezés tétel) Ennek alapján R, és igy C spektruma meghatározható Az utolsó d − 1 (λ2 , . λd ) sajátérték egyenl®, míg λ1 különbözik t®lük. A λ1 -hez tartozó u1 sajátvektor ko1 ⊤ 1 Az R többi ordinátái
egyenl®k, tehát normálva u1 = ( √ , . , √ ) d d sajátvektorai tetsz®leges u1 -re és egymásra ortogonális oszlopvekmátrix 1-rangú, és egyetlen nem 0 sajatértéke egy torok. Ilyen sokféle van, különösebb számolás nélkül meghatározhatók azok amelyeknek 1 eleme negatív, a fölötte lev® elemek 1-ek, az alatta lev®k 0-k. 3.2 93 FELADATOK (b) C−1 = σ −2 R−1 . (c) U ortonormált matrixot, amelynek oszlopai az u1 , . , ud sajátvektorok, és Λ = diag(λ1 , , λd ), akkor a spektrálel®állítási ⊤ −1 tétel miatt R = UΛU , ezért C = σ −1 U U Λ−1 U ⊤ . −1/2 A a(c) ponthoz hasonlóan C = σ −1/2 U U Λ−1/2 U ⊤ . Vizsgáljuk meg az (a) pontban kapott sajatértékeket. Mivel R szükségképpen nemnegatív denit, és a λ2 = λ3 , · · · = λd = 1 − ρ sajátértékek nemnegatívak, a λ1 > 0 feltételnek kell teljesülnie. Ha ismerjük azt az (d) Válasz: R korrelációs mátrix sajátértékei λ1 = 1 + (d
− 1)ρ, λ2 = λ3 , · · · = λd = 1 − ρ. Itt d = 4-re megmutatjuk u2, u3 és u4 konstrukcióját, (a) Az amib®l az általános eset már könnyen leolvasható. 1 2 1 2 1 2 1 2 U= √ 2 2√ − 22 0 0 √ 6 √6 6 6√ − 36 0 √ 12 √12 12 √12 12 12 √ − 12 4 89898 (b) Az Útmutató és (a) pont alapján nyilvánvaló. (c) Az Útmutató és (a) pont alapján nyilvánvaló. (d) Az Útmutató és 8. * Legyen A és B két λ1 értéke alapján nyilvánvaló n × n-es pozitív denit mátrix. Mutassuk meg, hogy elemenkénti szorzatuk is pozitív denit! Tipp: Jelölje A = {aij } i = 1, . , n j = 1, , n B = {bij } i = 1, . , n j = 1, , n és C = {cij = aij bij } i = 1, , n j = 1, , n A feladatban szereplo mátrixokat; A és B pozitiv denitása miatt léteznek X ∼ N (0, A) és Y ∼ N (0, B) véletlen vektorok. Tegyük fel, hogy függetlenek ⊤ Ekkor a (NEM GAUSS) Z = (z1 = x1 y1 , . , zn =
xn yn ) veletlen vektor kovarianciamátrixa éppen C. Válasz: Mivel minden kovarianciamátrix nem negatív denit, és dinatái lineárisan függetlenek, C Z koor- pozitív denit. A feladtra van tisztán algebrai bizonyítás is: tekintsük az A ⊗ B n2 × n2 - es tenzorszorzat mátrixot, ami szintén pozitív denit, és található olyan invariáns altere amiben éppen C által deniált operátor hat. d-dimenziós normális eloszlású vektorváltozó komponen(d > k)-t tetsz®legesen kiválasztva azok együttes eloszlása k - 9. Igaz-e, hogy egy sei közül dimenziós normális? Tipp: Próbáljuk felírni a denícióban szerepl® hogy a denícióban szerepl® het®, hogy az els® k A A mátrixot. Feltehet®, alsó trianguláris, a szimmetria miatt felte- komponenst választottuk. 94FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS Válasz: Igaz. 2 10. Igaz-e, hogy (X1 , X2 ) ∼ N2 (0, Cd ) esetén X1 /c1,1 2 akkor χ (2)
eloszlású, ha X1 és X2 korrelálatlanok? Tipp: Vegyük észre, hogy + X22 /c2,2 pontosan X1 és X2 együttesen Gauss-eloszlású valószín¶ségi változók pontosan akkor függetlenek, ha korrelálatlanok. Hasonlóan, ve- N (0, 1) gyük észre, hogy két 2 pontosan akkor Válasz: 11. Legyen χ (2) valószín¶ségi változó négyzeteinek összege eloszlású, ha függetlenek. Igaz. Y ∼ Nd (0, Id ), továbbá A egy d×d-s szimmetrikus r rangú mátrix. Y⊤ AY ∼ χ2 (r) pontosan akkor teljesül, ha AA = A? Igaz-e, hogy Tipp: hogy AA = A, A = A⊤ , rang(A) = r feltétel A egy r dimenziós altérre való vetítés mátrixa. Az Válasz: r Igaz, mivel AY kovariancimátrixa Ir , ezért éppen azt jelenti, Y⊤ AY = Y⊤ AAY darab független standard normális eloszlású valószín¶ségi változó né- gyzetének összege. X = (X1 , . , Xn ) mátrixot, amely oszlopvektorai Xi ∼ Nd (0, C), i = 1, . , n független azonos eloszlású változók,
valamint a W = XX⊤ Wishart-mátrixot! 12. Tekintsük az W⊤ ? (a) Milyen eloszlású (b) Hogy változik meg W, ha X két oszlopát felcseréljük? (c) Hogy változik meg W, ha X két sorát felcseréljük? (d) Adjunk meg W várható értékét! W k -adik (e) Milyen eloszlású Tipp: Vegyük észre, hogy W f®minora? szimmetrikus. Figyeljük meg a W dení- cióját. Válasz: (a) W = W⊤ (b) W tehát W⊤ ∼ Wd (n, C) nem változik. (c) Tegyük fel hogy az i-edik és a a wii -t (d) Ha (e) wjj -t és a n = 1 E(W) = C, Wk (n, C′ ), ahol j -edik sort cseréltük fel. Ekkor W-ben tartalmazó oszlopok es sorok felcserél®dnek. C′ a tehát C E(W) = nC. mátrix k -adik Wi ∼ Wd (ni , C), i = 1, . , k ∑k eloszlású i=1 Wi ? 13. Legyenek lyen Tipp: f®minora. független Wishart-mártixok. Mi- Emlékezzünk arra, hogy a Wishart-eloszlás a analogonja. Válasz: Legyen n = n1 + · · · + nk ∑k i=1 χ2 -eloszlás (l.
képletgy¶jtemény) Wi ∼ Wd (n, C). 3.3 95 TESZTEK 14. Legyen Tipp: W ∼ Wd (n, C) és a ∈ R+ . Milyen eloszlású aW? Emlékezzünk arra, hogy a Wishart-eloszlás a chi2 -eloszlás analo- gonja. Válasz: aW ∼ Wd (n, aC) W ∼ Wd (n, C) BWB⊤ ? 15. Legyen és B egy d × d-s nemszinguláris mátrix. Milyen eloszlású Tipp: Számoljuk ki a W = XX⊤ BX mivel egyenl® a kovarianciamátrixát, ahol BXBX⊤ ? X ∼ Nd (0, C). Ha Válasz: BWB⊤ ∼ Wd (n, BCB⊤ ). 16. Legyen W ∼ Wd (n, I). (a) Milyen eloszlásúak (b) Milyen eloszlású (c) Igazoljuk, hogy W diagonális elemei? trW? W nemdiagonális elemei el®állnak két független χ2 (n) eloszlású változó különbségének konstansszorosaként! Tipp: (a) Alkalmazzuk a deníciót. (b) Alkalmazzuk a deníciót, és keressük meg a χ2 eloszlás deníóját képletgy¶jteményben. (a + b)(a − b) = a2 − b2 , (a + b)2 = a2 + 2ab + b2 , (a − b) = a − 2ab + b2
azonosságokat. (c) Alkalmazzuk az 2 2 Válasz: (a) χ2 (n) (b) χ2 (nd) (c) Ha n=1X Y független standard normális eolszlású valószín¶ségi X + Y és X − Y független N (0, 2) valószín¶ségi vál2 el®bb idézett azonosság miatt). Továbbá (X + Y ) /4 − és változók, akkor tozók (az (X − Y )2 / két független valószín¶ségi változó kulönbsége melyeknek 2 2-szeresei χ eloszlásúak. Ugyanakkor ez a különbség XY A standard Wishart mátrix diagonálison kívüli elemei n függtelen XY alakú valószín¶ségi változó összege. 3.3 1. Tesztek X1 , . , Xn egydimenziós normális eloszlásúak. Melyik állítás igaz? (a) Együttes eloszlásuk csak akkor többdimenziós normális, ha függetlenek. (b) Ha függetlenek, akkor együttes eloszlásuk többdimenziós normális. 96FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS (c) Együttes eloszlásuk csak akkor többdimenziós normális, ha nem függetlenek. (d) Ha nem
függetlenek, akkor együttes eloszlásuk többdimenziós normális. Válasz: (b) 2. Egy többdimenziós normális eloszlású változó komponensei standard normális eloszlásúak Igaz-e, hogy együttesen is standard normális eloszlású? (a) Igen, mert ez a deníció. (b) Igen, mert a többdimenziós standard normális eloszlású változó lineáris transzformációjaként kapjuk, az pedig egyértelm¶. (c) Igen, mert a függetlenségb®l következik a korrelálatlanság. (d) Nem, csak ha a komponensek korrelálatlanok. Válasz: (d) 3. Legyenek X1 , . , Xn ∼ Nd (0, C) függetlenek Milyen eloszlású ∑n i=1 X1 + . + Xn ? (a) Nd (0, C) (b) Nd (0, nC) (c) Nd (0, n2 C) (d) Wd (n, C) Válasz: (b) X1 , . , Xn ∼ Nm (m, I) függetlenek Milyen eloszlású m)(Xk − m)⊤ ? 4. Legyenek (a) χ2 (n) (b) χ2 (nd) (c) Wm (n, I) (d) Wn (m, I) ∑n k=1 (Xk − Válasz: (c) 5. Valójában hány dimenziós változó egy (a) d2 (b) d(d + 1)/2 (c) nd (d)
(nd + 1)/2 Válasz: (b) Wd (n, C) eloszlású Wishart-mátrix? 3.3 97 TESZTEK 6. Milyen eloszlásúak az n darab d dimenziós standard normális eloszlású változó segítségével kapott Wishart-mátrix f®átlójának elemei? (a) Standard normális (b) χ2 (1) (c) χ2 (d) (d) χ2 (n) Válasz: (d) 98FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS 4. fejezet Paraméterbecslés és hiptézisvizsgálat többdimenziós normális modellben 4.1 4.11 Elméleti háttér Paraméterbecslés többdimenziós normális modellben Ebben a paragrafusban csak azokra a fogalmakra és tételekre térünk ki, amelyek természetüknél fogva lényegesen különböznek azok egydimenziós változataiktól. Hatásosság: A torzítatlan becslések között keressük a leghatásosabbat. Mivel a több paraméter esetén a becslésk szórásnégyzetei helyett azok kovarianciamátrixait kell összehasonlítanunk, a hatásosság mérésére egy er®sebb
fogalmat vezetünk be. 100. Deníció T2 A θ ∈Θ paraméter T1 becslése legalább olyan hatásos, mint becslése, ha D2θ (T1 ) ≤ D2θ (T2 ), ahol a mátrixok közötti A ≤ B rendezés úgy értend®, hogy B−A pozitív szemidenit. Ilyen értelemben alkalmazza a rendezést a CramérRao egyenl®tlenség több paraméterre vonatkozó alakja: 101. Tétel A CramérRao egyenl®tlenség többváltozós alakja (bizonyos itt teljesül® regularitási feltételek esetén) alsó korlátot ad a torzítatlan becslések 99 100FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS szórásmátrixára: D2θ (T) ≥ 1 −1 I (θ) = In−1 (θ), n 1 θ∈Θ I1 (θ) jelöli az ún. Fisher-féle információs mátrixot, amit 1-elem¶ mintából számolhatunk: ( I1 (θ) = Eθ ∂ ln fθ (X1 ) ∂θ )( ( )T ) ∂ ∂ 2 ln fθ (X1 ) ln fθ (X1 ) , = Dθ ∂θ ∂θ Megjegyezzük, hogy többdimenziós normális eloszlásnál egyenl®ség
az mxS/(n − 1)) (X̄, párra nem érhet® el. A többdimenziós normális eloszlás paramétereinek maximum-likelihood becslése. Miel®tt hozzáfognánk ennek a feladatnak a megoldásához, felidézzük a Steineregyenl®séget többdimenziós változatát. 102. Lemma legyen x̄ n ∑ p (Steiner-egyenl®ség). Legyenek x1 , xn ∈ R vektorok, , továbbá p az átlaguk és v ∈ R egy tetsz®leges vektor. Ekkor (xk − v)(xk − v)⊤ = k=1 n ∑ (Xk − x̄)(xk − x̄)⊤ + (x̄ − v)(x̄ − v)⊤ . Speciálisan, ha v=0 n ∑ (xk − x̄)(xk − x̄)⊤ = k=1 Legyen (4.1) k=1 X1 , . , Xn m ⊤ xk x⊤ k − nx̄x̄ . k=1 független elem¶ minta az torra, tegyük fel, hogy az ismeretlen n ∑ n > p. X ∈ Np (m, C) véletlen vek- A mintaelemek alapján szeretnénk becslést adni várható érték vektorra és a C kovarianciamátrixra, melyr®l feltesszük, hogy pozitív denit. Ehhez a maximum likelihood módszert használjuk, azaz a
mintaelemek együttes s¶r¶ségfüggvényével deniált likelihood-függvényt maximalizáljuk a két ismeretlen paraméterben. A mintaelemek függetlensége következtében az együttes s¶r¶ségfüggvény a külön-külön vett s¶r¶ségfüggvények szorzata, melyek mindegyike (a mintaelemek azonos eloszlása miatt) az (3.2) alakban írható (csak az argumentumokba most a mintaelemeket írjuk): Lm,C (X1 , . , Xn ) = 1 (2π)np/2 |C| e− 2 n/2 1 ∑n T −1 (Xk −m) k=1 (Xk −m) C Vegyük észre exponensbeli n ∑ k=1 (Xk − m)T C−1 (Xk − m) . (4.2) 4.1 101 ELMÉLETI HÁTTÉR 1 × 1-es kvadratikus alak tulajdonképpen egy mátrix nyoma (trace-e), ami a trace függvény ciklikus permutációkkal szembeni invarianciája miatt trC −1 (Xk − m)(Xk − m)T (4.3) alakban is írható (err®l közvetlen számolással is meggy®z®dhetünk). A formulák kezelése szempontjából ez az alak gyakran el®nyösebb, mint a kvadratikus forma írásmód. Az
el®z® rész jelöléseit használjuk: 1∑ Xk n n X̄ = k=1 jelöli a mintaátlagot és S= n ∑ (Xk − X̄)(Xk − X̄)T k=1 az empirikus kovarianciamátrix n-szeresét. A likelihood-függvényt most a (4.3) formula és a (4.1) többdimenziós Steiner-egyenl®seg segítségével úgy alakítjuk át, hogy benne ezek a statisztikák jelenjenek meg: L(X1 , . , Xn ; m, C) = 1 e− 2 trC 1 (2π)np/2 |C|n/2 −1 S · e− 2 n(X̄−m) 1 T C−1 (X̄−m) . (4.4) A fenti (4.4) függvényt m-ben és C-ben kell maximalizálnunk, hogy megkapjuk m̂ és Ĉ becsléseket. A (44) függvény akkor lesz m-ben maximális, ha a kitev®ben lév® kvadratikus alak értéke 0, ezért m̂ = X. Mivel ez a széls®érték független a imalizálhatjuk C C szerint (valojában paramétert®l a (4.4) függvényt ugy max- C−1 szerint) m̂ = X-szel helyettesítjük. ∂|A| ⊤ A további számolás a Lineáris algebra fejezetben ismertetett ∂A = adj (A ) képlet
alkalmazásával végezhet® el, ezt nem részletezzük, csak a végeredményt közöljük: Ĉ = 4.12 S . n Hipotézisvizsgálat többdimenziós normális modellben Az egyváltozós esethez hasonlóan hipotéziseket is vizsgálhatunk a várható érték vektorra és a kovarianciamátrixra vonatkozóan. Ehhez megismételjük likelihood 2 hányados próba, és bevezetjük a Hotelling T -eloszlás denícióját. 102FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS 103. Deníció vektora, alapján Legyen θ az fθ (x) s¶r¶ségfüggvény¶ eloszlás ismeretlen paraméterθ ∈ Θ (Θ ⊂ Rk többdimenziós tartomány). Az X1 , , Xn minta dönteni szeretnénk a H0 és H1 hipotézisek között: H0 : θ ∈ Θ0 vers. H1 : θ ∈ Θ1 , ahol Θ0 ∩ Θ1 = ∅, Θ0 ∪ Θ1 = Θ, és a dim(Θ0 ) = r , dim(Θ) = k jelöléssel teljesül. Az n-elem¶ minta alapján konstruálandó próbastatisztika: λn (X1 , . , Xn ) = r<k supθ∈Θ0 Lθ
(X1 , . , Xn ) L∗0 . = ∗ L1 supθ∈Θ Lθ (X1 , . , Xn ) λn (X1 , . , Xn ) próbastatisztika eloszlását H0 fennál1−ε szignikanciaszinthez (ε kicsi) megkonstruáljuk a mintatér Amennyiben ismerjük a lása esetén, adott részét képez® Xk = {(x1 , . , xn ) : λn (x1 , , xn ) ≤ λε } kritikus tartományt, ahol a terjedelme ε legyen, azaz λε kritikus értéket úgy határozzuk meg, hogy a próba supθ∈Θ0 Pθ ((X1 , . , Xn ) ∈ Xk ) = ε Ezután, ha mintánk a kritikus tartományba esik, elutasítjuk, különben pedig elfogadjuk a nullhipotézist. 104. Deníció W ∼ Wp (n, I) W pozitív denit (ez 1 valón > p) és a X :=∼ Np (0, I) valószín¶ségi változók Legyenek a szín¶séggel teljesül, ha függetlenek. Akkor a T 2 = nXT W−1 X összefüggéssel deniált nevezzük n, p T2 valószín¶ségi változót Hotelling-féle paraméterekkel. A továbbiakban az n T 2 -eloszlás únak paraméterre, mint szabadság-
fokra hivatkozunk. T 2 -eloszlás a Student-féle t-eloszlás többp = 1, C = 1 esetben T 2 ≡ t2 /n. Megjegyezzük, hogy a Hotelling-féle dimenziós általánosítása: a 105. Állítás A W ∼ Wp (n, C) és X :=∼ Np (m, C) esetben T 2 = n(X − m)W−1 (X − m)⊤ valószín¶ségi változó szintén 106. Tétel Ha a akkor azaz T2 T2 T 2 -eloszlású n és p paraméterekkel. statisztika Hotelling elosszlású n és p paraméterekkel, n−p+1 · T 2 ∼ F(p, n − p + 1), p megfelel® konstansszorosa Fisher-féle paraméterekkel. F -eloszlású a zárójelben felsorolt 4.2 103 FELADATOK 4.2 Feladatok 1. Igazoljuk a Steiner-egyenl®ség következ® többdimenziós változatát: d ha x1 , . , xn , v ∈ R , akkor n ∑ (xk − v)(xk − v)⊤ = k=1 n ∑ (xk − x)(xk − x)⊤ + n(x − v)(x − v)⊤ . k=1 Tipp: Válasz: 2. Legyen X1 , . , Xn ∼ Nd (m, C) független minta. Igazoljuk, hogy Cov(X, Xi − X) = 0. Tipp: Válasz:
3. Legyen X1 , . , Xn ∼ N (µ, σ 2 ) minta. Adjuk meg az I1 Fisher-féle infor- mációs mátrixot! Tipp: Alkalmazzuk a többdimenziós FisherCochran-tételbeli deníciót. Válasz: (1 ) σ2 I1 = 4. Legyen X1 , . , Xn ∼ U (a, b) 0 0 2 σ4 független minta. Adjuk meg az I1 és In Fisher-féle információs mátrixokat! Tipp: Alkalmazzuk a többdimenziós FisherCochran-tételbeli deníciót. Válasz: ( ) I1 = ( I1 = 5. X1 , . , Xn egy a középpontú 1 (b−a)2 1 (b−a)2 1 (b−a)2 1 (b−a)2 n2 (b−a)2 n2 (b−a)2 n2 (b−a)2 b sugarú 2 , ) . (b−a)2 d-dimenzós gömbben egyenletes eloszlásból vett független minta. (a) Adjuk meg az I1 Fisher-féle információs mátrixot! (b) Adjunk maximum likelihood becslést a-ra b = 1 (c) Adjunk maximum likelihood becslést (a, b)-re! Tipp: esetben! 104FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS (a) Vegyük észre, hogy a s¶r¶ségfüggvény
értéke nem függ az a vek- tortól abban a tartományban, ahol ez az érték nem 0. Ugyanezt az elvet alkalmaztuk pl. [0, θ] intervallumon egyenletes minta Fisher-féle információjának kiszámításákor, és az el®z® feladatban is. Az el®z® feladat azért is érdekes, mert d = 1-re alkalmasan átparaméterezve ( ) b−a c = a+b ugyanez a helyzet. 2 és r = 2 (b) Minden olyan a vektor M-L becslés lesz, amely körüli 1 sugarú gömb tartalmazza a mintát. (c) a M-L becslése az a vektor lesz, amely körüli a teljes mintát tartalmazó körlap sugara minimális, míg b M-L becslése ez a minimális sugár Válasz: (a) Figyelembevéve, hogy a d-dimenziós gömb térfogata Cd bd , ahol Cd egy a dimenziótól függ® kosntans ami a számolás során kiesik: d2 b2 0 . . 0 0 0 . . . 0 . . . . 0 0 . . . 0 (b) Az Útmutató alapján pl. a síkon viszonylag egyszer¶ algoritmussal a mintát egy olyan négyzettel
burkoljuk, amely egyik élének iránya tetsz®leges, ennek középpontja alkalmas becslés. (c) Nem tudok rá gyors algoritmust. 6. 49 id®s embert az orvos két csoportba sorolt aszerint, hogy van-e szenilis faktor a viselkedésükben (I csoport) vagy sem (II csoport) Ezután elvégeztettek velük 4 pszichológiai tesztet (1. információ, 2 hasonlóság, 3 aritmetika, 4. képfelismerés), melyekre kapott átlagpontszámok az alábbi táblázatban láthatók: I. (n=37) II. (m=12) 1. 12,57 8,75 2. 9,57 5,33 3. 11,49 8,50 4. 7,97 4,75 Vizsgálja meg, 95%-os szignikanciaszinten elfogadható-e az a nullhipotézis, hogy a két csoport várhatóan nem különbözik szignikánsan a teszteredmények alapján. Feltesszük, hogy az egyes emberek teszteredményei 4dimenziós normális eloszlást követnek ismeretlen (közös) kovarianciamátrixszal 4.2 105 FELADATOK Az egyesített (49) elem® mintából számolt S−1 0,0052 −0,0028 = −0,0012
−0,0012 S = S1 + S2 mátrix inverze: −0,0028 −0,0012 −0,0012 0,0038 −0,0008 −0,0002 . −0,0008 0,0030 −0,0004 −0,0002 −0,0004 0,0042 Tipp: Válasz: 7. Legyen X1 , . , Xn ∼ Nd (m, C) (a) Adjuk meg az I1 (b) Igazoljuk, hogy független minta, ahol C ismert. Fisher-féle információs mátrixot! X hatásos becslése m-nek! (Használjuk a Cramér- Rao egyenl®tlenség többdimenziós változatát!) (c) Igazoljuk, hogy a H0 : m = m0 , H1 : m ̸= m0 hipotézisek vizs- gálatára konstruált próba likelihood-hányados teszt! (d) Igazoljuk, hogy az el®z® pontbeli teszt az u-próba általánosítása! Tipp: Válasz: 8. 20 atal emberre az A, B, C stimuláló szerek hatását vizsgálták a reak- cióid® szempontjából (századmásodpercben). X A = 21,05 X B = 21,65 X C = 28,95, 45,2 43,6 S = 43,6 53,2 32,6 36,4 32,6 36,4 . 49,4 95%-os szignikanciaszinten vizsgálja meg az egyenl® hatás elvét a C −B B
− A, különbségekre! (Feltesszük, hogy a hatások többdimenziós normális eloszlást követnek, és azt teszteljük, hogy a B vektor 0 lamint a véletlen C és B és A hatás különbsége, va- hatás különbsége mint 2-dimenziós normális eloszlású várható érték vektorúnak tekinthet®-e.) Megjegyezzük, hogy valójában a három stimulálószer hatása várható értékének egyenl®sége itt a nullhipotézis, azonban meggyeléseink nem független mintákra, hanem ugyanarra a 20 emberre vonatkoznak. Így a javasolt vizsgálat a tpróbánál bevezetett önkontrollos vizsgálat többdimenziós általánosításának tekinthet® Tipp: Válasz: 106FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS X1 , . , Xn ∼ Nd (m, C) független minta Vegyük az (m, C) paraméter (m̂, Ĉ) = (X, S/n) (maximum likelihood) becsléseit! 9. Legyen (a) Igazoljuk, hogy (X, S) (b) Torzítatlan becslése-e elégséges statisztika (m,
C)-re! (X, S/n) paraméternek? Ha nem, az (m, C) korrigáljuk! (c) Mutassuk meg, hogy a (Hotelling-féle) T 2 -próba a t-próba (kétoldali változatának) általánosítása (de az egyoldalinak nem)! (d) Konstruáljunk likelihood-hányados próbát a H0 : C = C0 hipotézis tesztelésére! ε terjedelm¶ egyenletesen leger®sebb próbát a NeymanH0 : (m, C) = (m0 , C0 ) vs. H1 : (m, C) = (m1 , C0 ) egyszer¶ alternatíva vizsgálatára! (e) Konstruáljunk Pearson alaplemma segítségével a Tipp: Válasz: 10. Igazoljuk, hogy a (Hotelling-féle) kétmintás T 2 -próba likelihood-hányados próba! Igazoljuk, hogy ez a teszt a kétmintás t-próba általánosítása! Tipp: Válasz: 11. Legyen X1 , . , Xn1 ∼ Nd (m1 , C1 ) és Y1 , , Yn2 ∼ Nd (m2 , C2 ) független minták. Konstruáljunk likelihood-hányados próbát a H0 : C1 = C2 , H1 : C1 ̸= C2 hipotézisek vizsgálatára (kétmintás T 2 próba feltételének ellen®rzése)! Tipp: Válasz: X1 , X2 , .
∼ Nd (m, C) fae Adjunk a H0 : (m, C) = (m0 , C0 ) H1 : (m, C) = (m1 , C0 ) egyszer¶ alternatíva eldöntésére szekvenciális eljárást (ε1 els®fajú és ε2 másodfajú hibával)! Adjuk meg a várható 12. Legyen vs. lépésszámokat! Tipp: Válasz: A1 , . , Ak teljes eseményrendszer, P(Ai ) = pi Legyen X az esk -dimenziós indikátorváltozója, valamint p = (p1 , , pk )⊤ Legyenek X1 , X2 . független vektorok, amelyek eloszlása megegyezik X 13. Legyen eményrendszer eloszlásával. (a) Mutassuk meg, hogy ∑n i=1 Xi ∼ P olyn (p1 , . , pk ) (b) Adjunk maximum likelihood becslést az els® p-re a Lagrange-multiplikátor módszerével! n mintaelem alapján 4.3 107 TESZTEK (c) Adjunk maximum likelihood becslést az els® p-re pk = 1 − p1 − . − pk−1 (d) Adjunk a H0 : p = p 0 vs. n mintaelem alapján felhasználásával is! H1 : p = p 1 egyszer¶ alternatíva el- döntésére szekvenciális eljárást (ε1 els®fajú és ε2
másodfajú hibával)! Adjuk meg a várható lépésszámokat! Tipp: Válasz: 4.3 Tesztek n elem¶ Nd (m, C) eloszlásból vett mintát (feltesszük, hogy I1 mátrix a C mátrix inverze). becslése a m-nek a maximum likelihood becslés? 1. Tekintsünk egy C invertálható, a több dimenziós Fisher Milyen (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, gyengén sem konzisztens. Válasz: (c) 2. Tekintsünk egy a C-nek n elem¶ Nd (m, C) eloszlásból vett mintát. Milyen becslése a maximum likelihood becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, gyengén sem konzisztens. Válasz: (a) 3.
Melyik teszt általánosítása a Hotelling-féle T2 próba (azaz egy dimenziós esetben melyiket kapjuk)? (a) u próba (b) t próba (c) F próba (d) χ2 próba Válasz: (b) 4. Hogy lehet két (egy- vagy többdimenziós) standard normális eloszlás (amelyek együttesen is normális eloszlásúak) függetlenségének tesztelésére alkalmazni a normális eloszlás kovarianciamátrixára vonatkozó próbát? 108FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS (a) Sehogy, mert az a többdimenziós normális eloszlás kovarianciamátrixára vonatkozik, nem függetlenségre. (b) Ha azonos a dimenziószam, a különbségváltozó kovarianciamátrixát teszteljük, hogy 0-e. (c) Összef¶zött változót teszteljük, kovarianciamátrixa egységmátrix-e. (d) Külön-külön teszteljük a két változót, kovarianciamátrixa egységmárixe és megnézzük, a két teszt ugyanazt adta-e eredményül. Válasz: (c) 5. fejezet Lineáris módszerek
1.: f®komponensanalízis, faktoranalízis 5.1 Elméleti háttér 5.11 Legyen F®komponensanalízis X ∼ Np (m, C), és tegyük fel, hogy a C kovarianciamátrix pozitív denit. X el®állítását A modell a következ®: keressük X = VY + m (5.1) m = EX, V p × p-s ortogonális mátrix (azaz V−1 = VT ), Y komponens¶, p-dimenziós normális eloszlású véletlen vektor alakban, ahol pedig független Vegyük észre, hogy az (5.1) el®állítás hasonló a 3 fejezetben tárgyalt (31)beli X = AY + m Y p-dimenziós standard normális eloszlású volt, a p×p-s AAT = C (nem egyértelm¶) felbontásból adódott. Ott Y felbontáshoz, de ott A mátrix pedig az komponensei függetlenek és 1 szórásúak voltak, míg a fenti (1.1) el®állításban Y komponenseit®l csak a függetlenséget követeljük meg, míg a transzformá- ciós mátrixtól ortogonalitást várunk el. Ez az el®állítás már egyértelm¶, ha Y komponenseit varianciáik (szórásnégyzeteik)
csökken® sorredjében rendezzük. (Ha a varianciák között adódnak egyenl®ek, akkor nincs egyértelm¶ség, ennek feltételét az alábbi eljárásból olvashatjuk ki.) Most megadjuk (5.1) a el®állítást Mivel valens az felbontással. Jelölje V invertálható, ezért (5.1) ekvi- Y = V−1 (X − m) = VT (X − m) C = UΛUT az X véletlen vektor kovarianciamátrixának Y kovarianciamátrixának diagonálisnak kell lennie. spektrálfelbontását. Ezzel 109 110FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS A spektrálfelbontás egyértelm¶sége értelmében [ ] [ ] EYYT = E V−1 (X − m)(X − m)T V = V−1 E (X − m)(X − m)T V = = V−1 CV = V−1 UΛUT V = (V−1 U)Λ(V−1 U)T diagonális mátrix f®diagonálisában csökken® elemekkel akkor és csak akkor, ha V−1 U = Ip , azaz V = U. (Itt kihasználtuk, hogy V, U, következésképpen V−1 U is ortogonális mátrix.) Megjegyezzük, hogy többszörös multiplicitású
sajátértékek esetén az U mátrix megfelel® oszlopai sem egyértelm¶ek (l. hy- perref[linalg]Lineáris algebra ). Így X = UZ + m lesz a kívánt felbontás, ahol Z jelöli a V=U választás melletti Y-t, azaz Z = U−1 (X − m) = UT (X − m). Ezt a Z-t az X véletlen vektor f®komponensvektor ának, komponenseit pedig f®komponenseknek nevezzük. Vegyük észre, hogy a az uk k -adik f®komponens az X−m változó komponenseinek vektor koordinátáival vett lineáris kombinációja: Zk = uTk (X − m) ahol uk Az C mátrix λk sajátértékéhez λ 1 ≥ λ2 ≥ · · · ≥ λp . a oszlopa), X (k = 1, . , p), tartozó normált sajátvektora (U k -adik véletlen vektor fenti felbontása eleget tesz az alább ismertetend® op- timalitási kritériumnak (a f®komponenseket ezzel is be lehetne vezetni). 107. Tétel Az els® f®komponens, Z1 szórása maximális az X−m véletlen vektor komponenseinek összes lehetséges normált (egységvektorral
képzett) lineáris Z2 szórása maximális az összes lehetséges, Z1 -t®l független normált lineáris kombinációéi közt; s.ít a k -adik f®komponens, Zk szórása max- kombinációéi között; Z1 , . , Zk−1 -t®l = 3, . , p) imális az összes lehetséges, ció szórása közt (k Tehát a független normált lineáris kombiná- Z p-dimenziós normális eloszlású véletlen vektor komponensei függetlenek λ1 ≥ λ2 ≥ · · · ≥ λp > 0 számokkal egyeznek meg. Ezt szemlél- és varianciáik a teti az alábbi ábra. ∑p A i=1 λi összeg a f®komponensek varianciáinak az összege (a továbbiakban teljes varianciának nevezzük), eredeti változóink teljes varianciája pedig kovarianciamátrix f®diagonálisbeli elemeinek összege, azaz trC. Mivel a ∑p C sajátértékei, ezért i=1 λi = trC, ami a varianciák nyelvén azt jelenti, hogy f®komponensek teljes varianciája megegyezik az eredeti változók a λi C számok teljes varianciájával,
és ebb®l a f®komponensek csökken® sorrendben részesülnek. A f®komponensek szórásai az ún kanonikus szórások (ezek a i = 1, . , p) √ λi számok, 5.1 111 ELMÉLETI HÁTTÉR 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 5.1 ábra F®komponensek elméleti és empirikus szórásnégyzetei Mivel a várható érték vektor hozzáadása csak egy eltolást jelent, a továb- 0 várható érték vektorú X Z = UT X f®komponenstranszel®jelezésével) egy p-dimenziós forgatás, baiakban ezt már levontnak képzeljük el, és eleve véletlen vektor-ból indulunk ki. Ezekután a formáció (a sajátvektorok alkalmas T hiszen az U mátrix ortogonális. A fentiek alapján a f®komponens transzformáció egyben azt is jelenti, hogy ha az u1 , . , up sajátvektorok alkotta bázisra térünk át, akkor ezekben az irányokban a transzformált változó varianciája maximális. 112FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS A
következ® állítás mondanivalója az, hogy a f®komponens tranzformáció forgatásinvariáns. 108. Állítás Legyen az kovarianciamátrixa pedig esetén az X és OX X p-dimenziós véletlen vektor várható érték vektora 0, C. Tetsz®leges O p × p-s ortogonális mátrix választása véletlen vektork f®komponensvektora megegyezik. Megjegyzezzük, hogy ha a C kovarianciamátrix helyett az R = D−1/2 CD−1/2 korrelációs mátrixból indulunk ki, akkor már skálainvariáns f®komponens vek- D a C mátrix f®X véletlen vektor komponenseinek varianciáit tartalmazó 1/2 diagonális mátrix, a D diagonálmátrix pedig a komponensek szórásait tartalmazza f®diagonálisában. Ha az X változót az X SX transzformációnak 2 vetjük alá, akkor az új változó komponenseinek varianciáit az SDS = DS = 2 S D diagonálmátrix fogja tartalmazni (kihasználtuk, hogy diagonális mátrixok szorzása kommutatív), az új kovarianciamátrix pedig az SCS mátrix lesz.
Így az SX véletlen vektor korrelációs mátrixa tort kapunk, viszont a forgatásinvarianciát veszítjük el. Itt diagonálisát, azaz az (S2 D)−1/2 SCS(DS2 )−1/2 = D−1/2 S−1 SCSS−1 D−1/2 = R lesz, ami a régi korrelációs mátrix. A forgatásinvariancia elvesztése onnan is látható, hogy tetsz®leges O ortogonális mátrix esetén az OX véletlen vektor korrelációs mátrixa, és annak spektrálfelbontása is alapvet®en más lesz, mint az eredeti X változóé volt. A f®komponensanalízis másik fontos optimumtulajdonságát fogalmazza meg a következ® tétel: nevezetesen, hogy az els® k f®komponens változónk legjobb k -dimenziós közelítését adja az alábbi értelemben. Az X p-dimenziós véletlen vektor k -dimenziós (k < p) közelítése alatt egy olyan véletlen vektort értünk, amely AX alakban áll el® valamely p × p-s, k -rang¶ A mátrixszal. Ugyanis AX értékeit 1 valószín¶séggel az A oszlopvektorai által kifeszített (k
-dimenziós) altérben veszi fel. 109. Tétel Legyen X ∼ Np (0, C) véletlen vektor Rögzített k < p-re az E∥X − AX∥2 k -rangú közelítés annak a projekciónak C kovarianciamátrix k legnagyobb sajátértékéhez kifeszített altérre vetít. (A λk = λk+1 esetben ez az al- legkisebb négyzetes eltérést minimalizáló a mátrixával adható meg, amely a tartozó sajátvektora által tér nem egyértelm¶.) Így a f®komponensanalízis a kovarianciamátrixnak nemcsak a 1.1 Tételbeli optimális felbontását adja, hanem a a kovarianciamátrixnak és így az eredeti változónak is alacsonyabb dimenziós közelítésére ad lehet®séget a 109 Tétel alapján (az els® egynéhány f®komponens megtartásával). A fenti tétel alkalmazásakor felmerül k választásának kérdése. Ehhez a λ1 + · · · + λ k λ1 + . + λp 5.1 113 ELMÉLETI HÁTTÉR hányadost használjuk, amely azt mutatja, hogy az els® variancia hányad részét magyarázza
(általában olyan melyre nagy az ugrás λk és λk+1 k f®komponens a teljes k -t célszer¶ választani, közt). A gyakorlatban az empirikus kovarianciamátrixból indulunk, amely többdimenziós normális eloszlást feltételezve az elméleti kovarianciamátrix maximum likelihood becslése. Mivel a sajátértékek és sajátvektorok a kovarianciamátrix folytonos függvényei, az empirikus kovarianciamátrix sajátértékei és sajátvektorai az elméletiek maximum likelihood becslései lesznek (amennyiben a kovarianciamátrix sajátértékei mind különböz®ek). A f®komponensanalízisnek akkor van értelme, ha kovarianciamátrixunknak vannak kiugró sajátértékei. k kiugró sajátérték megléte a H0 : λk+1 = · · · = λp−1 = λp hipotézis elfogadásával ekvivalens, hiszen p−k H0 fennállása azt jelenti, hogy a legkisebb k = 0, 1, . , p − 1 egészekre sajátérték egyenl®. A hipotézisvizsgálatot a ilyen sorrendben addig végezzük, amíg
adott szinten el nem fogadjuk a nullhipotézist. Ezzel a k -val megegyez® számú f®komponenst fogunk beválasztani. Likelihood hányados próbával adódik, hogy a −2 ln λn = n(p − k) ln a g statisztika (l. [26]) H0 fennállása esetén (amennyiben a mintaelemszám elég 2 nagy) közel χf eloszlást követ, ahol a és g a Ĉ empirikus kovarianciamátrix sajátértékeinek számtani- és mértani közepét jelöli: a= a χ2 λ̂k+1 + · · · + λ̂p p−k és 1 g = (λ̂k+1 . λ̂p ) p−k , eloszlás szabadságfoka pedig f= Ez az f 1 (p − k + 2)(p − k − 1). 2 nem más, mint a sajátértékek egyenl®ségére tett feltételek mellett a H0 fenállása esetén a sajátértékek (p) (p − k − 1)-gyel, a sajátvektorokat tartalmazó p × p-s ortogonális mátrixban lev® szabad paraméterek száma ((p−1)p/2) pedig (p−k−1)(p−k)/2vel, a (p − k) × (p − k)-as forgatások szabad paramétereinek számával (hiszen az azonos sajátértékhez
tartozó sajátvektorok egy (p − k)-dimenziós altérben paraméterek számának a csökkenése. száma csökken tetsz®legesen elforgathatók). 5.12 Faktoranalízis A f®komponensanalízisnél láttuk, hogy a módszer alkalmas a változók számának csökkentésére. A faktoranalízis célja eleve ez: nagyszámú korrelált változó magyarázata kevesebb korrelálatlannal (többdimenziós normális eloszlás esetén 114FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS a korrelálatlan helyett független mondható). Ezek a közös faktorok azonban nem magyaráznak meg mindent a változókból, csak azoknak az ún. közös részét Ezen kívül van a változóknak egy egyedi része is, amelynek leválasztása szintén a modell feladata. A közös faktorokra itt nem úgy kell gondolni, mintha közvetlenül meggyelhet® változók lennének. A k -faktor modell tehát a következ®. Adott a p-dimenziós X véletlen vektor m várható érték
vektorral és C kovarianciamátrixszal, többdimenziós normalitás esetén X ∼ Np (m, C). Adott k (1 ≤ k < p) egészre keressük az X = Af + e + m (5.2) A p×k -as mátrix, az f közös faktor 0 várható érték vektorú, kok -dimenziós véletlen vektor, komponensei 1 szórásúak, az e egyedi faktor p-dimenziós korrelálatlan komponens¶ véletlen vektor, ráadásul komponensei még f komponenseivel is korrelálatlanok. A modell feltevései felbontást, ahol rrelálatlan komponens¶, formálisan: Ef = 0, Eff T = Ik , Eε = 0, EeeT = f , EeeT = 0 k × p-es a azonosan 0 mátrix. Koordinátákra lebontva ez a következ®t jelenti: Xi = k ∑ aij fj + ei + µi , i = 1, . , p j=1 Mivel ei és fj korrelálatlanok, Xi varianciája cii = k ∑ a2ij + dii , j=1 diagonális mátrix i-edik diagonális eleme nem más, mint az ei vál∑k Xi varianciájából a j=1 a2ij részt magyarázzák a közös faktorok ezt nevezzük az Xi változó kommunalitás
ának ahol dii a D tozó (i-edik egyedi faktor) varianciája. Tehát , dii pedig az egyedi variancia. A modell paraméterei az A és D mátrixok. Az A mátrixot faktorsúly- mátrix nak (más terminológiával átviteli mátrixnak) nevezzük. Ezekkel a modell mátrixalakja a következ®: C = AAT + D. Látható, hogy X (5.3) tetsz®leges átskálázás után is leírható a k -faktor modellel, ugyanis SX = (SA)f + e + Sm teljesíti a (5.2) modell feltételeit Az is látható, hogy az sorainak tetsz®leges elforgatása után (azaz az O k × k -as AO A faktorsúly-mátrix transzformáció után is, ahol ortogonális mátrix) faktorsúly-mátrix marad a (5.2) modellben 5.1 115 ELMÉLETI HÁTTÉR Még adott k esetén is nehéz megtalálni a (5.3) felbontást Az egyértelm¶ség A mátrixra. k -faktor modell kedvéért szokás ezen kívül még további kényszerfeltételeket tenni az Például többdimenziós normális eloszlású X, e, e esetén a
paramétereinek maximum likelihood becslését keresve fel szokták tenni, hogy a C kovarianciamátrix nem-szinguláris, az AT D−1 A (5.4) mátrix pedig diagonális, diagonális elemei különböz®ek, és nem-csökken® sorrendbe vannak rendezve. Ez a feltétel bizonyos egyértelm¶séget biztosít a faktorok maximum likelihood becsléséhez, és a számolásokat is egyszer¶bbé teszi k -t A faktorok számát, k<p kicsire célszer¶ választani. Kérdés azonban, hogy n-dimenziós X véletlen vektor k -faktor modellel. Ehhez számoljuk össze a (53) modell paramétereit: Aban és D -ben összesen pk + p ismeretlen paraméter van, a (54) kényszerfeltétel 2 azonban a diagonálison kívüli elemek 0 voltára vonatkozón (1/2)(k − k) = (1/2)k(k − 1) egyenletet jelent (ez megegyezik a k × k -as forgatások szabad paramétereinek számával). Alapvet®en pedig van (1/2)p(p+1) egyenletünk (a C milyen természetes számokra írható le az a kovarianciamátrix
különböz® elemei a szimmetria miatt). A felírható egyenletek és a szabad paraméterek számának különbsége: s = (1/2)p(p + 1) + (1/2)k(k − 1) − (pk + p) = (1/2)(p − k)2 − (p + k). Általánosságban s ≤ 0 esetén várható az egyenlet algebrai megoldásának létezése. Ekkor k ≥ (2p + 1 − √ 8p + 1)/2. A faktormodell identikálhatóságán azt értjük, hogy rögzített meg tudjuk adni 110. Tétel D-t Adott és (5.5) k esetén egyértelm¶en A-t. k < p természetes szám esetén a (5.3) egyenlet pontosan p × p-s diagonális D mátrix (f®diagonálisában C − D mátrix pozitív szemidenit és rangja nem akkor oldható meg, ha van olyan nemnegatív elemekkel), hogy a nagyobb k -nál. A tétel valójában a C−D mátrix spektrálfelbontásából következik. A faktorok (5.4) melletti maximum likelihood becsléséhez legyen X ∈ Np (m, C), e ∈ Nk (0, Ik ) és e ∈ Np (0, D). Jelölje Ĉ az X-re vett n-elem¶ mintából
számolt empirikus kovarianciamátrixot. Ezekkel a likelihood függvény logaritmusa 1 1 − n log |C| − ntrC−1 Ĉ + c 2 2 c konstans (l. hyperref több dim gauss parmeter ML becslése, csak ott n-szeresére: S = nĈ). T Ezekkel a likelihood függvény logaritmusa a (5.3)-beli C = AA + D modellegyenlet miatt A és D függvényének tekinthet®, és ezekben kell maximalizálni lesz, ahol az S jelölést használtuk az empirikus kovarianciamátrix Könnyen látható, hogy a feladat ekvivalens az F (A, D) = log |AAT + D| + tr(AAT + D)−1 Ĉ függvény minimalizálásával. 116FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS 5.2 Feladatok 1. Legyen X d-dimenziós vektorváltozó és Y a Xi és Yj kovarianciáját! egy hozzá tartozó f®kompo- nensvektor. Adjuk meg Tipp: Az általánosság megszorítása nélkül feltehet®, hogy E(X) = 0, a továbbiakban, amikor ennek értelme van ezt mindig feltesszük. Ismeretes n ⊤ hogy Y = U X,
ahol U{uij |i = 1, j = 1 } az X véltelen vektor C = {cij |ni=1, j=1 } kovarianciamátrixának C = UΛU⊤ spektrálel®állításában szerepl® ortonormált mátrix. Eszerint n ∑ Yj = ukj Xk és így E(Xi · Yj ) = k=1 n ∑ ukj E(Xi Xk ) k=1 Válasz: E(Xi · Yj ) = n ∑ ukj cik k=1 ( 2. Legyen X ∼ N2 (0, C), ahol C= 1 ρ ρ 1 ) , ahol 0 < ρ < 1. Adjuk meg a f®komponenseket és a f®komponensvektor kovarianciamátrixát! Tipp: Az el®z® feladat Útmutatásában szerepl® deníciók alapján meg kell keresni a C matrix 2 sajátértéket, és a hozzájuk tartozó 1 normáju sajátvektorokat, melyekb®l öszzeáll az Válasz: U mátrix. √ ( ) 2 1 1 2 −1 1 ( ) 1+ρ 0 Y = U⊤ X, Cov(Y) 0 1−ρ λ1 = 1 + ρ, λ2 = 1 − ρ U = Megjegyezzük, hogy ρ > 0 esetén a fenti mátrixok a kanonikus (a sajátértékek csökken® sorrendjnek megfelel®) mátrixok. 3. Legyen X ∼ Nd (0, C), ahol C diagonális mátrix f®átlójában
különböz® (pozitív) értékekkel. Adjuk meg a f®komponensvektort! Tipp: Ha a C mátrix diagonális, akkor a f®komponensanalízis feladata a f®komponensek sorrendjét®l eltekintve megoldott. Válasz: Yi = Xπ(i) , ahol π az a permutáció, amely a C matrix sajátértékeit nemnövekv® sorrendbe rendezi. 4. Legyen X ∼ Nd (0, C), ahol C f®diagonálisának r valamely 0 < r < 1 számra. minden eleme 1, minden más eleme (a) Adjuk meg X els® f®komponensét! (b) Adjuk meg a f®komponensek szórásnégyzeteit! 5.2 117 FELADATOK Tipp: Ez a feladat a 2. feladat általánosítása, a C sajátértékei: 1 + (d − 1)r, 1√− r, . , 1 − r, Az 1 + r (maximális sajátértékhez tartozó) sajátvekd ⊤ tor: d (1, . , 1) , és mivel a maradék d − 1 sajátérték egyenl® a többi sajátvektor nincs (így az U mátrix és Y1 -en kívül a többi f®komponens sincs) egyértelm¶en meghatározva. √ ∑ n Y1 = dd j=1 Xj . A f®komponensek
szórásnégyzetei a Tippben megadott sajátértékek. Válasz: ( 5. Legyen X ∼ N2 (0, C), hood becslést Tipp: Az C X ahol C= λ1 0 0 λ2 ) . Adjunk maximum likeli- sajátértékeire! vektor két komponense (X1 , X2 ) két fuüggetlen normális eloszlású 0 várható érték¶ valószín¶ségi változó ezért λ1 és λ2 M-L becslése a komponensek alapján meghatározhatók, a skalár valószín¶ségi változók esetében szokásos módon. Válasz: λ̂j = Itt n 1 n ∑n k=1 Xj2 k (j = 1, 2) a mintaelemeszám. 6. A f®komponensanalízis egy módosított változatában az R = ri j |nij=1 d×d- s korrelációs mátrixból indulunk ki. (a) Mutassuk meg, hogy ezzel a módszerrel más megoldást kapunk, mint a kovarianciamátrixot használó modellben! (b) A Kaiser-kritérium azon sajátvektorokkal konstruált f®komponenseket választja, amelyekhez tartozó sajátérték legalább a sajátértékek átlaga. Igazoljuk, hogy tetsz®leges nemszinguláris
korrelációs mátrix sajátértékeinek átlaga 1! (c) Tegyük fel, hogy a korrelációs mátrix minden eleme nagyobb mint ε. Adjunk tart d-hez, ε-tol 1− olyan alsó becslést a legnagyobb sajátértékre, amely mid®n ε0 (egy nagy és sok kis szórású f®komponens van)! (d) Tegyük fel, hogy a korrelációs mátrix sajátértékei a legnagyobb kivételével kisebbek mint ε. ε-tol olyan alsó 1-hez, mid®n ε 0. Adjunk mumára, amely tart becslést korrelációk mini- Tipp: (a) Elegend® észrevenni azt, hogy a korrelációs mátrix független az X komponenseinek átskálázásától, míg a kovariancia mátrix függ ett®l, megváltoztathatja a sajátértékek sorrendjét, az tozók együtthatóit az Yi Xj valószín¶ségi vál- f®komponensekben. (b) Ismeretes, hogy a mátrix nyoma független attól, hogy a mátrix által deniált operátort milyen koordináta rendszerben felírt mátrixszal adjuk meg, így R sajátértékeinek összege d,
átlaga 1. 118FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS (c) Legyen ρ = min ri j , és írjuk fel a korrelációs mátrixot R = R1 + R2 alakban, ahol ρ ρ . . . 1 1 ρ. ρ 1. R1 = . . . . . ρ ρ. R2 f®átlójában 0-k, állnak, a többi eleme pedig ε. Alkalmazzuk R2 -ra a Gersgorin-tételt, az össze- alakú, míg mátrixot nem nagyobb, mint gre pedig a Weyl-perturbációs tételt. R els® sora (r) = (1, r2 , . rd ) a legnagyobb sajátértékhez e(1, e2 , . ed )⊤ (az általanosság korlátozása nélkül feltehetjük, hogy e els® koordinatája 1). Ekkor Re els® ko∑d ordinátája: 1 + j=2 rj ej A Schwartz-egyenl®tlenség miatt ez az összeg akkor maximális, ha ∀ j ej = rj , azaz a fenti összeg maxi∑d 2 muma: 1 + j=2 rj , ami a feltétel miatt angyobb, mint 1 − dε. (d) Tegyük fel, hogy tartozó sajatvektor pedig Válasz: (a) Az Útmutató alapján nyilvánvaló. (b) Az
Útmutató alapján nyilvánvaló. (c) d(1 − 2ε) becslést kapunk. (d) Mivel ∀ j |rj | ≤ 1, a Tippb®l következik, hogy nincs olyan j , amire rj2 < 1 − dε. Ugyanezt a meggondolás R minden sorára m¶ködik X = Af + e + m k -faktor modellt (X egy d-dimenziós veka d × k -as faktorsúlymátrix, f a k -dimenziós közös faktor Ik kovarianciamátrixszal, e d-dimenziós egyedi faktor D diagonális kovarian⊤ ciamátrixszal, amelyre E(fe ) = 0). 7. Tekintsük az torváltozó, A (a) Mutassuk meg, hogy ha i ̸= j , akkor Xi és ej korrelálatlanok! (b) Adjuk meg Xi változó és ei egyedi faktorkomponens kovarianciáját! (c) Adjuk meg Xi változó és fj közös faktorkomponens kovarianciáját! Tipp: ∑k X vektorváltozó iedik koordinátája: Xi = ℓ=1 ai ℓ fℓ +ei gyelemeb, hogy Efe a k × p-s azonosan 0 mátrix. (a) Az (b) A (a) pont alapján (c) Alkalmazzuk Xi Vegyük Eei ej (a) pontbeli felírásáat. Válasz: (a) Vegyük észre,
hogy ej az Xi komponens Tippben kifejtett alakjában szerepl® minden taggal korrelálatlan, ha i ̸= j. 5.2 119 FELADATOK (b) A faktormodell deniciója alapján di j (c) A faktormodell deniciója alapján di j és a Tipp (a) pontja alapján ai j . 8. A faktoranalízis modelljében legyen A és B két p × k -s (p > k ) faktorsúly⊤ ⊤ mátrix, amelyekre AA = BB . Mutassuk meg, hogy ekkor van olyan G k×k B = AG. méret¶ ortogonális mátrix, amelyre p × p-s AA⊤ és BB⊤ . mátrixok teljesen k leírják a A és B mátrixok p darab k dimenziós sora által alkotott R térbeli Tipp: Vegyük észre, hogy a alakzat geometriai struktúráját: a vektorok hosszait, és bármely két vektor által bezárt szöget. Tehát a két alakzat egybevágó Válasz: Bármely két Rk -beli egybevágó alakzat átvihet® egymásba egy k -dimenziós forgatással, és esetleg még egy tükrözés alkalmazasával. Ez eppen egy G ortonormált mátrixszal való
szorzás; ha |G| = −1, akkor tükrözni is kell. C = AA⊤ + D, ahol A egy d×k -s mátrix, D pedig egy d×d-s diagonális mátrix nemnegatív elemekkel. Tekintsük a d = 2 és k = 1 esetet! 9. A faktoranalízis modelljének mátrixalakja (a) Mikor van megoldása a fenti modellnek? A-ra (b) Adjunk maximum likelihood becslést és D-re! Tipp: (a) A modellben 4 paraméter van: a1 , a2 , d1 , d2 és 3 egyenlet: C1 1 = a21 + d1 C1 2 = a1 a2 C2 2 = a22 (5.6) + d2 , ezért ha van megoldás az általában nem egyértelm¶. AA⊤ alakú? a > 0 és az x Honnan vesszük észre, hogy egy mátrix A rangja 1, es nemnegatív denit, azaz bevezetve az paramétereket fennáll az a21 = a a1 a2 = xa a22 (5.7) 2 =x a egyenletrendszer. Írjuk be a (56) egyenletrendszerbe a (57) egyenletrendszert, és oldjuk meg, feltéve, hogy (b) Írjuk be az (a) pont megoldását a Válasz: C d1 = 0 mátrix M-L becslésébe. 120FEJEZET 5. LINEÁRIS MÓDSZEREK 1:
FKOMPONENSANALÍZIS, FAKTORANALÍZIS (a) A megoldás a-ra és x-re: a = c1 1 x = c1 2 /c1 1 , ezért a1 = √ a2 = (a1 c1 2 )/c1 1 . Mivel a fentiekb®l következik, hogy d2 = c2 2 − azaz amegoldhatosaág feltétele (b) A 5.3 C mátrix M-L becslése Tesztek c2 2 > 1 n S, ahol n c21 2 c1 1 . a mintaelemszám. c1 1 c21 2 c1 1 , 6. fejezet Lineáris módszerek 2.: regresszióanalízis, a legkisebb négyzetek módszere 6.1 Elméleti háttér 6.11 Regresszióanalízis A többváltozós regressziós problémában az tozó) szeretnénk az X 1 , . , Xp Y valószín¶ségi változót (függ® vál- valószín¶ségi változók (független változók) füg- gvényével közelíteni legkisebb négyzetes értelemben. Amennyiben ismerjük az Y, X1 , . , Xp véletlen vektor együttes eloszlását (tegyük fel, hogy ez abszolút folytonos, az együttes s¶r¶ségfüggvényt jelölje f (y, x1 , . , xp )), akkor E(Y − g(X1 , . , Xp ))2 minimumát
a p-változós g függvények körében Y -nak az X1 , . , Xp változók adott értéke mellett vett feltételes várható értéke szolgáltatja: ∫∞ gopt (x1 , . , xp ) = E(Y |X1 = x1 , , Xp = xp ) = ∫−∞ ∞ yf (y, x1 , . , xp )dy −∞ f (y, x1 , . , xp )dy , ezt nevezzük regressziós függvénynek. Adott f s¶r¶ségfüggvény mellett sem mindig triviális a fenti integrál kiszá- molása, általában azonban f nem adott, csak egy statisztikai mintánk van a (m) (m) (m) függ® és független változókra az (Y , X1 , . , Xp ), (m = 1, , n) független, (p + 1)-dimenziós meggyelések formájában. A legegyszer¶bb ilyenkor a fenti minimumot a lineáris függvények körében keresni, ezt nevezzük lineáris re- gressziónak. Erre az esetre vezethet® vissza olyan függvényekkel való közelítése Y -nak, amely az Xi változók lineáris függvényének monoton (például exponen- ciális, logaritmikus) transzformációja.
Ilyenkor az inverz transzformációt alka121 122FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE 6.1 ábra Regressziós görbe becslése lmazva Y -ra, az így kapott új függ® változón hajtunk végre lineáris regressziót az eredeti független változók alapján. A másik érv a lineáris regresszió mellett az, hogy amennyiben együttes eloszlása (p + 1)-dimenziós Y, X1 , . , Xp normális, akkor a feltétele várható érték képzés valóban lineáris függvényt ad megoldásul (l. 17 Állítást, es (61???) Feladatot) Térjünk rá a lineáris regresszióra. A legjobb Y ∼ l(X) = a1 X1 + · · · + ap Xp + b lineáris közelítést keressük legkisebb négyzetes értelemben, azaz minimalizálni akarjuk az E(Y − (a1 X1 + · · · + ap Xp + b))2 kifejezést az a1 , . , ap és b együtthatókban A megoldáshoz el®ször is szabaduljunk meg a várható értékekt®l, azok csak zavarnak a számolásban, a változók
szórása, kovarianciája, mint látni fogjuk, nem változik meg ezáltal. Tehát legyen Y ′ = Y − EY, Xi′ = Xi − EXi , (i = 1, . , p), ezeknek az ún. centrált változóknak a várható értéke már 0 lesz Így célfüggvényünkön az E(Y − a1 X1 − · · · − ap Xp − b)2 = =E({Y ′ − a1 X1′ − · · · − ap Xp′ }+ +[EY − a1 EX1 − · · · − ap EXp − b])2 = =E(Y ′ − a1 X1′ − · · · − ap Xp′ )2 (6.1) 6.1 123 ELMÉLETI HÁTTÉR átalakítás végezhet® el, mivel EY − a1 EX1 − · · · − ap EXp − b = 0. Ebb®l a b együtthatóra (ha ai -k már ismertek lennének) rögtön adódik, hogy b = EY − a1 EX1 − · · · − ap EXp , így b-vel a továbbiakban már nem foglalkozunk. Ezek után az Y ′ ∼ l(X′ ) = a1 X1′ + · · · + ap Xp′ lineáris közelítést keressük legkisebb négyzetes értelemben, azaz minimalizálni akarjuk az E(Y ′ − (a1 X1′ + · · · + ap Xp′ ))2 kifejezést az
a1 , . , ap együtthatókban, feltéve, hogy E(Xp′ ) = 0. Ecélból a (6.2) E(Y ′ ) = E(X1′ ) = · · · = Ca = d a = (a1 , . , ap )T , C jelöli az X váld ∈ Rp vektor pedig az Y változónak X egyenletrendszert kell megoldani, ahol tozó p × p-s kovarianciamátrixát, a komponenseivel vett (kereszt)kovarianciáit tartalmazza. Ennek az egyenletrendszernek létezik egyértelm¶ megoldása, ha a −1 tehát a = C d. C kovarianciamátrix invertálható, A fenti közelítés maximalizálja korrelációt a következ® értelemben. Jelöljük ℓ(X) a fenti lineáris regressziós feladat megoldását, es vezessük be a többszörös korrelációs együttható fogalmát. 111. Deníció Az Y X1 , . , Xp függ® változók közötti többl(X) korrelációját értjük és rY (X1 ,,Xp ) -vel független- és az szörös korrelációs együtthatón Y és jelöljük. A p = 1 esetben a többszörös korrelációs együttható a függ®- és az egyetlen
független változó közötti valódi korrelációs együttható. 112. Állítás Az X1 , . , Xp valószín¶ségi változók tetsz®leges h(X) lineáris kombinációjára |rY (X1 ,.,Xp ) | = |Corr(Y, ℓ(X))| ≥ |Corr(Y, h(X))| Az alábbi ábrák egyváltozós esetben mutatják a becsléseket. 6.12 Legkisebb négyzetek módszere x1 , . , xp mérési pontok, melyek beállíthatók (tehát nem valószín¶ségi a1 , . , ap paraméterekkel lineáris kombinációira vonatkoznak, és mérési hibával terheltek. Jelölje ε Legyenek változók), méréseink pedig ezek valamely ismeretlen való 124FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE 6.2 ábra Regressziós egyenes pozitív korreláció esetén 6.3 ábra Regressziós egyenes negatív korreláció esetén a mérési hibát, E(ε) = 0. Y a mért értéket, ezek valószín¶ségi változók. Feltehet®, hogy Modellünk tehát a következ®: Y = a1 x1 + · · · + ap xp +
ε, 6.1 ELMÉLETI HÁTTÉR 125 6.4 ábra Regressziós egyenes függetlenn minta esetén 6.5 ábra Regressziós egyenes nagy korreláció esetén ami hasonlít a többváltozós regresszióéhoz, csak ott Xi -k valószín¶ségi változók. ∑p E(Y ) = j=1 aj xj . T Célunk az ismeretlen a = (a1 , . , ap ) paramétervektor (oszlopvektor) legkisebb Itt négyzetes becslése n mérés alapján (n ≥ p, általában n sokkal nagyobb, mint p). 126FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE Az i-edik Yi , jelölje mérés az (xi1 , . , xip ) p-dimenziós pontban történik, a mért értéket εi , (i = 1, . , n) Vezessük be még a következ® a mérési hibát pedig jelöléseket is: Y := (Y1 , . , Yn )T , ε := (ε1 , . , εn )T n-dimenziós oszlopvektorok, az xij (i = 1, . , n; j = 1, , p) mérési pontokat pedig az n×p-s X mátrixban gy¶jtjük össze. X oszlopvektorait jelölje x1 , , xp ! Ezekkel a
jelölésekkel a (4.1) rendszeregyenlet Y = Xa + ε alakban írható, ahol tehát E(ε) = 0, továbbá tegyük fel, hogy a mérési hibák korrelálatlanok (normális eloszlás esetén függetlenek) és azonos szórásúak, azaz ε kovarianciamátrixa σ 2 In alakú. Ekkor persze a mérések is korrelálatlanok, és ugyanaz a kovarianciamátrixszuk, mint ε-é: E(Y − Xa)(Y − Xa)T = EεεT = σ 2 In , ahol a σ szintén ismeretlen paraméter, melyet majd a végén becsülni fogunk. Az ismeretlen paraméter legkisebb négyzetes becslésén azt az a vektort értjük, amelyre a mérési hibák négyzetösszege, n ∑ ε2i = ∥Y − Xa∥2 = (Y − Xa)T (Y − Xa) = (YT − aT XT )(Y − Xa) = i=1 = YT Y − aT XT Y − YT Xa + aT XT Xa minimális. A keresett a vektor az XT Xa = XT Y (6.3) A normálegyenleteket a geometriai szemlélet alapján is megkaphatjuk következ®kép∥Y − Xa∥2 nyilván akkor minimális a-ban, ha Xa az Y vektornak az F n altérre való
mer®leges vetülete, ahol az F ⊂ R alteret X oszlopvektorai (az pen. x1 , . , xp vektorok) feszítik ki, dim(F ) = r ≤ p (tipikusan p-vel egyenl®, ha az xi vektorok lineárisan függetlenek). Jelölje P ennek az r -rangú ortogonális projekciónak az n × n-es mátrixát! Ezzel az optimális a-ra Xa = PY és Y = PY + (I − P)Y, azaz Y = Xa + (Y − Xa), Xa vektor az x1 , . xp vektorok lineáris kombinációja Mivel Xa ∈ F , Y−Xa pedig mer®leges F -re, ezért Y−X mer®leges F tetsz®leges vektorára, p ami Xb alakú lesz valamely b ∈ R vektorral. Így ugyanis az (Xb)T · (Y − Xa) = 0, ∀b ∈ Rp . Ebb®l bT XT (Y − Xa) = 0, ∀b ∈ Rp . 6.1 127 ELMÉLETI HÁTTÉR Ez csak úgy lehetséges, ha XT (Y − Xa) = 0, azaz XT Y = XT Xa adódik, ami nem más, mint a (6.3) normálegyenlet A normálegyenlet mindig T T konzisztens, hiszen az X Y vektor benne van az X mátrix oszlopvektorai által T kifeszített altérben, és ugyanezt az alteret
feszítik ki az X X mátrix oszlopai is. T A megoldás pontosan akkor egyértelm¶, ha az X X mátrix rangja r = p(≤ n), ilyenkor a megoldás â = (XT X)−1 XT Y alakban írható. A gyakorlatban általában az XT X mátrix invertálható. Az a vektornak a normálegyenlet megoldásaként kapott becslése torzítatlan, igaz a következ® állítás: 113. Állítás r=p Ha és ε ∼ Nn (0, σ 2 In ), A GaussMarkov-tétel szerint akkor â ∼ Np (a, σ 2 (XT X)−1 ). â minimális kovarianciamátrixú az a-ra vonatkozó lineáris, torzítatlan becslések között. 114. Tétel Legyen r=p és tatlan becslése. Ekkor azaz a A D2 (ã) − D2 (â) σ2 ã az a paramétervektor tetsz®leges lineáris torzí- D2 (â) ≤ D2 (ã), mátrix pozitív szemidenit. közös szórásnégyzet becsléséhez vezessük be a következ® jelölést: Sε2 := ∥Y − Xâ∥2 = (Y − Xâ)T (Y − Xâ), ezt a mennyiséget reziduális varianciának nevezzük. 2 A
geometriai szemlélet (projekciók) alapján Sε a következ® alakban is írható: Sε2 = (Y − PY)T (Y − PY) = ((I − P)Y)T ((I − P)Y) = = YT (I − P)2 Y = YT (I − P)Y, n − p. Ezért Sε2 az I36 2 Állítás a. része alapján el®állítható n − p db független, σ varianciájú, normális 2 2 2 eloszlású valószín¶ségi változó négyzetösszegeként, így Sε ∼ σ χn−p , továbbá 2 2 E(Sε ) = σ (n − p). Ebb®l az is következik, hogy mivel I−P is egy projekció mátrixa, melynek rangja σ̂ 2 = torzítatlan becslés r < p, a P σ 2 -re. Sε2 n−p Megjegyezzük, hogy amennyiben az projekció rangja is r, következésképpen σ̂ 2 = Sε2 n−r X mátrix rangja 128FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE a σ2 paraméter torzítatlan becslése. Megjegyezzük, hogy ha a konstans tagot is becsüljük, akkor a nevez®ben n−r−1 áll. Az alábbi animáció szemlélteti, hogy nagy
szórás esetén egy pont mennyire változtatja meg a becslést. A H0 : a1 = · · · = an = 0 Nullhipotézis tesztelésére a likelihood-hányados próbát használjuk, ebben a szerencsés esetben a λn próbafüggvény az ismert F = (F(p, n − p)) eloszlású Y⊤ PY n−p · − P)Y p Y⊤ (I statisztikának szigorúan monoton függvénye. 6.2 Feladatok (Y, X1 , . , Xm ) ∼ N (0, C), 1. Legyen minden más eleme 0. Adjuk meg az ahol cii = 1 és c1i = ci1 = 1/m, C E((Y − g(X1 , . , Xm ))2 )-et mininal- izáló regressziós függvényt! Tipp: a meghatározásához ld. lineáris regresszió Válasz: l(X) = (X1 + . + Xm )/m 2. Igaz-e, hogy ha aX + b (a) X, Y véges szórású valószín¶ségi változók, valamint r(X, Y ) = a · D(X) ? D(Y ) (b) Tetsz®leges valós számokra Tipp: Y ∼ a legjobb lineáris közelítés négyzetes értelemben, akkor Centráljuk az Y és X E((Y −(aX +b))2 ) ≥ (1−r(X, Y ))D2 (Y )? valószín¶ségi
változókat: ′ X = E(X) Y ′ = Y − E(Y ). Ebb®l a modell alapján azonnal leolvasható, hogy ha a ismert, akkor b = E(Y ) − aE(X). Válasz: Mindkett® igaz. 3. Legyen (Y, X1 , . , Xm ) ∼ N (m, C) Adjuk meg az E((Y −g(X1 , , Xm ))2 )- et mininalizáló regressziós függvényt! Tipp: Jelölje ℓ(x1 , . , xm ) azt a lineáris függvényt amely a lineáris E((Y − ℓ(X1 , . , Xm ))2 ) négyzetes függvények körében minimalizálja a eltérést. E((Y − ℓ(X1 , . , Xm ))Xj ) = 0 minden j = 1, , m-re A 90 Y − ℓ(X1 , . , Xm ) független az Xj Állítás miatt ebb®l következik, hogy valószín¶ségi változóktól. Válasz: Alkalmazzuk a 16 és 17 Állításokat 6.2 129 FELADATOK 4. Igazoljuk, hogy ha Y ∼ aX + b (a) X, Y véges szórású valószín¶ségi változók, valamint a legjobb lineáris közelítés négyzetes értelemben, akkor r(X, Y ) = a · D(X) , D(Y ) (b) Tetsz®leges valós számokra Tipp:
Centráljuk az Y és X E((Y −(aX +b))2 ) ≥ (1−r(X, Y ))D2 (Y ). valószín¶ségi változókat: X ′ = E(X) Y ′ = Y − E(Y ). (a) Ebb®l a modell alapján azonnal leolvasható, hogy ha a ismert, akkor b = E(Y ) − aE(X). (b) Ezek után az a paramétert becsülhetjükaz Y ′ ∼ aX ′ modell alapján. Válasz: (a) Az Útmutató (b) pontja alapján nyilvánvaló. a (b) Ha és b a becslés alapján kapott számok, akkor a kérdés (b) pon- tjában egyenl®ség áll, egybként pedig a Schwartz-egyenl®tlenség következménye. 5. Tekintsük az (X, Y ) véletlen vektort, az l1 (X) = aX l1 (X))2 ) minimális) és az l2 (Y ) = cY + d (amelyre imális) regressziós egyeneseket. Mikor teljesül, hogy Tipp: + b (amelyre E((Y − E(X − l2 (Y ))2 minc = 1/a? Oldjuk meg a E(Y ) = a + E(X)bE(XY ) = E(X)a + [E(X)]2 b normálegyenletet, és ugyanezt az Válasz: Ha X↔Y szerepcserével. Cov(X, Y ) = ±1. x1 , . , xn mérési pontok, továbbá Y1 , , Yn
változók amelyek Yi = axi + b + ϵi , i = 1, . , n regressziós modellt, ahol a 2 hibák ϵ1 , . , ϵn ∼ N (0, σ ) független valószín¶ségi változók 6. Legyenek kielégítik a mérési (a) Adjunk maximum likelihood becslést az (a, b, σ 2 ) paraméterre a Y minta segítségével! (Mi köze a kapott becslésnek a legkisebb négyzetek módszeréhez?) (b) Igazoljuk, hogy ha a és b fenti becslései pontosan akkor korrelálatlanok, x = 0. (c) Adjunk kondencia-intervallumot (d) Konstruáljunk a H0 : a = a0 jedelm¶ próbát, feltéve, hogy és b és a-ra, ha b=0 H1 : a ̸= a0 σ 2 ismert! (e) Konstruáljunk likelihood-hányados próbát 2 hipotézisekhez, ha b = 0 és σ ismeretlen! és σ ismert. hipotézisekhez H0 : a = a0 és ε ter- H1 : a ̸= a0 130FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE (f ) Konstruáljunk likelihood-hányados próbát 2 hipotézisekhez, ha b és σ ismeretlen! H0 : a = a0
és H1 : a ̸= a0 (g) Hogyan ellen®rizhetjük a modell alkalmazhatóságát, azaz a mérési hibákra vonatkozó feltételek teljesülését? Tipp: Az egyszer¶bb írásmód kedvééert bevezetjük a következ® jelöléseket: X =(x1 , . , xn )⊤ Y =(Y1 , . , Yn )⊤ Továbbá írjuk fel a minta s¶r¶ségfüggvényét ismert mellett (Nota Bene: xi -k f (y1 , . , yn ) = a, b és σ 2 paraméterek NEM valószín¶ségi változók): 1 exp{− (2πσ 2 )n/2 (a) Írjuk fel a modell alapján az ∑n i=1 (yi − axi − b)2 } 2σ 2 (6.4) Y1 , . , Yn valószín¶ségi változók likelia és b paraméterek becslése ép- hood függvényének logaritmusát. Az pen a lineáris modell (legkisebb négyzetek módszere) alapfeladatának megoldása. Ezután alkalmazzuk a töbdimenziós M-L becslés paragrafusban tárgyalt módszert (b) Írjuk fel a normálegyenletet, ami ekkor két független egyenlet lesz a-ra és b-re, b̂ = Ȳ. Megforditva: oldjuk meg a
normálegyenletet. 2 (c) Az egyszer¶ség kedvéért tegyük fel, hogy σ = 1. A normálegyenlet ⊤ X Y ⊤ −1 megoldása: â = Ekkor â ∼ N (a, (X X) ). X⊤ X (d) Alkalmazzuk az u-próbát a (c) pont felhasználásával. (e) A próbafüggvényt két s¶r¶ségfüggvény hányadosaként kapjuk meg: 2 a számlálóban a minta s¶r¶ségfüggvényében a = a0 , b = 0 és σ ∑n 2 ugyanezen feltevések melletti S(ε, a0 , 0) = i=1 (yi −a0 xi ) /n beslése 2 áll, míg a nevez®beli s¶r¶ségfüggvényben a = â, b = 0 és σ ugyanezen ∑n 2 feltevések melletti S(ε, â, 0) = i=1 (yi − âxi ) /n becslése áll. Veg−n/2 yük észre, hogy az exponenciális faktor mindkét esetben e -vé egyszer¶södik. σ 2 becsleésében b = 0 nevez®ben b = b̂ áll. (f ) Hasonló a (d) ponthoz, csak számlálóban mind a helyett mind a (g) Azt kell ellen®rizni, hogy az egyes reziduális epszilonok független azonos eloszlásúk-e. Ilyenkor autokovarianciát alkalmazunk, ami itt
azt jelenti, hogy a rezidualis szórások indexeit 1-gyel eltoljuk és az eredeti valamint az eltolt vektor kovarianciáját számojuk. Válasz: σ2 becslésére kell kitérni: Jelölje â, ilb̂ ∑ az a, illetve b paraméterek M-L becsléseit továbbá legyen n S(ε) = i=1 (Yi − âxi − b̂)2 reziduális szórásnégyzet. A σ 2 M-L becslése S(ε)/n (a) Az Útmutató alapján csak a letve 6.2 131 FELADATOK (b) Az egyik irány várható érték képzéssel adódik a Tippb®l. A másik irány abból következik, hogy a normálegyenlet megoldásaként (l. (c) pont) számított (c) â ± Cov(â, b̂) = cx̄, √ 1 Φ−1 (1 X⊤ X ahol c ̸= 0. − ε/2). (d) Ha [ ] 1 1 −1 −1 â ̸∈ a0 − √ Φ (1 − ε/2), a0 + √ Φ (1 − ε/2) . X⊤ X X⊤ X elvetjük a H0 hipotézist. (e) Az Útmutató alapján a λ(y1 , . , yn ) próbafüggvény az exonenciális tényez®k elött álló tényez®k hányadosa lesz: ( ∑n )n/2 2 i=1 (yi − âxi ) ∑
λ(y1 , . , yn ) = n 2 i=1 (yi − a0 xi ) (f ) (∑ n λ(y1 , . , yn ) = (yi − âxi − b̂)2 ∑ni=1 2 i=1 (yi − a0 xi − b̂) )n/2 (g) 7. Tekintsük az Y = a⊤ x+ϵ regressziós modellt, ahol ϵ ∼ N (0, σ 2 ), σ 2 ismert értékre. Konstruáljuk meg a Neyman-Pearson alaplemma segítségével a H0 : a = a0 vs. H1 : a = a1 egyszer¶ alternatívához tartozó ε terjedelm¶ próbát! Tipp: Írjuk fel a feladatban szerepl® modellt koordinátánként. Yi = d ∑ aj xi j j=1 Írjuk fel a minta s¶r¶ségfüggvényeit ismert a0 , (a1 ) és σ2 paraméterek mellett: f0 (y1 , . , yn ) = 1 exp{− (2πσ 2 )n/2 1 f1 (y1 , . , yn ) = exp{− (2πσ 2 )n/2 ∑n i=1 (yi ∑n i=1 (yi − − ∑d j=1 2σ 2 ∑d j=1 2σ 2 a0,j xi j )2 a1,j xi j )2 } } Tegyünk két észrevételt. (a) f1 /f0 hányados kitev®jében csak a tag konstansszorosa szerepel. ∑n i=1 yi ( ∑d j=1 ∑d a1,j xi j − j=1 a0,j xi j ) 132FEJEZET 6.
LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE (b) Mivel az els®fajú hiba rögzitett a feladat valójában nem más mint ∑d 2 u-próba szerkesztése j=1 a0,j xi j várható érték¶ σ szórásnégyzet¶ normális eloszlásra Válasz: Ha ∑d j=1 n minta alapján. a1,j xi j > ∑d j=1 a0,j xi j akkor a kritikus tartomány { } ∑d √ Ȳ − j=1 a0,j xi j −1 n > Φ (1 − ε) σ Y = a1 x1 + . + ad xd + b + ϵ regressziós modellt és a H0 : a1 = . = ad = 0 hipotézist tesztel® regresszióanalízist ∑n ∑n ∑n 2 2 (a) Legyen Q = i=1 (Yi − Y ) , Qr = i=1 (Ŷi − Y ) és Qe = i=1 (Ŷi − 2 Yi ) , ahol Ŷi = â1 xi,1 + . + âd xi,d + b̂ Igazoljuk, hogy Q = Qr + Qe 8. Tekintsük az (b) Jelölje Rn meg, hogy a többszörös korrelációs együttható becslését. Mutassuk Qr Q . Rn2 = (c) Igazoljuk, hogy a próbastatisztika F = (n−d−1)Qr dQe = 2 (n−d−1)Rn alakok2) d(1−Rn ban is felírható! (d) Vessük
össze a regresszióanalízist a korrelációs együtthatókra vonatkozó tesztekkel! Indokolt-e a regresszióanalízist függetlenség tesztelésére használni? Tipp: Válasz: 9. Vessük össze a lineáris regresszió megoldását (a = C−1 d, ha a várható értékek 0-k) a determinisztikus változók esetén kapott megoldással (â (X⊤ X)−1 X⊤ Y)! Tipp: Válasz: Vegyük észre, hogy 10. Igazoljuk, hogy (XX⊤ ) éppen C = M-L becslése. X⊤ X pontosan akkor nemszinguláris, ha X oszlopvektorai lineárisan függetlenek. Tipp: Lehetne hivatkozni lineáris algebrai tételekre, de a legkisebb né- gyzetek módszerének témaköréhez tartozó egyszer¶ meggondolás is célravezet®. Válasz: A legkisebb négyzetek módszerének geometriai interpretációja következ®: Keressük az Y vektornak az X mátrix oszlopvektorai által kifeszített térre való mer®leges vetületét. Ez a vetület pontosan akkor fejezhet® ki egyértelm¶en ezen vektorok
lineáris kombinációjával, ha lineárisan függetlenek. A normálegyenlet egyértelm¶ megoldhatóságanak pedig éptop pen az a szükséges és elegséges felétele, hogy az XX mátrix nemszinguláris. 6.3 133 TESZTEK 11. Tekintsük a következ® multiplikatív modellt: Y = bX1a1 ·. ·Xkak Vezessük vissza a lineáris modellre, és adjunk becslést a paraméterekre a módosított modellben a legkisebb négyzetek módszerével! Más becslést kapnánk-e, ha a legkisebb négyzetek módszerét közvetlenül az eredeti modellre alkalmaznánk? Tipp: ellt: Az eredeti modell helyett tekintsük az alábbi logaritmikus mod- log Y = log b + a1 log X1 + . + ak log Xk Válasz: A feladat elo® részének megoldásat tartlamazza a Tipp, a má- sodik részre a válasz, IGEN, mas becslést kapnánk, ez ellen®rizhet® a b = 0, a2 = 0, . , ak = 0 modellen két mintaelem esetén. 12. Polinomiális regresszió esetén a modell Y i A megoldást úgy keresik, hogy az X = =
b + a1 X + . + ak X k alakú Xi valószín¶ségi változókat for- málisan függetleneknek tekintik és megoldják a rájuk vonatkozó többi j változós lineáris regresszió feladatát. Viszont X és X általában nem független változók. Okoz-e ez problémát a megoldás egyértelm¶sége tekintetében? Miért? Tipp: Írjuk fel a modellhez tartozó normálegyenlet mátrixát a várható érték képzés el®tt, pl k = 2-re: R ( 1 X X2 ) Ez a mátrix a egy valószín¶séggel 1-rangú, amib®l nem következik, hogy a várható érték vétel után is 1-rangú marad. Válasz: valójában nem okoz problémát, mert Y -t az X Hermitepolinomjaival is közelíthetjük (ezek éppen a Gauss-s¶r¶ségre nézve ortogonális polinomok, amelyekb®l az X hatványai egyértelm¶en visszaszámolhatók) és ebben a sémában a normálegyenlet mátrixa diagonalis lesz! Mármost ez túl megy a zaróvizsga tételeken!!!!! 6.3 Tesztek 134FEJEZET 6. LINEÁRIS MÓDSZEREK 2:
REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE 7. fejezet Lineáris módszerek 3.: Egy- és többszempontos varianciaanalízis 7.1 Elméleti háttér A varianciaanalízis speciális lineáris modelleket vizsgál, kísérlettervezésben és min®ségellen®rzésben felmerül® hipotézisek tesztelésére. A tekintett modellek specikuma az, hogy a legkisebb négyzetek módszerénel alkalmazott modellben a beállítható mérési pontok mátrixa helyett 0-1 elemekb®l álló ún. struk- túramátrixszal dolgozunk, amelyet úgy állítunk össze, hogy bizonyos meggyelések csak bizonyos paraméterekt®l függjenek. A hipotézisek vizsgálata is a likelihood hányados próba analógiájára történik. Gyakorlati alkalmazásokban olyan mintákat vizsgálunk, melyeket különböz® körülmények közt gyeltünk meg, és célunk éppen annak a megállapítása, vajon ezek a körülmények jelent®sen befolyásolják-e a mért értékeket. Tehát mintánkat eleve csoportokba
osztottan kapjuk, feltesszük azonban, hogy a különböz® csoportokban felvett minták egymástól függetlenek, normális eloszlásúak és azonos szórásúak. A Tananyagban csak az egyszempontos varianciaanalízissel és a kétszempontos varianciaanalízis interakciót tesztel® változatával foglalkozunk, ugyanis az interakció nélküli kétszempontos varianciaanalízis csak formálisan bonyolultabb az egyszempontosnál, de új jelenséget nem vizsgál. 7.11 Egyszempontos varianciaanalízis Valamilyen szempont alapján (például különböz® kezelések) k csoportban külön végzünk meggyeléseket. Az egyes csoportokban a mintaelemek száma általában ∑k nem egyenl®: jelölje ni az i. csoportbeli mintaelemek számát, n = i=1 ni pedig 2 az összminta elemszámát. Az i csoportban az Xi ∼ N (bi , σ ) valószín¶ségi 135 136FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI változóra vett mintaelemeket Xij ∼ N (bi , σ 2 ),
(j = 1, . , ni ) i-kre is függetlenek, bi = m + ai felbontást alkalmazzuk, átlaga, ai pedig az i. csoport hatása: jelöli. Ezek egymás közt és különböz® azonos szórásúak. A várható értékekre a ahol értékek súlyozott 1∑ ni b i , n i=1 m a várható k m= Könnyen látható, hogy ai = bi − m (i = 1, . , k) k ∑ ni ai = 0. (7.1) i=1 Ezekkel a jelölésekkel az egyszempontos modell Xij = m + ai + εij alakban írható, ahol az (j = 1, . , ni ; i = 1, , k) εij ∼ N (0, σ 2 ) független valószín¶ségi változók véletlen hibák. Lineáris modellr®l van szó, hiszen ha meggyeléseinket az Y := (X11 , . , X1n1 , X21 , , X2n2 , , Xk1 , , Xknk )T ε := (ε11 , . , ε1n1 , ε21 , , ε2n2 , , εk1 , , εknk )T ∑k i=1 ni = n-dimenziós vektorban, ai paramétereinket pedig az vektorban helyezzük el, akkor az (5.2) modell az a = (a1 , . , ak )T Y =B·a+1·m+ε alakban írható, ahol 1 ∈ Rn az azonosan
1 koordinátájú vektor, B pedig az alábbi (7.2) alakú struktúramátrix: B= (Ebben a példában 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 k = 3, n1 = 3, n2 = 4 0 0 0 0 0 0 0 1 1 1 1 1 és n3 = 5.) (7.2) 7.1 137 ELMÉLETI HÁTTÉR Látható, hogy rangB jelölje F; nyilván = k , az oszlopok által kifeszített k -dimenziós alteret 1 ∈ F . A paramétereket közvetlenül a legkisebb négyzetek módszerével becsüljük, azaz keressük a ni k ∑ ∑ ε2ij = (Xij − m − ai )2 (7.3) i=1 j=1 i=1 j=1 kifejezés minimumát az ni k ∑ ∑ m, a1 , . , ak paraméterekben az (7.1) kényszerfeltétel mellett. Vezessük be a csoportátlagokra ill a teljes mintaátlagra az ni 1 ∑ X̄i. = Xij ni j=1 i 1 ∑∑ X̄. = Xij n i=1 j=1 k (i = 1, . , k) ill. n jelöléseket! Könnyen látható, hogy a
paraméterek legkisebb négyzetes becslései m̂ = X̄. és âi = X̄i. − X̄ (i = 1, . , k) m helyébe a nyilvánvaló X̄. -ot írva az (73) kifejezés minimuma ai -kben külön-külön csak a küls® szumma i-edik tagjában álló négyzetösszeg minimalizálásával , hiszen ai becslése csak az Xij , j = 1, . , ni mintaelemekt®l függ (i = 1, , k), és a Steiner-tétel alapján a fenti lesznek. Ugyanis kereshet® az egyes lesz. (A szélsh®érték számítás módszereivel ellen®rízhet® a fenti heurisztikus számolás helyessége.) A minimum értéke Qe = ni k ∑ ∑ (Xij − m̂ − âi )2 = ni k ∑ ∑ i=1 j=1 (Xij − X̄i. )2 i=1 j=1 lesz. A Legkisebb négyzetek módszere paragrafus jelöléseivel variancia. Az alább taglalandó vetítéssel Qe Qe az Sε2 reziduális a mer®leges komponens hosszának a négyzete, míg a vetület hosszának négyzete: Qa = ∥Bâ∥2 = ni ∑ ni â2i = i=1 k ∑ ni (X̄i. − X̄ )2 i=1
Ebben az egyszer¶ esetben minden projekciót pontosan leírunk. A alakot deniáló projekció A mátrixa, amellyel Qe = YT AY, a következ® szimmetrikus, idempotens mátrix: A1 0 A= . 0 0 A2 . 0 . 0 . 0 , . . Ak Qe kvadratikus 138FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI ahol az Ai diagonális blokkok: 1− 1 − ni Ai = . − n1i A Qa 1− A projekció n − k. alakúak, és az vetít. Rangja − n1i 1 ni . − n1i . 1 − F . − n1i 1 ni . az . − n1i altér (i = 1, . , k) 1 ni Rn -beli ortogonális kiegészít® alterére kvadratikus alakot deniáló Qa = YT PY P 1 ∈ Rn vektornak az F altérbeli ortogonális kiegészít® alterére k − 1. A Q = Qa + Qe kvadratikus alaknak megfelel® projekció itt projekció az vetít, rangja
most nem In , hanem A + P = In − 11T , amely az 1 vektor Rn -beli ortogonális kiegészít® alterére vetít. A gyakorlati alkalmazók terminológiájával élve: a fenti kvadratikus alakok segítségével a mintaelemek teljes mintaátlagtól vett eltéréseinek négyzetösszega (Q) Qe ) felbomlik csoportok közötti (between, Qa ) ill. csoportokon belüli (within, részre a következ®képpen: Q= ni k ∑ ∑ (Xij − X̄. )2 = i=1 j=1 = ni k ∑ ∑ = [(Xij − X̄i. ) + (X̄i − X̄ )]2 = i=1 j=1 (Xij − X̄i. ) + 2 i=1 j=1 k ∑ ni k ∑ ∑ ni (X̄i. − X̄ )2 + i=1 ni k ∑ ∑ (X̄i. − X̄ )2 = i=1 j=1 ni k ∑ ∑ (Xij − X̄i. )2 = Qa + Qe , i=1 j=1 és ezt a felbontást a projekciók ismerete nélkül, viszonylag egyszer¶ számolással 2 is megkaphattuk volna, miután a [. ] négyzetreemelésnél kihasználható, hogy a kétszeres szorzatok összege 0. A fenti felbontásokat az alábbi ún. ANOVA (ANalysis Of VAriances) táblázat-
7.1 139 ELMÉLETI HÁTTÉR ban foglaljuk össze. A szóródás oka Négyzetösszeg Csoportok között Q = ∑k n (X̄ − X̄ )2 a i. . i=1 i ∑k ∑ni (Xij − X̄i. )2 Csoportokon belül Qe = i=1 j=1 ∑k ∑ni Teljes Q = i=1 j=1 (Xij − X̄. )2 A fenti modellben el®ször az m=0 Szabadsági Empirikus k−1 s2a = Qa k−1 n−k s2e = Qe n−k n−1 - hipotézist teszteljük. Ha ezt elutasítjuk hipotézist vizsgáljuk. A tömören a=0 A legkisebb négyzetek módszere paragrafusban leír- takhoz hasonlóan látható, hogy a likelihood-hányados statisztika a Qa /Qe hánya- dos monoton fogyó függvénye (ez a hányados annál nagyobb, minél nagyobb a csoportok közötti variancia a csoportokon belülihez képest, ami ellentmond H0 -nak). A Qe -ben szerepl® lineáris kifejezések mindegyikének várható értéke 0, ugyanis a csoportokon belül a várható értékek egyenl®ek a mintaátlag
várható értékével: E(Xij − X̄i. ) = E(Xij ) − E(X̄i ) = ai − ai = 0, akár igaz (i = 1, . , k) H0 , akár nem. Tehát az I36 Állítás a része értelmében Qe ∼ σ 2 χ2 (n− k). A Qa -ben szerepl® lineáris kifejezések várható értéke: 1∑ nj aj n j=1 k E(X̄i. − X̄ ) = E(X̄i ) − E(X̄ ) = ai − (i = 1, . , k) , amely csak akkor lehet minden i-re 0, ha H0 fennáll. Ezesetben szintén az I36 2 2 Állítás a. része miatt Qa ∼ σ χ (k − 1), és az el®bbi állítás b része alapján Qe és Qa függetlenek (megjegyezzük, Qa centrális χ2 -eloszlású). hogy csak a null-hipotézis fennállása esetén lesz Így bevezetve az s2a = Qa k−1 ill. s2e = Qe n−k 2 kifejezéseket, ezek azonos (σ ) szórásúak, függetlenek, hányadosuk pedig fenállása esetén F -eloszlást F = követ k−1 ill. n−k szórásnégyzet fok (az összes várható érték nem 0, azaz
van ún. f®hatás), akkor a H0 : a1 = · · · = ak = 0, szabadsági fokkal: s2a Qa n − k = · ∼ F(k − 1, n − k), s2e Qe k − 1 H0 140FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI és ez az F is szigorúan monoton csökken® függvénye a likelihood hányados statisztikának. Megjegyezzük, hogy a a fenti F statisztika levezethet® a likelihood hányados próba alkalmazása és a vetítések felírása nélkül is. 7.12 Többszempontos varianciaanalízis interakcióval Itt is két különböz® szempont alapján kialakított k · p csoportban végzünk megn) meggyelést. Az gyeléseket, de cellánként több (mondjuk minden cellában el®z® rész példájával élve: k féle technológiával p féle gépen gyártanak alkatrészeket és mérik azok szakítószilárdságát. Itt azonban feltételezzük, hogy a kétféle szempont hatása nem független, (nem mindegy, hogy melyik gépen melyik gyártási technológiát
alkalmazzuk). Xijl az els® szempont alapján i-edik, a második szempont alapján j -edik csoportban végzett l-edik meggyelést, példánkban az i-edik technológiával a j -edik gépen gyártott l -edik termék szakítószilárdságát (i = 1, . , k; j = 1, . , p; l = 1, , n) Jelölje pedig Tehát összmintánk elemszáma Xijl ∼ N (m + ai + bj + cij , σ 2 ), kpn. A mintaelemek függetlenek és azaz lineáris modellünk most a következ®: Xijl = m + ai + bj + cij + εijl , (i = 1, . , k; j = 1, , p) εijl ∼ N (0, σ 2 ) független valószín¶ségi változók véletlen k jelölik az egyik, bj -k a másik tényez® hatásait, cij -k pedig az Feltesszük (m-be való beolvasztással elérhet®), hogy ahol az k ∑ ai = 0, i=1 k ∑ i=1 p ∑ B bj = 0, j=1 cij = 0 (j = 1, . , p) cij = 0 (i = 1, . , k) j=1 A p ∑ struktúramátrix alakja most: és (7.4) hibák. Itt ai - interakciókat. 7.1 141 ELMÉLETI HÁTTÉR 10 10 10 10
10 10 01 01 01 01 01 01 B= (Ebben a példában k = 2, p = 3, és 100 100 010 010 001 001 100 100 010 010 001 001 100000 100000 010000 010000 001000 001000 000100 000100 000010 000010 000001 000001 (7.5) n = 2.) Az (7.4) modell az Y := (X111 , . , X11n , X121 , , X12n , , Xkp1 , , Xkpn )T ε := (ε111 , . , ε11n , ε121 , , ε12n , , εkp1 , , εkpn )T és az abc = (a1 , . , ak , b1 , , bp , c11 , , ckp )T jelölések, továbbá a B struktúramátrix segítségével az Y = B · abc + 1 · m + ε lineáris modell alakját ölti, ahol 1 ∈ Rkpn az azonosan 1 komponens¶ vektor, l. (7.5) Jelölje Fc F a B mátrix oszlopvektorai által kifeszített alteret, míg jelölje rendre az eks® k a következ® p oszlop és az utolsó k·p Fa , Fb , és oszlop által kifeszített alteret.
Jelölje F B Fa , Fb , és Fc k a következ® p oszlop és az utolsó k·p oszlop által kifeszített mátrix oszlopvektorai által kifeszített alteret, míg jelölje rendre az es® alteret. 1 ∈ Fa , 1 ∈ Fb és 1 ∈ Fc . Jelölje Fa1 illetve Fb1 az 1 Fa -ban illetve Fb -ben, továbbá Fcab az Fa és Fb által generált altér ortogonális kiegészít®jét Fc -ben, valamint Fe az F ortogonális n kiegészít®jét R -ben. Mivel az 1 vektort Fa Fb és Fc is tartalmazza: dim(Fa1 ) = k − 1, dim(Fb1 ) = p−1, dim(Fcab ) = kp−(k−1)−(p−1)+1 = (k−1)(p−1), és dim(Fe ) = kp(n−1). Jelölje az Fa1 -ra, Fb1 -re, Fcab -re és Fe -re vetít® projekciókat rendre Pa , Pb , Pc és Pe . A fentiek miatt Vegyük észre, hogy vektor ortogonális kiegészít®jét In = 11T + Pa + Pb + Pc + Pe . El®ször a legkisebb négyzetek módszerével megbecsüljük a paramétereket. Ehhez keressük a p ∑ k ∑ n ∑ i=1 j=1 l=1 ε2ijl = p ∑ k ∑ n ∑ i=1 j=1 l=1 (Xijl − m
− ai − bj − cij )2 (7.6) 142FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI m, a1 , . , ak , b1 , , bp paraméterekben az (712) kénysz- kifejezés minimumát az erfeltételek mellett. Vezessünk be néhány jelölést: 1 ∑∑ Xijl pn j=1 (i = 1, . , k) 1 ∑∑ Xijl kn i=1 (j = 1, . , p) p X̄i. = n l=1 k X̄.j = n l=1 1∑ Xijl n n X̄ij. = (i = 1, . , k; j = 1, , p) l=1 1 ∑∑∑ = Xijl . kpn i=1 j=1 k X̄. p n l=1 Ezekkel a paraméterek legkisebb négyzetes becslései: m̂ = X̄. , âi = X̄i. − X̄ (i = 1, . , k) , b̂j = X̄.j − X̄ (j = 1, . , p) , ĉij = X̄ij. − X̄i − X̄j + X̄ (i = 1, . , k; j = 1, . , p) , az (7.6) kifejezés minimuma pedig Qe = p ∑ k ∑ n ∑ (Xijl − m̂ − âi − b̂j − ĉij )2 i=1 j=1 l=1 lesz. Ha a Qc és Qe Pa , Pb , Pc és Pe projekcóknak rendre az Y vektorral képzett Qa , Qb , kvadratikus formák felelnek meg, akkor
igaz a Q = Qa + Qb + Qc + Qe (7.7) varianciafelbontás, ahol a mintaelemek teljes mintaátlagtól vett eltéréseinek né- 7.1 143 ELMÉLETI HÁTTÉR gyzetösszegét (Q) felbontjuk a következ® ANOVA-táblázat szerint: A szóródás oka a-hatások b-hatások ab-interakció Véletlen hiba Négyzetösszeg fok Qa = pn Qb = kn Qc = n Qe = Q= Teljes Miután az Szabadsági m=0 ∑k i=1 (X̄i. ∑p j=1 (X̄.j ∑k ∑k s2a = − X̄. )2 p−1 s2b = j=1 (X̄ij. ∑p i=1 ∑k k−1 ∑n j=1 ∑p i=1 − X̄i. − X̄j + X̄ )2 l=1 (Xijl ∑n j=1 l=1 (Xijl − X̄ij. )2 − X̄. )2 (k − 1)(p − 1) s2c = kp(n − 1) kpn − 1 hipotézist elutasítottuk, a fenti modellben háromféle null- hipotézist akarunk vizsgálni, az egyik és a másik szempont szerint megnézni, hogy a csoporthatások azonosak-e, továbbá, hogy interakciók léteznek-e. Az els®
tényez® hatására vonatkozóan tehát vizsgáljuk a H0a : a1 = a2 = · · · = ak = 0 hipotézist (példánkban azt, hogy a gyártási technológia nincs hatással az alkatrész szakítószilárdságára). Ezzel párhuzamosan a második tényez® hatására vonatkozóan vizsgáljuk a H0b : b1 = b2 = · · · = bp = 0 hipotézist (példánkban azt, hogy a gyártó gép megválasztása nincs hatással az alkatrész szakítószilárdságára). Továbbá az interakciókra vonatkozóan vizsgáljuk a H0ab : cij = 0, (i = 1, . , k; j = 1, , p) hipotézist (példánkban azt, hogy a gyártó gép nem hat a gyártási technológiára). A Qe -ben szerepl® lineáris kifejezések mindegyikének várható értéke 0. A Qa -ban szerepl® lineáris kifejezések várható értéke csak akkor lehet minden ire 0, ha H0a fennáll. Hasonlóan, a Qb -ben szerepl® lineáris kifejezések várható értéke csak akkor lehet minden j -re 0, ha H0b fennáll. A Qc -ben szerepl® lineáris
kifejezések várható értéke pedig csak akkor lehet minden (i, j)-re 0, ha H0ab fennáll. Az (7.7) felbontásban a kvadratikus alakok rangja itt is összeadódik: kpn − 1 = (k − 1) + (p − 1) + (k − 1)(p − 1) + kp(n − 1). Így igazak az alábbi állítások: • e. Qe /σ 2 ∼ χ2 (kp(n − 1)), akár fennállnak a nullhipotézisek, akár nem. s2e = - Qa k−1 Qb p−1 Qc (k−1)(p−1) Qe kp(n−1) szórásnégyzet − X̄. )2 ∑p i=1 Empirikus 144FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI • a. H0a fennállása esetén Qa /σ 2 ∼ χ2 (k − 1) és független Qe -t®l. • b. H0b fennállása esetén Qb /σ 2 ∼ χ2 (p − 1) és független Qe -t®l. • c. H0ab fennállása esetén Qc /σ 2 ∼ χ2 ((k − 1)(p − 1)) és független Qe -t®l. Ezért nullhipotéziseink vizsgálatára a következ®
statisztikákat használhatjuk. El®ször a kölcsönhatást, vagyis a etén Fab = H0ab hipotézist vizsgáljuk. Ennek fennálása es- s2c ∼ F((k − 1)(p − 1), kp(n − 1)), s2e azaz, ha a fenti Fab statisztika értéke nagyobb vagy egyenl®, mint az F((k−1)(p− 1), kp(n − 1))-eloszlás (1 − α)-kvantilise, akkor H0ab -t 1 − α szinten elutasítjuk, vagyis elfogadjuk, hogy van kölcsönhatás a két szempont között, legalábbis bizonyos (i, j) indexpárokra. Ebben az esetben a H0a , H0b hipotéziseket nincs értelme vizsgálni. Amennyiben H0ab -t elfogadjuk, akkor a H0a és H0b hipotézisekt®l függetlenül Qc ∼ χ2 ((k − 1)(p − 1)) és független Qe -t®l. Így ezeket összeadhatjuk, és a σ 2 szórásnégyzetre most már a (k − 1)(p − 1) + kp(n − 1) = kpn − k − p + 1 szabadságfokú s̃2e = Qc + Qe kpn − k − p + 1 becslést kapjuk. Ezekután a H0a hipotézis vizsgálatára az Fa = s2a s̃2e H0a fennállása esetén F(p − 1,
kpn − k − p + 1)H0b hipotézis vizsgálatára az statisztikát használjuk, amely eloszlást követ. Hasonlóan, a Fb = statisztikát használjuk, amely eloszlású. Ha a H0a vagy/és H0b H0b tokéhoz hasonlóan vizsgálhatjuk az 7.2 s2b s̃2e fennállása esetén F(k − 1, kpn − k − p + 1)- hipotézist elutasítjuk, akkor az el®z® pon- a- vagy/és b-hatásokat ill. azok különbségét Feladatok 1. Tekintsük az egyszempontos varianciaanalízis modelljében a paraméterek legkisebb négyzetek módszerével kapott becsléseit. (a) Mutassuk meg, hogy ezek maximum likelihood becslések! (b) * Számoljuk ki ezeket a becsléseket Lagrange-multiplikátor módszerrel! 7.2 145 FELADATOK Tipp: Lásd 4. feladat (a) pontját Válasz: Az Útmutató alapján nyilvánvaló. 2. Tekintsük az egyszempontos varianciaanalízis csoporthatás-vizsgálatát, ahol ∑k ∑ni ∑k Qe = i=1 j=1 (Xij − X i· )2 és Qa = i=1 ni (X i· − X ·· )2 . (a) Mutassuk meg, hogy
(b) Igazoljuk, hogy Qe /σ 2 ∼ χ2 (n − k)! H0 teljesülése mellett 2 nem teljesül, Qa nem χ eloszlású! (c) Adjuk meg H0 mellett Qa és Qe Qa /σ 2 ∼ χ2 (k − 1), de ha H0 várható értékét és szórásnégyzetét! Tipp: (a) A FisherCochran-tételhez f¶zött megjegyzeés a szabadságfokok heurisztikus számolásárol alapján itt a szabadságfok n−k , mert az n valószín¶ségi k becsult paraméter van. változót tartalmazo kvadratikus alakban (b) Ha H0 fennáll akkor (a) az pontbeli eredmény és FisherCochran tétel közvetlen következménye, míg ha nem teljesül, akkor Qa nem 0 várható érték¶ valószín¶ségi változók négyzetének összege. (c) A képletgy¶jtemény alapján számolunk Válasz: (a) Az Útmutató alapjaán nyilvanvaló. (b) Az Útmutató alapjaán nyilvanvaló. (c) EQa = (k − 1)/σ 2 D2 Qa = 2(k − 1)/σ 2 EQe = (n − k)/σ 2 D2 Qa = 2(n − k)/σ 2 3. Adjunk maximum likelihood becslést σ 2 -re az
egyszempontos varianci- aanalízis modelljében! Torzítatlan lesz-e becslésünk? Tipp: Az el®z® feladatban szerepl® Qa és Qe független kvadratikus alakok alpajan számoljunk. Válasz: σ̂ 2 = (Qa + Qe )/n, ami torzított becslés. 4. Mutassuk meg, hogy az egyszempontos varianciaanalízis csoporthatásvizsgálata (a) likelihood-hányados próba! (b) a kétmintás t-próba általánosítása több mintára! Tipp: Valójában F-próba. Válasz: 146FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI 5. Tekintsük az (X, Y ) vektorváltozót, ahol X normális eloszlású, Y pedig véges sok értéket felvev® diszkrét változó. Csoportosítsuk a mintát az értékei szerint. Alkalmazhatjuk-e az egyszempontos varianciaanalízist és Y Y X függetlenségének tesztelésére? Tipp: Vizsgáljuk meg milyen hipotézist tesztel a varianciaanalízis! Válasz: Csak a várható értékek azonos voltát teszteli, nem a függetlenséget. n
elem¶ mintát Yi = b i a + d i c + ε i , kísér® változók, εi ∼ 6. Tekintsük a kovarianciaanalízis modelljét és ebben egy egy el®re tervezett hatás és egy kísér® változó esetén: ahol a, c paraméterek, bi -k tervezett hatások, di -k N (0, σ 2 ), i = 1, . , n független hibák (a) Adjunk becslést a paraméterekre a legkisebb négyzetek módszerével! (b) Konsturáljunk likelihood-hányados próbát a H0 : c = 0 hipotézis tesztelésére! Tipp: Vegyük észre, hogy a feladat független a kovarianciaanalízis mod- elljét®l, egyszer¶ kétváltozós lineáris modellr®l van szó. (a) A n ∑ Yi bi = a i=1 n ∑ b2i + c i=1 n ∑ bi di i=1 n ∑ Yi di i=1 =a n ∑ bi di + c i=1 n ∑ d2i i=1 normálegyenletet kell megoldani. (b) A λ(y1 , . , yn ) próbafüggvény ( ∑n )n/2 (y − âbi − ĉdi )2 i=1 ∑n i λ(y1 , . , yn ) = 2 i=1 (yi − âbi ) alakú lesz (l. 64 feladat (e) pontját) Válasz: Az Útmutatók alapján
nyilvánvaló. 7. Tekintsünk egy mintát, amely teljesíti az alábbi modellt: Yi,j = axi,j + ci + εi,j , i = 1, . , r, j = 1, , ni , c1 , . , cr és a paraméterek, xi,j -k εi,j ∼ N (0, σ 2 ) független hibák. ahol minisztikus) kísér® változók, (deter- (a) Adjunk becslést a paraméterekre a legkisebb négyzetek módszerével! (b) Mutassuk meg, hogy a fenti modell a kovarianciaanalízis egy modellje. Tipp: Válasz: 7.3 Tesztek 8. fejezet Kontingenciatáblák elemzése: diszkriminanciaanalízis, korrespondenciaanalízis, információelmélet 8.1 8.11 Elméleti háttér Diszkriminanciaanalízis Jelen feladatban objektumokat szeretnénk a rajtuk végrehajtott többdimenziós meggyelések alapján el®re adott osztályokba besorolni. Például pácienseket klinikai- vagy pszichiátriai teszteredményeik alapján szeretnénk beteg- ill. kontrollcsoportba, vagy többféle betegcsoportba besorolni; vagy egy új egyedet mért értékei alapján valamely
ismert fajba akarunk besorolni. A módszert úgy kell elképzelni, hogy els® lépésben egy ún. tanuló-algoritmust hajtunk végre. Az objektumoknak kezdetben létezik egy osztálybasorolása Ezt úgy adjuk meg, hogy a meggyelt többdimenziós, folytonos eloszlású valószín¶ségi változó komponensein kívül bevezetünk egy, az osztálybatartozásra jellemz® diszkrét valószín¶ségi változót, mely annyiféle értéket vesz fel, ahány osztály van; ez utóbbit egy szakért® a mérésekt®l függetlenül állapítja meg. Az egyes osztályok adatai alapján diszkrimináló algoritmust készítünk, és megnézzük, hogy az algoritmus szerint melyik osztályba kerülnének eredeti objektumaink. Amennyiben a téves osztálybasorolások száma nem túl nagy, úgy tekintjük, hogy az algoritmus által adott diszkrimináló függvény a továbbiakban is használható az adott csoportok elkülönítésére. A tényleges osztályozás gyelembevételével bevezetjük a
következ®ket. Jelölje k az osztályok számát, továbbá a. jelölje az egyes osztályokhoz tartozó 147 p-dimenziós mintaelemek s¶r¶ség- 148FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP függvényét b. jelölje f1 (x), . , fk (x) (abszolút folytonos eloszlásokat feltételezünk); π1 , . , πk az egyes osztályok a priori valószín¶ségeit; Az a.-beli s¶r¶ségeket osztályonként becsüljük a mintatákból, a b-beli a priori valószín¶ségek pedig lehetnek az egyes osztályok relatív gyakoriságai Így vis- p-dimenziós X = X1 ∪ · · · ∪ Xk partíciója, akkor a x ∈ X mintaelemet akkor soroljuk a j -edik osztályba, ha x ∈ Xj . A cél az, hogy a legkisebb veszteséggel járó partíciót megkeressük. Ehhez jelölje rij ≥ 0 (i, j = 1, k) azt a veszteséget, ami akkor keletkezik, ha egy i-edik osztálybelit a j -edik osztályba sorolunk (a veszteségek nem feltétlenül szimmetrikusak, de feltesszük,
hogy rii = 0), és legyen Li az i-edik osztálybeliek besorolásának átlagos vesztesége (rizikója): ∫ ∫ Li = ri1 fi (x) dx + · · · + rik fi (x) dx, (i = 1, . , k), szük bele tudásunkat az alábbi algoritmusba. Ha már adva lenne a mintatér egy X1 Xk ahol összegeztük a veszteségeket azokra az esetekre, mikor az i-edik osztálybelit az 1., , k osztályba soroltuk. Most nem az egyes Li veszteségeket, hanem az L= k ∑ πi Li i=1 átlagos Bayes-féle veszteséget (rizikót) minimalizáljuk. L= k ∑ πi i=1 k ∫ ∑ j=1 Xj rij fi (x) dx = k ∫ ∑ k ∑ Xj i=1 j=1 πi rij fi (x) dx = − k ∫ ∑ j=1 Xj Sj (x) dx, ahol az Sj (x) = −[π1 r1j f1 (x) + · · · + πk rkj fk (x)] függvényt x j -edik diszkrimináló informánsnak nevezzük, és argumentumában az mintaelem szerepel (j = 1, . , k) A negatív el®jel miatt Sj -k növekedése az átlagos veszteség csökkenését eredményezi, azaz a k ∫ ∑ j=1 Xj Sj (x)
dx kifejezést szeretnénk maximalizálni a mintatér összes lehetséges mérhet® partícióján. Célszer¶nek t¶nik tehát egy x mért értékekkel rendelkez® objektumot abba az osztályba sorolni, melyre diszkrimináló informánsa a legnagyobb értéket veszi fel. Ennek az eljárásnak a jogosságát a következ® tétel biztosítja 115. Tétel ∗ ∗ ∗ Legyen az X mintatér X1 ∪ · · · ∪ Xk partíciója olyan, hogy x ∈ Xj ból Sj (x) ≥ Si (x) következik az összes i ̸= j indexekre (j = 1, . , k) Akkor az X1∗ , . , Xk∗ osztályozással az L átlagos veszteség minimális lesz 8.1 149 ELMÉLETI HÁTTÉR A tétel állítása az alábbi lemma közvetlen következménye. 116. Lemma Legyenek g1 , , gk Rp -n értelmezett valós függvények Legyen Rp = X1 ∪ · · · ∪ Xk a p-dimenziós euklideszi tér egy partíciója. Tegyük fel, hogy p ∗ ∗ az R = X1 ∪ · · · ∪ Xn partícióra teljesülnek a gi (x) ≥ gj (x), x ∈ Xi∗ ha
∀j ̸= i; i = 1, . , k egyenl®tlenségek. Ekkor k ∫ ∑ gi (x) ≥ Xi∗ i=1 k ∫ ∑ Xi i=1 gi (x). (8.1) A Lemma bizonyítását egy ábra szemlélteti. p Jelölje IA (x) az A ⊂ R halmaz indikátorfüggvényét! A (8.1)-beli egyenl®tlenségek miatt k ∑ I Xi∗ (x)gi (x) = i=1 max i∈{1,.,k} gi (x) ≥ k ∑ IXi (x)gi (x). (8.2) i=1 A (8.1) egyenl®tlenség (82) integrálásával adódik Megjegyezzük, hogy az alkalmazásokban az optimális partíciót a (2.4) egyenl®tlenségek segítségével deniáljuk A partíció nem egyértelm¶, ha van olyan i ̸= j indexpár, hogy gi (x) = gj (x) egy nem-0 mérték¶ halmazon. Ilyenkor ezt Xi∗ és Xj∗ között. helyettesítéssel adódik a tétel állítása. a halmazt tetsz®legesen oszthatjuk fel A gi (x) = Si (x) Most néhány egyszer¶sít® feltevést vezetünk be. Ha az rij veszteségekre ninc- senek adataink, és az összes téves besorolást egyformán akarjuk büntetni, akkor jobb
híján az Sj (x) = − rij = 1 (i ̸= j) k ∑ πi rij fi (x) = − i=1 ahol a c és rii = 0 ∑ választással élünk. Ezzel πi fi (x) = − j -t®l. πi fi (x)+πj fj (x) = πj fj (x)+c, i=1 i̸=j konstans nem függ k ∑ Valójában tehát az x mért értékekkel ren- delkez® objektumot az l . osztályba soroljuk, ha πl fl (x) = max j∈{1,.,k} πj fj (x). Tegyük fel, hogy az egyes osztályoknak különböz® paraméter¶, normális eloszlások felelnek meg. Azaz, ha fj (x) = X ∈ Np (mj , Cj ), p-dimenziós akkor −1 T 1 1 e− 2 (x−mj ) Cj (x−mj ) . (2π)p/2 |Cj |1/2 Tekintsük az osztálybasorolás alapját képez® πj fj (x) mennyiségek természetes alapú logaritmusát, a logaritmus monoton transzformáció lévén ez ugyanarra a 150FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 8.1 ábra A mintatér felosztása diszkrimináló informánsokkal j -re lesz maximális, mint az eredeti kifejezés,
s®t az összes t®l is eltekinthetünk. Az így kapott módosított Sj′ -vel j -edik j -re közös ln (2π)1p/2 - diszkrimináló informánst jelöljük, és alakja miatt kvadratikus diszkriminancia szkórnak is szokás nevezni: 1 1 Sj′ (x) = − ln |Cj | − (x − mj )T C−1 j (x − mj ) + ln πj . 2 2 Ha a kovarianciamátrixok azonosak: C1 = · · · = Ck = C, akkor Sj′ (x)-b®l a j- 8.1 151 ELMÉLETI HÁTTÉR 1 t®l független − ln |C| és a kvadratikus alak kifejtésében fellép®, j -t®l ugyancsak 2 1 T −1 x rész elhagyható, a maradék pedig x lineáris függvényeként független − x C 2 írható. Ezt nevezzük lineáris informánsnak: 1 Sj′′ (x) = mTj C−1 x − mTj C−1 mj + ln πj . 2 (8.3) Sj′′ (x) értékét ′′ amelyikre az Sj (x) Eljárásunk tehát a következ®: minden osztályra kiszámoljuk az (j = 1, . k), és objektumunkat abba az osztályba soroljuk, lineáris informáns értéke a legnagyobb. A 115
Tétel garantálja, hogy ekkor átlagos veszteségünk minimális lesz Amennyiben csak két osztályunk van, objektumunkat az x meggyelés alapján ′′ ′′ az els® osztályba soroljuk, ha S1 (x) ≥ S2 (x), különben a másodikba. Azaz az ′′ ′′ S1 (x) − S2 (x) különbség el®jele fogja eldönteni az osztálybatartozást. De S1′′ (x) − S2′′ (x) = L(x) − c, ahol (8.3) alapján L(x) = (mT1 − mT2 )C−1 x és 1 c = (mT1 C−1 m1 − mT2 C−1 m2 ) − ln π1 + ln π2 . 2 A fenti L(x)-et Fisher-féle diszkriminancia függvénynek is szokták nevezni, L(x) ≥ c, akkor objekL(x) < c, akkor a második osztályba soroljuk. Az az egyes xi változók együtthatói egyfajta súlyokként és ennek alapján döntjük el az osztálybatartozást: ha tumunkat az els®, ha pedig L(x) lineáris kifejezésben is szolgálnak, azok a változók fejtik ki a leger®sebb hatást a két csoport diszkriminálásában, amely a legnagyobb súllyal szerepelnek. Ha az
átlagos veszteséget akarjuk minimalizálni, normális eloszlású minták esetén a fenti eljárás keresztülvihet® az egyes osztályokban számolt empirikus kovarianciamátrixokkal és az osztályok relatív gyakoriságaival becsült apriori valószín¶ségek segítségével. Létezhetnek azonban ún látens osztályok (pl egy újfajta betegség, újfajta faj), ami ronthat a módszer alkalmazhatóságán. Szükség van ezért különféle hipotézisvizsgálatokra Pl két osztály esetén, az els® osztályba való besorolhatóság a T1 = [(m2 − m1 )T C−1 (X − m1 )]2 ∼ χ2 (1) (m2 − m1 )T C−1 (m2 − m1 ) (8.4) statisztikával, míg a második osztályba való besorolhatóság a T2 = [(m2 − m1 )T C−1 (X − m2 )]2 ∼ χ2 (1) (m2 − m1 )T C−1 (m2 − m1 ) (8.5) −1 (X − mj ) ∼ statisztikával tesztelhet®, ugyanis ha X ∼ Np (mj , C) , akkor C Np (0, C−1 ), (m2 − m1 )T C−1 (X − mj ) ∼ Np (0, (m2 − m1 )T C−1 (m2 − m1 )), s utóbbinak
standardizáltja lesz a (8.4)- ill (85)-beli Tj statisztika (j = 1, 2) 152FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 0.25 0.2 0.15 0.1 0.05 0 8.2 ábra Elméleti és empirikus diszkriminanciafüggvény 2 dimenzióban T1 , mind T2 szignikánsan nagyobb 95%-os) kvantilisénél, akkor egy látens Ha mind adott (pl. az 1-paraméter¶ χ2 -eloszlás harmadik osztály jelenlétére gyanakodhatunk. Számítsuk most ki két p-dimenziós normális eloszlású, azonos C kovarianci- amátrixú minta esetén a helytelen osztálybasorolások valószín¶ségeit! Az egyszer¶ség kedvéért legyen most két egyforma népesség¶ mintánk, azaz az apriori valószín¶ségekre a π1 = π2 = 1/2 feltételezéssel élünk. A számolást nem rés- zletezzük, ebben az esetben a veégeredmény meglep®en egyszer¶: 8.1 153 ELMÉLETI HÁTTÉR Legyen σ 2 = (m1 − m2 )T C−1 (m1 − m2 ). (8.6) Ekkor mindkét típusú hibás
osztálybasorolás valószín¶sége: ( P=1−Φ Ez nem meglep®, hiszen a (8.6) szerint σ ) 1 σ . 2 annál nagyobb, minél távolabb van- nak egymástól a két csoport standardizált" várható értékei. A diszkrimináló informánsokban szerepl® paramétereket a mintából becsüljük, minél több a paraméter, annál pontatlanabb az egyes paraméterek becslése; azt is mondhatjuk, hogy a paraméterek a konkrét mintához vannak adaptálva. Ezért, ha az eljárás rizikóját a nem megfelel® osztályba sorolt egyedek száma alapján az alább ismertetend® módon becsüljük, a valódi veszteségfüggvénynél kisebb torzított becslést kapunk. E torzítás kivédésére alkalmazzák az ún cross-validation (kereszt-kiértékelés) módszert: a paramétereket a minta egy része (60% a szokásos hányad) alapján becsüljük, míg az osztályozás min®ségét a paraméterbecslésben fel nem használt mintaelemekkel teszteljük (40%). A torzítás csökkentésére
Tukey [] javasolt egy szellemes általa jackknife-nak (bicskának) nevezett, nagy számolásigény¶ módszert. Ezt a módszert az jezetben ismertetjuk 8.12 algoritmikus modellek fe- Korrespondanciaanalízis Ebben és a következ® paragrafusban minden eloszlás diszkrét és véges, ezt a továbbiakban külön nem említjük. A korrespondanciaanalízis kategórikus változók közti kapcsolatok elemzésére szolgál a változó-kategóriák metrikus megjelenítése alapján. Kategórikus, más néven kvalitatív változó alatt olyan diszkrét eloszlású valószín¶ségi változót értünk, amely véges sok értéket vesz fel, és az értékek általában nem nagyságrendet tükröznek, hanem csak a változó lehetséges értékeit kódolják (pl. a hajszín változó sz®ke, barna, fekete, vörös értékei az 1,2,3,4 számokkal kódolhatók). A Tananyagban csak két kategórikus változót vizsgálunk, az adatok kontingenciatábla (gyakoriság- vagy rekatív
gyakoriságtábla) formájában vannak megadva. A probléma a következ®: az X és Y diszkrét valószín¶ségi változók n ill. m különböz® kategóriát tartalmaznak, az egyszer¶ség kedvéért jelölje értékkészletüket az {1, 2, . , n} ill. az {1, 2, . , m} halmaz. X és Y nem függetlenek, értékeiket nem specikáljuk, célunk éppen az értékek alkalmas megválasztása lesz. Egy közös meggyelésükre vonatkozó minta alapján adva van egy es kontingenciatábla az és az N= fij ún. cellagyakoriságokkal (fij az X n × mi-edik változó Y változó j -edik kategóriájába es® meggyelések számát jelenti). Legyen ∑ n ∑m i=1 j=1 fij a meggyelések száma, ezzel callánként leosztva az rij = fij N (i = 1, . , n; j = 1, , m) relatív gyakoriságokhoz jutunk. Ezeket tekinthetjük a két diszkrét eloszlású valószín¶ségi változó (az egyik n, a másik m különböz® értéket vesz fel) együttes 154FEJEZET 8.
KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP eloszlásának, és R-rel jelöljük. Ugyancsak R jelöli az rij számok alkotta n×m-es mátrixot. Jelölje pi = ri. (i = 1, . , n) qj = r.j ill. (j = 1, . , m) Pn × n-es a peremeloszlásokat (azaz az egyes kategóriák valószín¶ségeit), ezeket röviden Q-nak fogjuk nevezni, az elemeiket f®diagonálisként m × m-es diagonális mátrixokat pedig P ill. Q jelöli nek ill. ill. tartalmazó Célunk a kontingenciatáblának valamilyen alacsonyabb rangú táblával való közelíése. Ehhez a kanonikus korrelációanalízisnél leírtakhoz hasonlóan keresünk olyan, értékeiket a P - ill. Q-eloszlás valószín¶ségei szerint felvev®, egységszórású, páronként korrelálatlan valószín¶ségi változókat, ún. faktorokat úgy, hogy a megegyez® index¶ faktorok korrelációja maximális legyen Ilyen módon a kontingenciatábla el®áll a faktor valószín¶ségi változók értékei
(szkórok) diádszorzatainak súlyozott összegeként. A legnagyobb súlyok közül bizonyos számút megtartva a kontingenciatábla egy alacsonyabb rangú közelítését kapjuk. Mi csak a 2 rangú közelítéssal foglalkozunk, ami visszavezethet® a Rényi-féle maximálkorreláció feladatára: adott két kategórikus változó együttes eloszlása (együttes relatív gyakorisága, azaz egy az α és β n × m gyakoriságtábal). Keressük azokat valós számérték¶ véletlen vektorokat, amelyek marginális eloszlásai megegyeznek az adott kontingencia táblából számolt marginális eloszlásokkal, és az együttes eloszlás alapján számított korrelációjuk maximális. A marginális eloszlás általános és egzakt denicióját l. a következ® paragrafusban (117) Látni fogjuk, hogy ezen véletlen vektorok együttes eloszlása az eredeti kontingenciatábla 2 rangú közelítése. Ha az itt tárgyalt módszerrel magasabb rangú közelítéseket is számulunk, akkor
ezek "együttes eloszlásában" NEGETÍV valószín¶ségek is el®fordulhatnak. A feladat pontos leírásához jelölje 1, 2 . , min{n, m}) αl ill. βl a sor- ill. oszlop-faktorokat (l = A faktorok szórására és korrelálatlanságára tett feltevések azt jelentik, hogy EP αl αl′ = n ∑ αl (i)αl′ (i)pi = δll′ (l, l′ = 2 . , min{n, m}) , βl (j)βl′ (j)qj = δll′ (l, l′ = 2 . , min{n, m}) , i=1 EQ βl βl′ = m ∑ j=1 ahol δll′ pi tozók a Kronecker-delta, ill. qj αl (i) ill. βl (j) pedig az αl ill. βl valószín¶ségi válαl , βl párok egymásutáni valószín¶séggel felvett értékei. A cél az meghatározása oly módon, hogy az el®z®ekkel való korrelálatlansági feltételek mellett ER αl βl = n ∑ m ∑ αl (i)βl (j)rij (l = 1 . , min{n, m}) (8.7) i=1 j=1 maximális legyen. A korrespondanciafaktorok l > 1 esetén egységszórásúak, kés®bb pedig látni fogjuk, hogy várható
értékük 0, ezért (8.7) egyben az azonos 8.1 155 ELMÉLETI HÁTTÉR index¶ faktorpárok közti korrelációt is jelenti. Az l = 1 esetben adódó faktorpár tagjaitól nem követeljük meg, hogy 0 várható érték¶ek és 1 szórásúak legyenek, de (8.7) ezesetben is maximális A megoldáshoz egy α, β változópárt a következ® transzformációnak vetünk alá: x(i) := y(j) := √ √ pi α(i), (i = 1, . , n) , qj β(j), (j = 1, . , m) T x = (x(1), . , x(n)) ill y = (y(1), , y(m))T a fenti komponensekb®l álló vektort. Amennyiben α ill β jelöli az α ill β valószín¶ségi változók felvett értékeib®l álló n- ill. m-dimenziós vektort, Jelölje Az α, β α = P−1/2 x ill. β = Q−1/2 y. α = P−1/2 x ill. β = Q−1/2 y. valószín¶ségi változókra tett (1.1) feltételek miatt ∥x∥=1 és ∥y∥=1. A maximalizálandó (8.7) kifejezés pedig: ER αβ = n ∑ m ∑ n ∑ m ∑ rij x(i)y(j) √ √ = xT By p i
qj i=1 j=1 α(i)β(j)rij = i=1 j=1 alakban írható, ahol az n × m-es B mátrix a következ®: B = P−1/2 RQ−1/2 . Keresend® max EP α2 =1, EQ β 2 =1 ER αβ = max ∥x∥=1, ∥y∥=1 xT By. Az 158. Tétel alapján az utóbbi kifejezés maximuma a B mátrix legnagyobb szinguláris értéke, és felvétetik az ehhez tartozó saját bázispáron, jelölje ezeket u1 ill. v1 . Így α1 = P −1/2 u1 β 1 = Q−1/2 v1 ill. α1 ≡ 1, β1 ≡ 1 és s1 = 1, E αβ ≤ 1 , ugyanakkor az azonosan ∑n R ∑m ER αβ = i=1 j=1 rij = 1 teljesül. Az α1 , β1 lesz az els® összetartozó faktorpár. Könny¶ látni, hogy ui. a CauchySchwarz egyenl®tlenség miatt 1 értéket felvev® α, β párokkal faktorokat triviális faktorok nak is szokták nevezni, várható értékük 1, szórásuk 0, kovarianciájuk is 0. A többi faktor korrelálatlansága velük éppen azt jelenti, hogy azok várható értéke 0. Tekintsünk egy ilyen EP α = 0, D2P α = EP α2 = 1,
α, β EQ β = 0, párt. Ezekre tehát D2Q β = EQ β 2 = 1. Tekintsük most velük a következ® szekvenciális feltételes széls®értékkeresési feladatot. El®ször keresend® Ismét a 158. Tételre hivatkozva adódik, hogy a maximum a sodik legnagyobb szinguláris értéke, s2 , és az u2 , v2 Ezek transzformáltjai lesznek az α2 = P −1/2 u2 ill. B mátrix má- saját bázispáron vétetik fel. β 2 = Q−1/2 v2 156FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP ún. korrespondancia-faktorok Az s2 szám éppen a Rényi-féle maximál korrelá- ció. 8.13 Információelméleti módszerek (Ω, A, P) valószín¶ségi mez® Ω halmaz mindig véges. Az Ω-án deniálható összes elos- Mivel itt is diszkrét eloszlásokkal foglalkozunk, az deníciójában szerepl® zlások családját D(Ω)-val jelöljük. d-szempontos d-dimenziós tömbbe vannak rendezve. számát jelölje ri , ekkor az Ω elemei A vizsgált
eloszlások tipikus példája, a a valószín¶ségek a kategóriáinak ω = (j1 , . , jd ), osztályozás, amikor Az i-edik szempont 1 ≤ j1 ≤ r1 , 1 ≤ j2 ≤ r2 , . , 1 ≤ jd ≤ rd X(ω) = X(j1 , . jd ) cellagyakod-dimenziós kontingenciatáblának, pontosabban r1 ×r2 , × · · ·× alakúak; ezeket szokták celláknak nevezni. Az riságokból állló mitát rd méret¶ táblának nevezzük. 117. Deníció (Marginális eloszlás.) Megjegyezzük, hogy az elnevezés a latin margo (genitivus: marginis) szóból származik. Tetsz®leges γ ∈ {1, . , ∏ d} az X kontingenciatábla, illetve egy p ∈ D(Ω) eloszlás γ -marginálisán azt a i∈γ ri γ γ γ dimenziós X vektort, illetve p vektort értjük, amelynek X (i1 , . , i|γ| ), ilγ letve p (i1 , . , i|γ| ) komponensei mindazon X(ω), illetve p(ω) elemek összegével egyenl®k, melyekre Ha |γ| = k , akkor ω = (j1 , . , jd )-nek γ -beli index¶ koordinátái rendre i1 , ,
i|γ| k -dimenziós marginálisról beszélünk. A fenti formális deníció nehezen érthet®, de az alábbi, a d = 2, r1 = 3 r2 = 3 esetet illusztráló táblazatokból kit¶nik, hogy valójában csak egy jólismert fogalom általánosításának kissé nehézkes, de elkerülhetetlen formalizálásáról van szó. A könnyebb olvashatóság kedvéért a valószín¶ségeket százalékban adjuk meg. A 8.1 Táblázat egy háromdimenziós eloszlás táblázata, a szemléletesség kedvéért gondoljuk az i és j koordináták által meghatározott táblázatokat 3 vízszintes rétegnek, míg a k 3 × 3 (i-vel és j -vel indexelt index az egyes rétegek magasságat jelzi). j1 j2 j3 k1 k1 k1 k2 k2 k2 k3 k3 k3 2 5 2 1 3 4 6 15 6 1 3 4 2 5 2 3 9 12 1 1 1 1 1 1 3 3 3 i1 i2 i3 i1 i2 i3 i1 i2 i3 8.1 táblázat Háromdimenziós eloszlás A 8.2 Táblázat az eredeti háromdimenziós eloszlás illusztrálja: a j indexre össszegzünk 9
rögzített (i, k) (i, k) kétdimenziós marginálisát párra. 8.1 157 ELMÉLETI HÁTTÉR k1 k2 k3 i1 i2 i3 4 9 7 4 9 7 12 27 21 8.2 táblázat Marginálisok Végül a fenti kétdimenziós marginális eloszlás elemeit a k index szerint összegezzük (ami ekvivalens azzal, hogy az eredeti eloszlás elemeit a k indexekre összegezzük minden rögzített i j és a értékre). i1 i2 i3 20 45 35 8.3 táblázat Összegzett marginálisok Ennek a paragrafusnak az a célja, hogy a többdimenzós gyakorisagtáblázatok mögötti eloszlást minél kevesebb paraméterrel írja le információelméleti módszerek segítségével. A becslési feladatoknak két típusát különböztetik meg Küls® feltételekkel meghatározott feladatok. Ebben az esetben feltételezzük, hogy az X minta p valódi eloszlása egy p∈F F eloszláscsaládhoz tartozik. A eloszlás meghatározásának általánosan elfogadott módja, hogy megker∗ essük azt a p ∈ F
eloszlást amely az alább ismertetett eltérések valamelyikének értelmében legközelebb van a pX empirikus eloszláshoz. Ugyanez a módszer a 121 Lemma alapján alkalmazható annak a hipotézisnek a vizsgálatára, hogy az X minta származhat-e egy F -beli eloszlásból. Bels® feltételekkel meghatározott (modellalkotási) feladatok. Itt az X mintában foglalt információt kevesebb adattal, általában bizonyos S1 , . , Sr statisztikák mintabeli átlagaival kívánjuk reprezentálni. Ha ismereteink mintavétel el®tti állapotát q ∈ D(Ω) eloszlás jellemzi (ennek legtöbbször az Ω-án értelmezett egyenletes eloszlást vesszük), akkor az { F= p: ∑ p(ω)Si (ω) = ω∈Ω eloszláshalmazhoz legközelebbi ∑ } pX (ω)Si (ω), i = 1, . , r (8.8) ω∈Ω p∗ eloszlást tekintjük a modellalkotási feladat megoldásának. Eloszlások eltérése Az eloszlások egymástól való eltérésére számos, az információelméletben
használatos mér®szám ismeretes, ezek általánosítását az ún. be (l. [9]) 1967-ben f -eltérést Csiszár Imre vezette 158FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP Miel®tt rátérnénk az információs geometria tárgyalására itt közöljük az ehhez kapcsolódó feladatokban szükséges Jensen-egyenl®tlenséget. 118. Tétel (Jensen-egyenl®tlenség) vex függvény, X léteznek. Ekkor f (x) (x ∈ R) valós érték¶ konE(X) és E(f (X)) E (f (X)) ≥ f (E(X)) . f (u) Legyen f (1) = 0, Legyen pedig egy valószín¶ségi változó. Tegyük fel, hogy (8.9) a pozitív félegyenesen értélmezett konvex függvény, amelyre és legyen megállapodás szerint f (u) a . 0f ( ) = a · lim u∞ u 0 f (0) = lim f (u), u0 119. Deníció (f-eltérés) p ∈ D(Ω) és q ∈ D(Ω) ( ) ∑ p(ω) Df (p∥q) = q(ω)f q(ω) eltérésén a Tetsz®leges eloszlások f- (8.10) ω∈Ω mennyiséget értjük. A tananyagban a f
(u)-t háromféleképpen választjuk meg: • (i) f (u) = |u − 1| • (ii) f (u) = (u − 1)2 • (iii) f (u) = u log u ∑ (ii) és (iii) függvényeknek rendre a ω |p(ω)−q(ω)| variációs távolság, ∑Az (i), 1 2 2 (p(ω) − q(ω)) Pearson-féle χ -eltérés, illetve a ω q(ω) Df (p∥q) = ∑ p(ω) log ω∈Ω p(ω) q(ω) (8.11) KullbackLeibler-féle diszkrimináló információ (ezt a rövidség kedvéért a továbbiakban egyszer¶en divergenciának nevezzük) felel meg. 120. Lemma Df (p∥q) ≥ 0, ha f (u) az az egyenl®ség csak p = q esetén teljesül. u=1 pontban szigorúan konvex, akkor Bizonyítás Lásd ???? Feladat. A fenti Lemma állításából nem következik, hogy az f-eltérés távolság, mert általában sem a szimmetria, sem a háromszög egyenl®tlenség nem teljesül. A felsorolt 3 eltérés közül csak az (i) variációs távolság valódi távolság. Jelölje T (p) a p eloszlás tartóját: T (p) := {ω : p(ω) >
0}. Nyilvánvaló, hogy D(p∥q) akkor és csak akkor véges, ha T (p) ⊆ T (q). A következ® Lemma lehet®séget teremt az f-eltérések statisztikai próbákban történ® felhasználására. 8.1 159 ELMÉLETI HÁTTÉR 121. Lemma (Az f-eltérés és a χ2 -eloszlás kapcsolata) Ha az eltérést deniáló f (u) függvény az u = 1 pontban szigorúan konvex, az u = 1 pont egy környezetében ′′ kétszer folytonosan dierenciálható, és f (1) > 0, akkor az egymáshoz közeli p 2 és q eloszlások f-eltérése a χ -eltérésük egy konstansszorosával közelíthet®, pontosabban bármely ε > 0-hoz van olyan δ > 0, hogy ( ′′ )∑ f (1) (p(ω) − q(ω))2 −ε ≤ D(p∥q) ≤ 2 q(ω) ω∈Ω (8.12) )∑ ( ′′ f (1) (p(ω) − q(ω))2 +ε , ≤ 2 q(ω) ω∈Ω ha |p(ω) − q(ω)| ≤ δq(ω) minden ω ∈ Ω-ra. A Lemma feltétele teljesül a divergenciára. A kontingenciatáblázatok elemzésekor alapfeladat az, hogy egy megkeressük F
⊆ D(Ω) egy eloszláscsaládnak adott p eloszlástól legkevésbé eltér® elemét. Ezt kétféleképpen tehetjük meg. 122. Deníció (Vetületek) I-vetület eloszláshalmazra vonatkozó I-vetülete az a q ∈ D(Ω) eloszlásnak F ∈ D(Ω) p ∈ F eloszlás, amelyre Egy ∗ D(p∗ ∥q) = min D(p∥q) < ∞. (8.13) p∈F L-vetület Egy L-vetülete az a p ∈ D(Ω) eloszlásnak F ∈ D(Ω) q ∗ ∈ F eloszlás, amelyre eloszláshalmazra vonatkozó D(p∥q ∗ ) = min D(p∥q) < ∞. (8.14) q∈F Az ??? feladatban fogalmaztuk meg a következ® lemma egyik allítását. p(ω) Miel®tt a lemmát kimondanánk vezessük be a pA (ω) := P (A) ha ω ∈ pA (ω) := 0, ha ω ̸∈ A jelölést, és analóg módon a qA (ω) A, jelölést is. 123. Lemma Legyenek, A1 , . , Ar az Ω valószín¶ségi tér páronként diszjunkt ∪ri=1 Ai = Ω(teljes eseményrendszer). Ekkor tetsz®leges p eloszlásokra: ( ) r ∑ p(Ai ) Df (p∥q) ≥ q(Ai )f .
(8.15) q(Ai ) i=1 részhamazai melyekre és q 0. Ha pAi = qAi minden olyan i-re, amelyre p(Ai )q( Ai ) szigorúan konvex, akkor az egyenl®ségnek ez elégséges feltétele. Egyenl®ség akkor érvényes ha f A fenti Lemma lehet®vé teszi, hogy egy q eloszlásnak meghatározzuk az I- vetületét egy speciális eloszláshalmazra; nevezetesen azon eloszlások halmazára, amelyek szerint egy A1 , . , Ar teljes eseményrendszer elemeinek valószín¶ségei adottak: F{p : p(Ai ) = πi }. (8.16) > 160FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 124. Tétel (Jerey-szabály.) Ha q(Ai ) > 0 min D(p∥q) = D(p∗ ∥q) = p∈F ( q(Ai )f i=1 ahol p∗ (ω) = minden r ∑ minden i-re, amelyre πi q(Ai ) πi ̸= 0 ) , πi q(ω) q(Ai ) ω ∈ Ω-ra. Vegyük észre, hogy ebben az esetben az I-vetület nem függ az eltérést meghatározó függvényt®l; ez általában nincs így. A Jerey-szabállyal egy speciális
küls® feltételekkel megadott feladatot oldunk q = pX , akkor p∗ az (8.16) F eloszláscsalád pX -hez legközelebbi ∗ eleme lesz a becslés eredménye. Ugyanakkor a Jerey szabállyal kapott p becsmeg, ugyanis ha lés teljesíti a bels® feltételekkel megadott feladat (8.8) egyenl®ségét is Minimális diszkrimináló információ módszernek (MDI) nevezzük azt az eljárást, amikor a becslés az ben legközelebbi p F eloszláscsaládnak a q eloszláshoz KullbackLeibler értelem- eleme Most megmutatjuk, hogy a polinomiális eloszlás maximum-likelihood becslése az empirikus eloszlás divergencia szerinti L-vetülete a polinomiális eloszlások ω ∈ Ω-ra az ω kategóriába es® elemek száma legyen X(ω), X(ω) komponenseib®l alkotott vektor az X minta, a mintaelemszám N := ∑ 1 ω∈Ω X(ω), pX = N X Ezekkel a jelölésekkel az X minta log-likelihood függvénye: [ ] ∏ ∑ N! X(ω) L(pX ) = log ∏ p(ω) = a(X) + X(ω) log p(ω) = ω∈Ω X(ω)!
halmazára. Minden az ω∈Ω ω∈Ω pX (ω) = b(X) − N log = b(X) − N D(pX ∥p), p(ω) (8.17) Ahol a(X) és b(X) csak a mintától (a becsülend® p paramétervektortól nem) függ® így a maximumot nem befolyásoló függvényeket jelölnek. A fenti egyenl®ségb®l adódik N D(pX ∥p) = L(pX ) − b(X), tehát L(pX ) ugyanarra a p vektorra veszi fel a maximumát, amelyre N D(pX ∥p) a minimumát. Ez a becslési módszer a küls® feltételekkel megadott feladat megoldását adja abban a speciális esetben, amikor az F eloszláshalmaz az Ω véges halmazon értelmezett összes lehetséges eloszlást tartalmazza. Ha q az Ω-án egyenletes eloszlás, akkor a divergencia deníciójából következik ∑ D(p∥q) = p(ω) log p(ω) + log |Ω|, ω∈Ω 8.1 161 ELMÉLETI HÁTTÉR p ∈ F eloszlás, amelynek ∑ H(p) = − p(ω) log p(ω) tehát az I-vetület most éppen az a a ω∈Ω Shannon-entrópiája maximális. Ezért a rendkívül népszer¶
maximális-entrópia becslési módszer speciális esetként tartalmazza az MDI-módszert. Az f-eltérés nem távolság, ennek ellenére bizonyos geometriai állítások az f-eltérésre is igazak. Az információelmélet geometriai megközelítése az elemi matematikai példatáráról jól ismert N. N Csencov [8] orosz matematikustól származik. Most megmutatjuk, hogy speciális duális eloszláscsaládok esetén az f-eltérésre teljesül a Pitagorasz-tétel. S1 , . , Sr az Ω halmazon értelmezett tetsz®leges valós függvények, S0 az azonosan 1 függvény. Jelölje S azt az (r+1)×|Ω| típusú mátrixot, amelynek i-edik sora Si (ω), i = 0, . , r Az S mátrix segítségével két eloszláscsaládot deniálunk. Legyenek és legyen 125. Deníció és q0 ∈ D(Ω) (Lineáris és exponenciális eloszláscsalád.) Legyenek p0 ∈ D(Ω) tetsz®leges eloszlások. Az L = L(S, p0 ) := {p : Sp = Sp0 } eloszláscsaládot az saládnak S mátrixhoz és p0
eloszláshoz tartozó (8.18) lineáris eloszlásc- nevezzük. Az E = E(S, q0 ) := {q : q = q0 exp(S⊤ τ )}, (8.19) ∑ r ⊤ ahol q0 exp(S τ ) a q0 (ω) exp( i=0 Si (ω)τi ) komponensekb®l álló vektort jelenti, ⊤ és τ befutja mindazokat az r + 1-dimenziós vektorokat amelyekre q0 exp(S τ ) ∈ D(Ω), exponenciális eloszláscsaládnak nevezzük. Ez azt jelenti, hogy τ1 , , τr tetsz®legesek és τ0 = − log ∑ q0 (ω) exp( Vegyük észre, hogy a deniáló q0 Si (ω)τi ). i=1 ω∈Ω 0, . , τr = 0) r ∑ eloszlás eleme E -nak a τ = (τ0 = 0, τ1 = választással. A (8.18) denícióból következik, hogy a lineáris eloszláscsalád az R|Ω| eu- klideszi tér zárt halmaza, míg az (8.19) deníció alapján látható, hogy az exponenciális eloszláscsalád nem zárt (egy valószín¶ség tetsz®legesen közel lehet 0-hoz, de nem lehet egyenl® vele). A család lezártját clE(S, q0 )-lal, vagy egyszer¶en clE-vel jelöljük
Jegyezzük meg, hogy minden q ∈ clE eloszlásra T (q) ⊂ T (q0 ) q ∈ E eloszlásra T (q) = T (q0 ) és minden Továbbá vegyük észre, hogy ha a (8.18) és a (819) deníciókban szerepl® mátrixot újabb sorok hozzávételével egy L̃(S̄, p0 ) ⊂ L(S, p0 ) és S̄ mátrixszá egészítjük ki, akkor Ẽ(S̄, p0 ) ⊃ E(S, p0 ). S 162FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 126. Tétel (Az információs geometria Pitagorasz-tétele.) Tegyük fel, hogy a (8.18) és a (819) eloszláshalmazok metszete nem üres: ∗ nek és E -nek pontosan egy p közös eleme van, és erre D(p∥q) = D(p∥p∗ ) + D(p∗ ∥q), L ∩ clE ̸= ∅. Ekkor p ∈ L, q ∈ clE, ha L- (8.20) továbbá ∪ T (p∗ ) = T (p) (8.21) p∈L T (p) ⊂ T (q0 ) és ∗ p (ω) = q0 (ω) exp ( r ∑ ) Si (ω)τi∗ , ha ω ∈ T (p∗ ) (8.22) i=0 ahol τ ∗ = (τ1∗ , . τr∗ )⊤ Bizonyítás alkalmas vektor. A Tananyagban
általában nem közlünk bizonyításokat, de a 126 Tétel érdekessége miatt a (8.20) azonosságot bebizonyítjuk ⊤ A divergencia deníciójából következik , hogy tetsz®leges q = q0 exp(S τ ) ∈ ′ ⊤ ′ és q = q0 exp(S τ ) ∈ E eloszlásokra és a t(p) ⊂ T (q0 ) feltételt kielégít® E p ∈ D(Ω) eloszlásra D(p∥q) − D(p∥q ′ ) = ∑ p(ω) log ω∈Ω Ezért p ∈ L, T (p) ⊂ T (q0 ) q ′ (ω) = p⊤ S⊤ (τ ′ − τ ). q(ω) esetén D(p∥q) − D(p∥q ′ ) = f (q, q ′ ) (8.23) q ∈ E , q ′ ∈ E ). Határátmenettel adódik, hogy (823) ′ akkor is igaz marad ha q és q a b®vebb clE -nek eleme, kizárva azokat a p-ket ∗ ′ ∗ amelyekre D(p∥q) = ∞. Most p ∈ L ∩ E esetén q szerepét p -nak adva a (823) (azaz nem függ p-t®l, ha egyenl®ségb®l adódik, hogy D(p∥q) − D(p∥p∗ ) = D(p∗ ∥q) − D(p∗ ∥p∗ ) D(p∗ ∥p∗ ) = 0 a (8.20) egyenl®séget bebizonyítottuk Kiegészítés. A L ∩ clE
̸= ∅ feltétel pontosan akkor teljesül, ha T (p) ⊆ T (q0 ) Mivel 127. Megjegyzés L∩E A divergencia nemnegatív voltából következik, hogy a halmaz egyetlen eleme egyidej¶leg a eloszlás E -re vett L-vetülete. q eloszlás L-re {p∗ } = p- vett I-vetülete és a 8.1 163 ELMÉLETI HÁTTÉR A bels® és küls® feltételekkel meghatározott feladatok részletesebb elemzése 1. Bels® feltételekkel meghatározott feladatok empirikus eloszlása, S1 , . , Sr legyenek q0 Legyen pX az X minta a mintavétel el®tti ismereteinket jellemz® eloszlás, és azok a statisztikák, amelyeknek mintabeli átlagait a már vázolt modellalkotási feladathoz fel kívánjuk használni. Ekkor a modellalkotási feladat MDI-megoldásán a q0 -nak az L = L(S, pX ) = {p : Sp = SpX } (8.24) p∗ I-vetületét értjük. A továbbiakban feltesszük, ∗ hogy T (q) = Ω. A 126 Tétel kiegészítése szerint a p I-vetület létezik és egyértelm¶ Struktúrális
0-nak nevezzük a (8.24) eloszláscsaládra nézve azokat az ω ∈ Ω elemeket, amlyekre minden p ∈ L eloszlásra p(ω) = 0. Feltesszük, hogy az X mintában nincsenek struktúrális 0-k. Ez a helyzet, ha minden ω ∈ Ω-ra ∗ az X(ω) ̸= 0. Ekkor a már említett kiegészítés szerint a p I-vetület az L ∩ E metszet egyetlen eleme, (éppen a struktúrális 0-k hiánya miatt nem kell E ∗ lezárását tekinteni), és p megegyezik a pX E -ra vonatkozó L-vetületével, azaz lineáris eloszláscsaládra vonatkozó az ismeretlen eloszlás maximum-likelihood becslésével [l. (817)] H az ∗ adat p X kontingenciatáblában van struktúrális 0 akkor a modellalkotási fel- megoldasa csak a clE -ben és ∑ q (ω) exp τωγ , 0 p∗ (ω) = γ∈Γ 0, Az MDI-megoldásként kapott eloszlás adekvát modelljének, ha a ha ω ∈ T (p∗ ) ha ω ̸∈ T (p∗ ). p∗ eloszlás akkor tekinthet® a pX empirikus D(pX ∥p∗ )
divergencia kicsi, ennek kvantitatív mérésére az 121 Lemma nyújt lehet®séget. Ha az X egy q ∈ D(Ω) eloszlásból vett N elem¶ minta , akkor a (8.12) képlet alapján: 2N D(pX ∥q) ∼ ∑ (X(ω) − N q(ω))2 , N q(ω) N ∞. ha (8.25) ω∈Ω Itt a ∼ jel azt jelenti, hogy a két oldal hányadosa sztochasztikusan tart 1-hez. |Ω| − 1 szabadságfokú χ2 eloszlású. A jobb oldali tört aszimptotikusan 1. Küls® feltételekkel meghatározott feladatok Ezekben a feladatok- ban az MDI-módszer akkor célszer¶, ha az ott szerepl® L(S, p0 ) lineáris eloszláscsalád. Ha feltesszük, hoy az X F eloszláscsalád egy minta valamelyik (is- p ∈ L eloszlásból származik, ennek az eloszlásnek az MDI-becslésén a ∗ empirikus eloszlás L-re vonatkozó p I-vetületét értjük, feltéve, hogy erre ∗ teljesül T (p ) = T (pX ). (Az I-vetület (813) deníciójából következik, hogy T (p∗ ) ⊆ T (pX ), azonban a valódi tartalmazás
kizárható, mert ekkor az X minta ∗ biztosan nem származhatna a p eloszlásból.) meretlen) pX 164FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP A 126 Tétel szerint a p∗ MDI-becslés pX q ∈ E(S, pX ) L- helyett bármely re vonatkozó I-vetületeként is megkapható. Ez azt jelenti, hogy az adott MDIbecslési feladat eredménye nem változik, ha a pX empirikus eloszlást egy korábbi MDI-becsléssel helyettesítjük, feltéve, hogy abban a becslésben alkalmazott az L′ családot deniáló S′ mátrix sorai benne vannak az S sorai által kifeszített altérben. (l ??? Feladat) Az MDI-becslés most is felhasználható a p ∈ L hipotézis tesztelésére, ugyanis p, akkor a (8.25) formulához hasonlóan adódik, hogy ha a valódi eloszlás 2N Df (p∥pX ) ∼ ∑ (X(ω) − N p(ω))2 , N p(ω) ha N ∞. (8.26) ω∈Ω Itt a Df eltérést az f (u) = − log u választással kell számolni. A (826) képlettel |Tp |−1
szabadságfokú χ2 eloszlást követ. A deniált statisztika aszimptotikusan 126 Tétel (8.20) képlétét alkalmazva a kek[varianciaanalíizis]b®l ismert szórásnégyzet felbontást is kaphatunk: 2N Df (p∥pX ) = 2N Df (p∥p∗ ) + 2N Df (p∗ ∥pX ), ahol az összeadandók aszimptotikusan függetlenek, az els® tag szabadságfoka |Tp | − 1 − r, míg a második tag szabadságfoka r azaz az L lineáris családot deniáló mátrix nem konstans sorainak száma. 8.14 Az I-vetület numerikus meghatározása Ebben a pontban egyetlen módszert ismertetünk nevezetesen azt amelyik akkor alkalmazható, ha az L lineáris család olyan L1 , . , Lr lineáris családok metszete amelyekre való egyes I-vetületek explicite meghatározhatók. Ez a helyzet, amikor az eloszláscsalád bizonyos γ -marginálisok el®írásával van megadva: L = {p : pγ = pγ0 , γ ∈ Γ}. 128. Tétel L ∩ri=1 Li és legyen q0 tetsz®leges olyan eloszlás, amelyhez található a T
(p) ⊆ T (q0 ) feltételt kielégít® p ∈ L. Értelmezzük a p∗1 , p∗2 , eloszlásokat a következ® iterációval: p∗0 = q0 , és n = 1, 2, . esetén Legyenek L1 , . , Lr p∗n Ln = Li ha Ekkor q0 -nak ahol a lineáris eloszláscsaládok, p∗n−1 L-re n = kr + i. L-re vonatkozó vonatkozó I-vetülete, I-vetülete: p∗ = lim p∗n . n∞ 8.2 Feladatok 1. Bizonyítsuk 120 Lemmát, azaz azt az állítást, 8.2 165 FELADATOK hogy ha az f-eltéréstt deniáló konvex, akkor Df (p∥q) ≥ 0, f (u) függvény az u=1 pontban szigorúan és egyenl®ség csak akkor áll fenn, ha p = q. Tipp: Alkalmazzuk a Jensen-egyenl®tlenséget az f (u) fügvényre, az X = p(ω) valószín¶ségi változóra és a q eloszlás szerinti várható értékre. Vegyük q(ω) észre, hogy ebben a szereposztásban ( f (E[X]) = f ∑ ω∈Ω Ha így f (u) az u = 1 E[f (X)] > 0. p(ω) q(ω) · q(ω) ) = f (1) = 0. pontban szigorúan konvex, és p ̸= q
akkor f (p/q) > 0 Válasz: 2. Bizonyítsuk be a következ® állítást Legyenek, A1 , . , Ar az Ω halmaz páronként diszjunkt részhamazai melyekre ∪ri=1 Ai = Ω. Ekkor tetsz®leges p és q eloszlásokra: Df (p∥q) ≥ r ∑ ( q(Ai )f i=1 p(Ai ) q(Ai ) ) . Az állítás szemléletes tartalma az, hogy a durvított eloszlások f-eltérése nem nagyobb, mint az eredeti eloszlásoké. Tipp: pA (ω) := Pp(ω) (A) ha ω ∈ A, pA (ω) := 0, módon a qA (ω) jelölést. Vezessük be a jelölést, és analóg ha ω ̸∈ A A fenti jelölésekkel r ∑ Df (p∥q) = ( q(ω) ω∈Ai qAi (ω) ) . p(ω) q(ω) valószín¶ségi feltételes eloszlás szerinti várható értékkel. Alkalmazzuk a Jensen-egyenl®tlenséget az változóra a p(ω) q(ω) f fügvényre, a Válasz: 3. Legyen p(ω) Ω tetsz®leges véges halmaz. Keressük meg azt az Ω-n értelmezett eloszlást amelyre a H(p) = − ∑ p(ω) log p(ω) ω∈Ω entrópia maximális. Mennyi a
maximális érték? Tipp: Alkalmazzuk a a széls®érték-számítás Lagrange-multiplikátor mód- szerét! (Aki nem ismeri ezt a módszert, oldja meg a feladatot az esetben.) Válasz: p(ω) = 1 |Ω| , H = log |Ω|. |Ω| = 2 166FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 4. Legyen Ω = {0, 1, . , n}, r = 1, S1 (ω) = ω Legyen továbbá p0 ∈ D(Ω) q0 pedig az (n, 12 ) paraméter¶ binomiális eloszlás. tetsz®leges L(S, p0 ) lineáris elosp = (p(0), p(1), . p(n)) eloszlások összessége, E0 értéke megegyezik p0 -éval, azaz (a) Bizonyítsuk be, hogy a fenti jelölésekkel az zlászcsalád mindazon amelyek várható n ∑ p(i)i = i=0 az n ∑ p0 (i)i, i=0 E(S, q0 ) exponenciális eloszláscsalád az n, π paraméter¶ binomiális nπ = E0 . eloszlások összessége, ahol ⊤ (b) Adjuk meg az exponenciális család q = q0 exp(S τ ) el®állításában ⊤ szerepl® τ = (τ0 , τ1 ) vektort a binomiális
eloszlás π paraméterével. Tipp: Idézzük fel a kek[lineáris és exponenciális eloszláscsalád dení- cióját] Válasz: τ1 = log 5. Legyen S̄ π , 1−π olyan mátrix, amely az τ0 = n log(2 − 2π). S mátrixból további sorok hozzáadásá- val nyertünk. Jelölje az S̄ mátrix az eredeti L̃(S̄, p0 ) és Ẽ(S̄q0 ). zláscsaládokat (Az p0 , és q0 által deniált elosẼ(S̄q0 ) deníciójában szerepl® τ vektorok lehetséges halmaza is kib®vül.) Tegyük fel, hogy Ekkor minden L ∩ clE ̸= ∅ p ∈ L̃ és és q ∈ clE L̃ ∩ clẼ ̸= ∅. eloszlásra D(p∥q) = D(p∥p∗ ) + D(p∗ ∥q) D(p∥p∗ ) = D(p∥p̃∗ ) + D(p̃∗ ∥p∗ ), ahol p∗ ∈ L ∩ clE Tipp: és (8.27) p̃∗ ∈ L̃ ∩ clẼ. Idézzük fel a lineáris és exponenciális eloszláscsalád denícióját és az információs geometria Pitagorasz-tételét. A különböz® eloszláscsaládok viszonyait, és az ebben elhelyezked® eloszlásokat
az alábbi ábra szemlélteti. Válasz: 8.3 Tesztek 1. Az alábbi f fügvények közül jelöljük meg azokat amelyekhez tartozó f- eltérés távolság. (a) (b) f (u) = (u − 1)2 √ f (u) = (1 − u) 8.3 167 TESZTEK p ~ L L E p* ~ E q ~ p* 8.3 ábra Eloszláscsaládok (c) f (u) = |u − 1| (d) f (u) = u − log u Válasz: c 2. Az X és Y véletlen változók 4-4 értéket vehetnek fel, együttes eloszlásukat az alábbi mátrix tartalmazza. 2 3 2 3 2 3 2 3 4 5 4 5 4 5 4 5 Az alábbi sorok melyikében állnak az X illetve az Y tozóhoz tartozó marginális eloszlás valószín¶ségei? (a) (1, 2, 3, 4) (b) (1, 2, 3, 4) (c) (1, 2, 3, 4) (d) (1, 2, 3, 4) Válasz: válasz: itt a számoktól függ, 3. Az alábbi állítások közül melyik igaz Jerey-szabályra? (a) A Jerey-szabállyal csak I-vetületet számolunk. (b) A Jerey-szabállyal csak L-vetületet számolunk. (c) A Jerey-szabállyal
I- és L-vetületet számolunk. (d) A Jerey-szabállyal nem vetületet számolunk. Válasz: c valószín¶ségi vál- 168FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 4. Az alábbi állítások közül melyik igaz Jerey-szabályra? (a) A Jerey-szabály a lineáris eloszláscsaládra érvényes. (b) A Jerey-szabály az exponenciális eloszláscsaládra érvényes. (c) A Jerey-szabály eredménye függ az eltérést deniáló függvényt®l. (d) A fentiek közül egyik sem igaz. Válasz: d 5. A lineáris (exponenciális) eloszláscsaládot egy S (r +1)×|Ω| típusú mátrix deniálja. Az alábbi állítások közül melyek igazak? (a) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád b®vül, valamint az általa deniált exponenciális eloszláscsalád b®vül. (b) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád sz¶kül, valamint az
általa deniált exponenciális eloszláscsalád b®vül. (c) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád b®vül, valamint az általa deniált exponenciális eloszláscsalád sz¶kül. (d) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád sz¶kül, valamint az általa deniált exponenciális eloszláscsalád sz¶kül. Válasz: b 9. fejezet Klaszteranalízis, többdimenziós skálázás 9.1 9.11 Elméleti háttér Klaszteranalízis A diszkriminanciaanalízist®l eltér®en itt nem adott osztályokkal dolgozunk, hanem magukat az osztályokat (klasztereket) keressük, azaz objektumokat szeretnénk osztályozni a rajtuk végrehajtott többdimenziós meggyelések alapján (ugyanez megtehet® a változókkal is az objektumok alapján). A minimalizálandó veszteségfüggvény, aminek segítségével az osztályozást végrehajtjuk egyel®re csak vázlatosan a
következ®. Az p-dimenziós mintatér pontjainak tekinthet® (p < n), n db objektum a és euklideszi metrikában dolgozunk. Tekintsük minden egyes osztályra az adott osztálybeli objektumok súlypontját, és vegyük az objektumok négyzetes eltérését (távolság-négyzetét) a súlyponttól. Az így kapott mennyiségeket utána összegezzük az osztályokra és keressük azt az osztályszámot, hozzá pedig az osztályokat, melyekre ez a veszteség minimális. Arra vonatkozóan, hogy hogyan alakult ki ez a veszteségfüggvény, röviden utalunk a varianciaanalízisre, ahol a T =W +B szórásnégyzet-felbontás alapvet®. A minta teljes (Total) varianciáját a csoportokon belüli (Within) és a csoportok közötti (Between) varianciákra bontjuk fel. Az objektumok minden egyes partíciójához létezik ilyen felbontás, és a klaszterezés (osztálybasorolás) annál homogénebb, minél kisebb W W = B T −W 169 W a B -hez képest, azaz a 170 FEJEZET 9.
KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS kifejezést szeretnénk minimalizálni, ami (T x lévén) W minimalizálásával ek- vivalens. Legyenek C1 , . , Ck a klaszterek (ezek a mintateret alkotó objektumok partí- cióját jelentik diszjunkt, nem-üres részhalmazokra). A sj = j. klaszter súlypontja 1 ∑ xi . |Cj | xi ∈Cj A Cj -beliek négyzetes eltéréseinek összege Wj = ∑ ∥xi − sj ∥2 = xi ∈Cj sj -t®l: 1 ∑ i ,xi′ ∈Cj ∥xi − xi′ ∥2 . i<i′ |Cj | (Az utolsó egyenl®ség egyszer¶ geometriai meggondolásból adódik, így még a súlypont kiszámolása sem szükséges.) Megjegyezzük, hogy a fenti euklideszi távolságok az eredeti adatok ortogonális transzformációira invariánsak, a célfüggvény csak a pontok kölcsönös helyzetét®l függ. Ezekután keresend® a W = k ∑ Wj min. j=1 veszteség-minimum, amelynek zikai jelentése a k db. súlypontra vonatkozó tehetetlenségi (inercia) nyomatékok
összege. Itt az euklideszi távolságnégyzetek helyett más metrikával is dolgozhatunk, pl. vehetjük az f (∥xi ∥) függvényeket, ahol f folytonos, monoton növ® A minimalizálás természetesen az összes lehetséges k -ra (1 ≤ k ≤ n), és emelett az összes lehetséges klaszterbesorolásra vonatkozik. Ismert tény, hogy az összes partíciók száma az ún. Bell-szám: n { } ∑ n ω(n) = , k k=1 k -val jelölt ún. másodfajú Stirling-féle szám egy n-elem¶ halmaz nem-üres, diszjunkt részhalmazra való összes lehetséges partícióinak számát ahol az k {n} jelöli (k = 1, . , n) Ezek k és n függvényében meghatározhatók az { } ( ) k−1 n 1 ∑ k = (−1)r (k − r)n k k! r=0 r egzakt formulával A W (n = 1, 2, . ; k = 1, 2, , n) veszteségfüggvény kiértékelése a kombinatorikusan lehetséges véges számú esetre elvileg keresztülvihet®, a gyakorlatban azonban nagyon id®igényes { n } lenne, ui. be lehet látni (l
[20]), hogy n−k az n-nek 2k -fokú polinomja (8 ob{8} jektum, 4 klaszter esetén is = 1701 lehet®séget kellene végigszámolnunk). 4 Nézzünk helyette inkább egy jól bevált algoritmust: 9.1 171 ELMÉLETI HÁTTÉR k-közép (MacQueen) módszer: a minimalizálandó veszteségfüggvény W = k ∑ ∑ ∥xi − sj ∥2 . j=1 xi ∈Cj Itt k adott (geometriai vagy el®zetes meggondolásokból adódik), és induljunk (0) (0) C1 , . , Ck klaszterbesorolásból (pl kiszemelünk k távoli objektumot, és mindegyikhez a hozzájuk közelieket soroljuk, egyel®re csak durva ki egy kezdeti m = 1, 2, . (m − 1)-edik lépésben az objektomoknak már létezik egy (m−1) (m−1) sorolása: C1 , . , Ck , a klaszterek súlypontját pedig jelölje megközelítésben). Egy iterációt hajtunk végre, a lépéseket jelölje Tegyük fel, hogy az k klaszterbe (m−1) (m−1) s1 , . , sk (a 0. lépésbeli besorolásnak a kezd® klaszterezés felel meg) Az m-edik lépésben
átsoroljuk az objektumokat a klaszterek között a következ®képpen: egy objektumot abba a klaszterbe sorolunk, melynek súlypontjához a legközelebb van. Pl xi -t az l . klaszterbe rakjuk, ha (m−1) ∥xi − sl ∥= min j∈{1,.,k} (m−1) ∥xi − sj ∥ (ha a minimum több klaszterre is eléretik, akkor a legkisebb index¶ ilyenbe (m) soroljuk be), azaz xi ∈ Cl lesz. Kétféle módon is el lehet végezni az objektumok átsorolását: vagy az összes objektumot átsoroljuk az (m − 1)-edik lépésben kialakult klaszter-súlypontokkal számolva, majd a régi súlypontok körül kialakult új klasztereknek módosítjuk a súlypontját, vagy pedig az objektumokat x1 , . , xn szerint sorravéve, mihelyt egy objektum átkerül egy új klaszterbe, módosítjuk annak súlypontját. Így a végén nem kell már újra súlypontokat számolnunk, és az iterációszám is csökkenhet, ui célratör®bb (mohó) az algorit(m) (m) , . , Ck klaszterezásmus Miután az
összes objektumot átsoroltuk, az új C1 (m) (m) b®l és az új s1 , . , sk súlypontokból kiindulva ismét teszünk egy lépést. Meddig? Választhatunk többféle leállási kritériumot is, pl. azt, hogy az objektumok már stabilizálódnak a klaszterekben, és a klaszterek nem változnak az iteráció során. Az eljárást animáció szemlélteti Az agglomeratív ill. divizív módszerek a klaszterszámot fokozatosan csökken- tik ill. növelik Ezek közül is az ún hierarchikus eljárások terjedtek el, ahol úgy csökkentjük ill. növeljük a klaszterszámot, hogy minden lépésben bizonyos klasztereket összevonunk ill. szétvágunk Például nézzünk egy agglomeratív, hi(0) erarchikus eljárást. A kezdeti klaszterszám k = n, tehát kezdetben minden objektum egy külön klasztert alkot. Az iteráció a következ®: tegyük fel, hogy (m) az m. lépésben már csak k db. klaszterünk van Számítsuk ki a klaszter(m) középpontokat (súlypontokat). Ezek euklideszi
távolságai egy k × k (m) -es, szimmetrikus ún. távolság-mátrixot alkotnak (f®diagonálisa 0) Azokat a klasztereket, melyek távolsága egy adott korlátnál kisebb, egy klaszterbe vonjuk össze, ilyen módon egy lépésben persze kett®nél több klaszter is összevonódhat. Végül, legfeljebb n lépésben már minden összeolvad, és csak egy klaszterünk lesz. A mellékelt ún. dendrogram (l 91 ábra) egy agglomeratív eljárást szemléltet (5 objektummal). Az eljárás megtekinthet® animáción is Nem szükséges persze 172 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS 9.1 ábra dendrogram végigcsinálni az összes lépést. Agglomeratív eljárások esetén a W veszteségfüg- gvény általában monoton n®, azt kell meggyelni, hol ugrik meg drasztikusan. Ha végigcsináljuk az összes lépést, a dendrogramot szemlélve próbálunk meg egy ésszer¶ klaszterszámot találni (a mellékelt példában lehetne ez 2). Ilyen agglomeratív,
hierarchikus eljárás a legközelebbi szomszéd módszer is, amely akkor is összevon két klasztert, ha létezik közöttük egy lánc, amelyben az egymás utáni elemek már közelebb vannak egymáshoz egy adott korlátnál. Ezt az algoritmust Kruskal dolgozta ki (l. [18]) 9.12 Többdimenziós skálázás Tegyük fel, hogy (n és p n db. objektum mindegyikén végeztünk p számú meggyelást viszonya most tetsz®leges). Célunk az objektumok vagy/és változók megjelenítése valamely (lehet®leg alacsony dimenziós) euklideszi tér pontjaiként. n×p-es adatmátrix formájában vannak megadva, p-, oszlopai pedig a váln-dimenziós pontoknak. A probléma az, hogy n és p ál- Amenynyiben meggyeléseink egy ennek sorai tekinthet®k az objektumokat reprezentáló tozókat reprezentáló talában nagy, mi pedig inkább 1-,2-, esetleg 3-dimenziós ábrákon szeretnénk tájékozódni. El®fordulhat az is, hogy nincsen szabályos adatmátrixunk, hanem csak az
objektumok vagy/és változók közti ún. hasonlósági vagy különböz®ségi mér®számok adottak, és csupán ezek alapján szeretnénk reprezentálni adatainkat. A következ®kben az objektumok alacsony dimenziós reprezentálásával (skálázásával) fogunk foglalkozni. A leírtak értelemszer¶en alkalmazhatók a változókra is A precíz tárgyaláshoz bevezetünk néhány deníciót és jelölést. 9.2 129. Deníció dii = 0, (i) (ii) 173 FELADATOK A 130. Deníció p mátrixot távolság-mátrix nak nevezzük, ha i = 1, . , n; dij = dji ≥ 0, valamely D = (dij )ni,j=1 1 ≤ i < j ≤ n; dik ≤ dij + djk , Az n × n-es D távolságmátrixot euklideszi nek nevezzük, ha x1 , . , xn ∈ Rp vektorok, hogy pozitív egész mellett vannak olyan dij = ∥xi − xj ∥ Legyen i, j, k ∈ {1, . , n} Hn := In − n1 1n 1Tn (i, j = 1, . n) az ún. centráló mátrix Miután n-et rögzítettük, a H mátrix alsó indexét elhagyjuk. A
következ® tétel szükséges és elégséges feltételt ad arra, hogy egy távolságmátrix euklideszi legyen. 131. Tétel Az n × n-es mxD távolság-mátrix akkor és csak akkor euklideszi, ha a 1 2 pozitív szemidenit, ahol az A mátrix elemei: aij = − 2 dij . B := HAH mátrix A Tételt nem bizonyítjuk, de megmutatjuk, hogy ha a B mátrix pozitív Rp euklideszi térben a top pontoknak megfelel® vektorokat. Mivel B Gram-mátrix el®áll B = XX alak⊤ ⊤ ban, ahol X egy n × p ,átrix, melynek sorai az x1 , . , xn vektorok Ekkor igaz a dij = ∥xi − xj ∥ összefüggés. szemidenit, akkor hogyan találjuk meg egy alkalmas D távolságmátrix euklideszi. Ha B mátrix indenit. Tegyük fel, hogy az n×n-es B-nek p darab pozitív sajátértéke van (λ1 (B) ≥ · · · ≥ λp (B)) és ⊤ a B = UΛU spektrálfelbontásbeli Λ-ban a sajátértékek nem-növekv® sorrendÁltalában semmi garancia nincs arra, hogy a D nem euklideszi, akkor 131 Tételben szerepl®
ben vannak rendezve. Az 153 Tétel (Weyl perturbációs tétel) szerint tetsz®leges Bp szimmetrikus mátrixra max |λj (B) − λj (Bp )| ≤ ∥B − Bp ∥. j p rangú, pozitív szemidenit Bp mátrixok körében a B mátrix legnagyobb abszolút érték¶ negatív sajátértéke. b p -b®l b p = ∑p λi (B)ui uT mátrixon ez a minimum eléretik. Ily módon B A B i i=1 b a fenti módon konstruált D távolságmátrixot a D mátrix euklideszi távolságA fenti egyenl®tlenség bal oldalának minimuma a mátrixszal való optimális közelítésének tekinthetjük. 9.2 Feladatok 9.3 Tesztek 174 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS Miskolc Nyíregyháza Eger Gyõr Debrecen Bp Szfv Szombathely szolnok Kecskemét Szeged Pécs 9.2 ábra Városok eredeti pozíciójukban Gyõr Miskolc Szombathely Eger Bp Nyíregyháza Szfv Debrecen Szolnok Kecskemét Pécs Szeged 9.3 ábra Városok közelítése légvonalbeli távolságmátrix alapján
9.3 175 TESZTEK Szombathely Gyõr Nyíregyháza Miskolc Szfv Eger Bp Debrecen Szolnok Kecskemét Pécs Szeged 9.4 ábra Városok közelítése közúton mért távolságmátrix alapján Miskolc Gyõr Szombathely Nyíregyháza Szfv Bp Debrecen Eger Szolnok Kecskemét Pécs Szeged 9.5 ábra Városok közelítése Manhattan távolságmátrix alapján 176 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS 9.6 ábra Eredeti és légvonalban mért távolságmátrix alapján kapott térkép 9.7 ábra Eredeti és közúton mért távolságmátrix alapján kapott térkép 9.3 TESZTEK 9.8 ábra Eredeti és Manhattan távolságmátrix alapján kapott térkép 177 178 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS 10. fejezet Többváltozós küszöbmodellek, logit, probit 10.1 Elméleti háttér 10.2 Feladatok 10.3 Tesztek 179 180FEJEZET 10. TÖBBVÁLTOZÓS KÜSZÖBMODELLEK, LOGIT, PROBIT 11. fejezet Randomizált
módszerek nagyméret¶ problémákra 11.1 Elméleti háttér A töbváltozós statisztikai módszerek jelent®s része (faktor-, klaszter és korrespondenciaanalízis) valamely mátrix spektrális vagy szinguláris felbontásán alapul, s mivel a statisztika egyik célja nagy adattömeg leírása minél kevesebb adattal ezen módszerekben csak néhány kiugró saját- vagy szinguláris értéket és a hozzájuk tartozó sajátvektorokat, illetve sajátvektor párokat kell meghatároznunk. A napjainkban egyre elterjedtebb ún adatbányászatnak is a szinguláris érték felbontás az alapja. Itt mátrixok mérete (m × n) milliószor milliós lehet, ugyanakkor a hagyományos szinguláris érték felbontási algoritmusok számításigénye O(min mn2 , m2 n). Több kezdeti kísérlet után Frieze, A., Kannan, R, és Vempala, S [13] javasoltak véletlen kiválasztáson alapuló hatékony módszert egy nagyméret¶ A ∗ mátrix k -nál kisebb rangú D mátrixszal való
közelítésére. Az általuk alkalmazott véletlen kiválasztásnál a sorok kiválasztásának valószín¶sége arányos a sor euklideszi norma négyzete / A hyperref[?]Frobenius-norma négyzete menny- iséggel, a soron belül az elemek kiválasztásának valószín¶sége (feltéve, hogy az adott sort kiválasztottuk) arányos az adott elem négyzete / A Frobenius-norma négyzete mennyiséggel. Alaptételük a következ®t állítja 132. Tétel Legyen A egy m×n mátrix, legyen rögzítve k ∈ Z+ ε > 0 és δ > 0. k -rangú D∗ Ekkor van olyan véletlenített algoritmus, amely leírja azt a legfeljebb mátrixot amelyre lagalább 1−δ ∥A − D∗ ∥2F ≤ valószín¶séggel teljesül a min D,rkD≤k ∥A − D∥2F + ε∥A∥2F . 1 1 ε -ban és log δ -ban polinomidej¶, m-t®l és n-t®l független. ∗ Az igy kapott leírás alapján D explicit módon kiszámítható O(kmn) lépésben. Az algoritmus csak k -ban, 181 182FEJEZET 11.
RANDOMIZÁLT MÓDSZEREK NAGYMÉRET PROBLÉMÁKRA A következ® tétel Achlioptas-tól és McSherryt®l származik [1]. Miel®tt ki- m × n-es A mondanánk bevezetjük egy mátrixszal azonos méret¶ mátrixban meglev® minimális lineáris struktúrát mér® és legyen −b-vel Q egy olyan m × n-es Q Ψ mennyiséget. Legyen b = maxi,j |aij | b-vel vagy mátrixok halmaza, amelyek elemei egyenl®k. Ψ(A) = min ∥Q∥ Q∈Q 133. Tétel Legyen szám. Legyen továbbá és tetsz®leges i, j A tetsz®leges m × n-es mátrix és s > 1 tetsz®leges valós  olyan m×n-es véletlen mátrix, melynek elemi függetlenek indexpárra { 0, âij = saij , 1− 1 s valószín¶séggel 1 s valószín¶séggel. (A függetlenség visszatevéses mintavétellel mindig elérhet®) Ha még s≤ m+n log6 (m + n) 116 is teljesül, akkor ( ) √ P ∥A − Âk ∥ ≤ ∥A − Ak ∥ + 7 sΨ(A) ≥ 1 − Ak , illetve mátrixot. ahol Âk jelóli az A, illetve  1 ,
m+n mátrixot legjobban közelít® A tétel bizonyítása azon alapszik, hogy az A − Â k -rangú mátrix alkalmas elren- dezéssel Wigner-típusú mátrixszá alakítható. A Wigner-mátrixok maximális sajátértéke eloszlásának fels® farkára jó becslések ismertek. 11.2 Feladatok 11.3 Tesztek 12. fejezet Algoritmikus modellek 12.1 Elméleti háttér 12.11 ACE-algoritmus (általánosított regresszióra) A Breiman és Friedman ([[7]]) által kifejlesztett algoritmus az alábbiakban vázolt általános regressziós feladat numerikus megoldására szolgál igen tág keretek között (kategorikus adatokra, id®sorokra ugyanúgy alkalmazható, mint olyan többváltozós adatokra, ahol a változók egy része abszolút folytonos, más része diszkrét). Az Y függ® és az X1 , . , Xp független változóknak keresend®k olyan Ψ, Φ1 , , Φp mérhet®, nem-konstans valós érték¶ függvényei (szkórjai), amelyekkel e2 (Ψ, Φ1 , . , Φp )
= E Ψ(Y ) − p ∑ 2 Φj (Xj ) /D2 (Ψ(Y )) (12.1) j=1 {(yk , xk1 , . , xkp : k = 1, , n)} adatrendszer alapján D2 (Ψ(Y )) = 1 feltétel mellett. Lineáris transzformációkkal elérhet®, hogy E(Ψ(Y )) = E(Φ1 (X1 )) = · · · = E(Φp (Xp )) = 0 és D2 (Ψ(Y )) = 1 legyen. Amennyiben a változók együttes (p + 1)-dimenziós eloszlása ismert, az algo(0) (0) (0) ritmus a következ®. Legyenek Ψ (Y ), Φ1 (X1 ), . , Φp (Xp ) a feltételeknek eleget tev® kezdeti függvények. Az iteráció (m + 1)-edik lépése a következ® minimális adott Valójában feltételes minimumot keresünk a (mindig csak egyik függvényt változtatjuk). 1. Rögzített (m) (m) Φ1 (X1 ), . , Φp (Xp ) (m+1) Ψ esetén ∑p (m) E( j=1 Φj (Xj ) | Y ) (Y ) := . ∑p (m) D( j=1 Φj (Xj ) | Y ) 183 184 FEJEZET 12. 2. Rögzített (m+1) Ψ(m+1) , Φ1 esetén (m+1) Φi ALGORITMIKUS MODELLEK (m+1) (X1 ), . , Φi−1 (Xi ) := E [Ψ(m+1) (Y ) − i−1
∑ (m) (m) (Xi−1 ), Φi+1 (Xi+1 ), . , Φp (Xp ) (m+1) Φj p ∑ (Xj ) − j=1 (m) Φj (Xj )] | Xi j=i+1 i = 1, . , p Az iterációt akkor hagyjuk abba, ha a (12.1)-beli célfüggvény értéke már keveset változik. Az algoritmust részletesebben leírjuk abban az esetben, amikor a valószín¶ségi változók ismeretlen folytonos eloszlásúak, és a feltételes várható érték vételt a simítás helyettesíti. Nyilván világos az algoritmus elnevezése: ACE=Alternating Conditional Expectation (alternáló feltételes várható érték). Ha az együttes eloszlást nem ismerjük, az n mintaelemet tartalmazó ada- trendszer alapján minimalizálandó célfüggvényt akkor is felírhatjuk 2 p n ∑ ∑ 1 Ψ(yk ) − Φj (xkj ) n j=1 k=1 alakban, melyet azzal a kényszerfeltétellel minimalizálunk, hogy Ψ(Y ) empirikus szórásnégyzete 1. Az iterációs lépések a fentiek azzal a különbséggel, hogy a feltételes várható
értéket is a minta alapján képezzük. Például 2 változó esetén (p = 1) ennek becslése a következ®: Ê(Φ(X)|Y = y) = ∑ Φ(xk )/ k : xk =x vagyis átlagoljuk az azonos Y Y ∑ 1, k : yk =y értéket felvev® mintaelemekhez rendelt összes meggyelt értékére. Pl ha Y a szemszín és Φ(X) Φ(xk )-kat a hajszín szkórja, akkor átlagoljuk az azonos szemszín¶ek hajszín-szkórjait, majd átlagoljuk az azonos hajszín¶ek az Ψ(y) szemszín-szkórjait, és normálunk. Az algoritmus lényege éppen abban áll, hogy ezt felváltva hajtjuk végre, miközben a másik változót rögzítjük. A fenti algoritmus ismeretlen mintaeloszlások esetén csak akkor m¶ködik, ha a tapasztalati feltételes várható értékek kiszámíthatók, azaz a minta együttes eloszlása diszkrét. Breiman és Friedman a minták simításának módszerét ajánlották folytonos valószín¶ségi változók esetére A jelölésekben melyek kissé eltérnek a szokásostól
az idézett dolgozatot követjük. p Jelölje X az adathalmazt (mintát), azaz az R euklideszi tér álló {x1 , . xN }, azaz x1 1 x2 1 . . xN 1 . . . x1 p x2 p . . . xN p N pontjából 12.1 185 ELMÉLETI HÁTTÉR X-re legyen F (X) az összes X-en értelmezett valósérték¶ Φ fügvények tere, azaz egy Φ ∈ F (X) függvényt N valós szám ({Φ(x1 ), . , Φ(xN })) deniál. Legyen továbbá F (xj ) (j = 1, , p) az összes {x1 j , , xN j } halmazon adatmátrixot. Rögzített értelmezett valósérték¶ függvények tere. 134. Deníció S : F (X) 7 F (xj ) Sj függvényt az Φ ∈ F (X), jelöljük az F (xj ) térben Sj képét Sj (Φ|xj )-vel, a függvény értékét a k -adik adaton pedig Sj (Φ|xk j )-vel X minta xj Az X mintára értelmezett szerinti simításának nevezzük. Ha Feltesszük, hogy az alábbi tulajdonságok teljesülnek. (i) Linearitás: minden Φ1 , Φ2 ∈ F (X), valamint minden
valós α és β számra S(αΦ1 + βΦ2 ) = αSΦ1 + βSΦ2 . (ii) Konstans meg®rzés: ha (iii) Korlátosság: Az S Φ∈D azonosan konstans (Φ simítás korlátja M, ha minden ≡ c), akkor SΦ = Φ. Φ ∈ F (X)-re ∥SΦ∥N ≤ M ∥Φ∥N , ahol ∥ · ∥N az Np dimenziós euklideszi norma. (Egy X minta N darab p dimenziós vektorból áll!) Példák. N 2 természetes számot. Rendezzük a mintát a j -edik koordinatája szerint Az itt alkalmazott 1. Legközelebbi szomszéd módszer: Rögzitsünk egy jelölésekben ez azt jelenti, hogy M< x1 j < x2 j < · · · < xN j ; feltesszük, hogy nincsenek egyenl® elemek. Legyen S(Φ|xk j ) = 1 2M N ∑ Φ(xk+m ). m=−M, m̸=0 Ha valamelyik oldalon (pl. a végén) már nincs M pont, egészítsük ki az összegzést a másik oldalról (pl. az elejér®l) vett pontokkal 2. Magfüggvény módszer: Legyen K(x) olyan valós nemnegatív érték¶ függ- vény, amely maximumát a 0
pontban veszi fel. Legyen ∑N S(Φ|xk j ) = Vegyük észre, hogy ha a a Φ(x) m=1 Φ(xm )K(xm j − xk,j ) ∑N m=1 K(xm j − xk,j ) j -edik változó szerint simítunk, akkor lényegében j -edik változó mentén, ez felel meg a megfelel® függvényt átlagoljuk a feltételes várható érték vételnek. Most egy kett®s ciklussal deniáljuk a BreimanFriedman numerikus algo- θ-t, bels® ciklusában Φj -ket j = 1, . , p n-edik lépése után e szerz®k két lehet®séget javasol- ritmust. Az algoritmus k¶ls® ciklusában változtatjuk. A küls® ciklus nak: 186 FEJEZET 12. (a) Megtartjuk a bels® ciklusban kapott (b) Kinullázzuk a korábbi Φ ALGORITMIKUS MODELLEK Φ-k értékeit (restart), értékeket (friss start). Kett®s ciklus. 0. Inicializálás: (0) θ(0) (yk ) = yk 1. Küls® ciklus (n = 1, 2, . -re): Φj (yk j ) = 0. legyen ∑p ∑p θ(n) = Sy ( j Φj )/∥Sy ( j Φj )∥N . (0) j -re Φj Térjünk vissza a bels® ciklushoz minden
(0) minden j -re Φj = 0-val m-et Futtasuk a legbels® ciklust m x): (m+1) n-edik szintjén θ(n) -nel és növelve. j = 1, 2, . , p Φj (restart) vagy (friss start). 2. Bels® ciklus (m = 0, 2, -re): a küls® ciklus (0) Φj -vel (j = 1, . , p) kezdünk 3. Legbels® ciklus (j -re, = Φj -vel = Sj θ(n) − ∑ Legyen (m+1) Φi − i<j ∑ (m) Φi (12.2) i>j 3 Legbels® ciklus vége. 2 A bels® ciklus megáll ha ∑p 1 A küls® ciklus megáll, ha j=1 (m+1) ∥Φj ∥θ(n) − (m) −Φj ∑p j=1 ∥ m növelésével alig változik. Φj ∥ n növelésével alig változik. Kett®s ciklus vége. 135. Megjegyzés Vegyük észre, hogy 1. A bels® ciklusban, amikor a j -edik változó szerint simítunk, ( a (122) ∑ (m+1) (m) formula) akkor θ − i<j Φi -nek a j -edik változó szerinti feltételes várható értékét vesszük. 2. A küls® ciklusban az y változó szerint simítunk, ezt formálisan nem
deniálX mintába, p + 1-edik változóként. tuk, de belevehettük volna az A fenti algoritmus konvergenciáját A Breiman és Friedman ([7]) speciális, nehezen ellen®rizhet® feltételek mellett igazolták. A gyakorlat azt mutatja, hogy a módszer a feladatok széles körére jól alkalmazható. 12.1 187 ELMÉLETI HÁTTÉR 12.12 Jackknife eljárás Az M. H Quenouille [28] által 1954-ben által javasolt, a becslés torzítását csökkent® módszernek J. W Tukey [32] adta a jackknife (zsebkés) elnevezést Az elnevezés azt fejezi ki, hogy maga az eljárás els®sorban kis minták esetén számos más célra is alkalmazható, mert a normális eloszlásra kidolgozott módszereket jól imitálja olyan esetekben is, amikor a normalitás sérül. A jackknife azonban nem mindenre jó gyógyszer, egy egyszer¶ ellenpéldán megmutatjuk korlátjait. A jackknife az adatok jól megválasztott csoportosításán alapszik, a csoportok kombinációi alapján becsléseket
konstruálunk, amelyek átlaga lesz a jackknife becslés. Itt csak az egyelem¶ csoportokat használó eljárást ismertetjük A jackknife módszer alábbi vázlatos ismertetésében Rupert Miller [23] és [24] dolgozataira támaszkodunk. X = (X1 , . , Xn ) független azonos eloszlású minta egy Pθ eloszlásθ ∈ Θ ismeretlen paraméter Jelölje θ̂ := θ̂(X) a θ paraméter valamilyen Legyen ból, ahol becslését a teljes minta alapján; a továbbiakban a becslések argumentumába nem írjuk be a mintaelemeket. Jelölje θ̂−i (i = 1, . , n) azt a becslést, amelyet az i-edik mintaelem elhagyásával kapunk. Képezzük az ún pszeudoértékeket (az elnevezés Tukey-t®l származik): θei := nθ̂ − (n − 1)θ̂−i 136. Deníció A θ paraméter jackknife becslése a (12.3) θei pszeudoértékek átlaga: 1 ∑e θe• = θi = nθ̂ − (n − 1)θ̂−• , n i=1 n ahol θ̂−• = 1 n (12.4) ∑n 137. Állítás i=1 θ̂−i . 1 A jacknife
becslés pontosan eliminálja a torzítás n rend¶ tagját. Mivel ez az állítás éppen a jackknife-becslés alapvet® tulajdonságát jellemzi (tulajdonképpen ezt a célt valósítja meg az eljárás) közöljük a rövid és tanulságos bizonyítást. Bizonyítás Ha E(θ̂) = θ + na + nb2 + . , akkor a b a b b E(θe• ) = n(θ+ + 2 +. )−(n−1)(θ+ + +· · · = θ− +. ) 2 n n n − 1 (n − 1) n(n − 1) QED ei pszeudoértékek közelít®leg függetlenek; ha ez a feltevés Tukey szerint a θ 2 e igaz, akkor D (θ• ) becslése az ∑ 1 (θei − θe• )2 n(n − 1) i=1 n (12.5) 188 FEJEZET 12. ALGORITMIKUS MODELLEK statisztika lehet, és a [ t = (θe• − θ) ∑ 1 (θei − θe• )2 n(n − 1) i=1 n t(n − 1) statisztika közelít®leg ]−1/2 (12.6) eloszlású, így alkalmas hipotézisvizsgálatra és kondenciaintervallum szerkesztésre. Ezt illusztráljuk a következ® példán Legyen X1 , . , X n független, azonos F ((x −
µ)/σ) eloszlású minta, ahol F ismeretlen eloszlásfüggvény µ és σ ismeretlen lokációs és skálaparaméterekkel 2 2 (µ = E(X1 ), σ = D (X1 )). Tegyük fel, hogy F -nek létezik a negyedik momen2 tuma. A σ paraméter torzítatlan becslése 1 ∑ (Xi − X̄)2 . n − 1 i=1 n Sn∗ 2 = Alkalmazzuk a jackknife eljárást! θei =Sn∗ 2 + θe• =Sn∗ 2 n ∑ (θei − θe• )2 = i=1 n ∑ n (Xi − X̄)2 − n−1 · (Xj − X̄)2 , n−2 j=1 és 2 (12.7) n n ∑ ∑ n2 (Xi − X̄)2 − n−1 (Xj − X̄)2 . (n − 2)2 i=1 j=1 Ahogyan az (12.5) becslés alapján megkonstruáltuk az (54) statisztikát, az 2 e• jackknife becslésére (ami itt azonos a (12.7) statisztikák alapján σ paraméter θ ∗2 hagyományos Sn torzítatlan becsléssel!) közelít® t-statisztikát konstruálhatunk: [ ∑ 1 t = (θe• − σ 2 ) (θei − θe• )2 n(n − 1) i=1 n ]−1/2 . Egy kissé mesterkélt ellenpéldán megmutatható,
hogy az (12.6) statisztika eloszlása er®sen eltérhet az n−1 szabadsági fokú Student-eloszlástól. A példát nem ismertetjük. jackknife módszer a diszkriminanciaanalízis kereszt-kiértékelésére. Tegyük fel, hogy N elem¶ (X1 , . , XN ) mintára alkalmazunk egy tetsz®leges diszkrim- ináló eljárást. A következ®t kell tennünk: az eljárást hogy kihagyjuk az hagyott Xi , i = 1, . , N N -szer végrehajtjuk úgy, mintaelemet, majd megnézzük, hogy a ki- (Xi ) elemet melyik osztályba sorolta az így szerkesztett eljárás. A kapott eredményeket átlagolva megkapjuk a hibás (és természetesen a helyes) besorolások relatív gyakoriságát. 12.1 189 ELMÉLETI HÁTTÉR 12.13 Bootstrap eljárás A paragrafusnak ebben a részében els®sorban A. B Efron 1997-ben megjelent alapvet® [10] dolgozatára, valamint G J Babunak és C Radhakrishna Rao-nak a Handbook of Statistics [2] 9. kötetében megjelent összefoglaló ismertetésére, és az
abban idézett irodalomra támaszkodunk A paragrafus elején ismertetett jackknife algoritmus els®sorban arra alkalmas, hogy valamely eloszlás ismeretlen paraméterének a torzítását csökkentse, és számos esteben jó közelítést adjon a becslés szórásnégyzetére. Az Efron által javasolt bootstrap (szó szerint csizmahúzó); a statisztikán kívül pl. az informatikában is használatos elnevezés a bonyolult problémákat kezel® általános receptekre) módszerrel a becsl® statisztikák eloszlása is jól kezelhet®. X= T (X, F ) A bootstrap statisztika deníciója és eloszlásának meghatározása. Legyen (X1 , . , Xn ) független minta egy az X mintától függ® statisztika. tetsz®leges F eloszlásból, és legyen A korábbi a paraméteres statisztikával foglalkozó fejezetekben F -r®l általában feltettük, hogy normális eloszlású, és ekkor a gyakran alkalmazott T (X, F ) statisztikák eloszlását analitikusan is meg tudtuk határozni.
Más eset- ben ha statisztika független azonos eloszlású valószín¶ségi változók normált összege volt a centrális határeloszlás-tételre hivatkoztunk. F esetén a T (X, F ) statisztika eloszlását F̂n empirikus eloszlás alapján számított eloszlással. Megjegyezzük, hogy pl az X̄ átlag eloszlásának kiszámításához az F̂n 2 n-szeres konvolúcióra van szükség, amelynek m¶veletigénye O((log n)n ), ami elfogadható, ennek ellenére a bonyolultabb statisztikák eloszlásának az F̂n emKis mintaelemszám és ismeretlen közelíthetjük a mintából becsült pirikus eloszlás alapján történ® közvetlen meghatározása körülményes. Erre is alkalmas az Efron [10] által javasolt bootstrap eljárás. A bootstrap statisztika eloszlása meghatározásának laggyakrabban használt F̂ -hez vegyünk egy X̃ = (X̃1 , . , X˜n ) ún bootstrap mintát Ez a gyakorlatban azt jelenti, hogy az eredeti X mintából visszatevéssel kiválasztunk n elemet.
módszere a nyers r®, azaz a Mont Carlo módszer. Rögzített függatlen azonos (F̂n ) eloszlású Ennél szosztikáltabb módszer a centrális határeloszlás-tétel élesítésének alkalmazása a bootstrap mintára. Ha az F (x) folytonos eloszlás harmadik abszolút momentuma véges, akkor a klasszikus BerryEsseen-tétel (l. pl [15] szerint ( ) sup |P X̄ − µ ≤ xσ − Φ(x)| = O(n−1/2 ) (12.8) x Ez az egyenl®tlenség nem javítható, de ha az adik (k > 3) F eloszlásnak létezik a k- abszolút momentuma, akkor a (12.8) képletben szerepl® explicit módon megadható, és a külonbség rendje l. [15]) Mivel az F̂n ( √ ) O 1/ ns−2 lesz (Ljapunov tétele eloszlás momentumai megegyeznek a tapasztalati momen- tumokkal, az idézett tétel alkalmazható az közelítésére (X helyett X̃, µ = overlineX F̂n eloszlás analitikus alakban történ® szereposztással). Most megfogalmazunk egy tételt, amely az X és bootsrap minta átlaga
közötti eltérésére állít a (12.8) egyenl®tlenségnél pontosabb becslést Miel®tt ezt 190 FEJEZET 12. ALGORITMIKUS MODELLEK kimondanánk, emlékeztetünk a rácsos eloszlás fogalmára: egy ha növekedési pontjainak halmaza szerinti mértéket P̃-vel R F eloszlás rácsos, ekvidisztáns pontjaiból áll. Az F̂ eloszlás jelöljük. K Singh (l [31]) tétele: 138. Tétel Tegyük fel, hogy X = (X1 , . , Xn ) független minta egy F nem rácsos eloszlásból, amelynek várható értéke µ szórása σ és a harmadik abszolút momentuma véges. Legyen X̃ = (X̃1 , . ,,̃Xn ) az F̂n alapján kisorsolt (X1 , . , Xn , ) realizációra bootstrap minta. Ekkor majdnem minden v u ∑ n u ( ) ¯ − X̄) ≤ xt 1 (Xj − X̄)2 = o(n−1/2 ) sup P (X̄ − µ) ≤ σ − P̃ (X̃ n j=1 x A következ® Babutól származó példa (l. [2]) illusztrálja, hogy nem lehet vakon bízni a bootstrap módszerben. Legyen X =√(X1 , . , Xn )
standard nor- mális eloszlásból származó független minta. Mivel nX̄ standard normális elos2 2 2 zlású, µ = 0, n(X̄) − µ ∼ χ (1). Legyen X̃ = (X̃1 , , X̃n ) a bootstrap minta Megmutatható, hogy az ¯ 2 − X̄2 ) majdnem minden végtelen (X , . , X , ) (X̃ 1 n realizációra divergál! ebb®l feladat gyártható: miért mond ez látszólag ellent a Steiner egyenl®tlenségnek? Második példánk a diszkriminanciaanalízis hibabecslése. Az egyszer¶seg kedvéért tegyük fel, hogy csak két mintánk van: X1 , . , Xn ∼ F = N (m1 , C) és Y1 , . , Ym ∼ G = N (m2 , C), Yj p-dimenziós véletlen vektorok teljesen függetlenek. A megx1 , xn , illetve y1 , , ym A minta alapján megbecsüljük az m1 és m2 várhatóérték vektort, valamint a C kovariancaiamátrixot, legyenek b . Ezeket a becsléseket a A diszkrdec25tex-beli b 1, m b 2 és C a becslések: m ahol az Xi és gyelt értékek: szovegben most szamozatlan a regi konyvben 311. o
29 en itt nem tudom beirni. formulába beírva eljárást kapunk arra, hogy eldöntsük: egy új x meggyelést az F vagy a G eloszlást követi-e. Ha b −1 x > c} b T2 − m b T1 )C x ∈ B := {x : (m akkor az x meggyelést a G eloszlást követ®k csoportjába soroljuk. Az osztály- ozás várható hibáját még az új meggyelések beérkezése el®tt szeretnénk megbecsülni. Az error [ := |{i : xi ∈ B}| m (12.9) nyilván alulbecsüli a hibát, mert az osztályozó eljárást a minta alapján szerkesztettük, az mintegy adaptálódott a mintához. A valódi várható hiba error := PF {i : xi ∈ B} 12.2 191 FELADATOK lenne. R((X, Y), (F, G)) := error − error [. Az e R bootstrap veszteség momentumait nyers er®-vel (Monte Carlo módsz- errel) határozhatjuk meg. Az illetve ej y F̂ Ĝ és eloszlásból generálunk bootstrap mintaelemet, ezek alapján kiszámítjuk az sok paramétereit, meghatározzuk a e B n, F̂ illetve Ĝ és
ei , m x eloszlá- bootstrap kritikus tartományt. Így az e R bootstrap veszteség egy realizációja: e e ei ∈ B}| e Y), e (F̂ , Ĝ)) = |{i : xi ∈ B}| − |{i : x e = R((X, R . m m Ezen eljárás elegend®en sok független ismétlése után a keresett momentumok átlagolással nyerhet®k. Ilymódon becslést kapunk az R veszteségfüg- gvény várható értékére, amivel az osztályozás hibájának (12.9) becslését korrigálhatjuk Megjegyezzük, hogy a programcsomagok kiszámítják a hibavalószín¶ség jackknife becslését is olymódon, hogy minden egyes mintaelem kihagyásával megszerkesztik a kritikus tartományt, majd megvizsgálják, hogy a kihagyott elem melyik tartományhoz tartozik. Az így tapasztalt hibás döntések relatív gyakorisága a hibavalószín¶ség becslése Efron idézett dolgozatában egy 10 és egy 20 elem¶ mintára ismerteti mindkét eljárás eredményét; nincs lényeges különbség. 12.2 Feladatok X = (X független √ 1 , .
, Xn ) standard normális eloszlásból származó nX̄ standard normális eloszlású, µ = 0, n(X̄)2 −µ2 ∼ χ2 (1). Legyen X̃ = (X̃1 , . , X̃n ) a bootstrap minta Megmutatható, hogy az ¯ 2 − X̄2 ) majdnem minden végtelen (X , . , X , ) Mutassuk meg, (X̃ 1 n 1. Legyen minta. Mivel hogy ez az állítás látszólag ellentmond a Steiner-egynl®ségnek. ∑n Tipp: Az n1 [ 2 j=1 (X̃j −X̄)] valószín¶ségi változók aszimptotikusan valóban 2 χ (1) eloszlásúak, Irjuk fel rájuk a Steiner-egyenl®séget, felhasználva, hogy E(X̃j ) = X̄. Válasz: ]2 1[ ¯ 2 − X̄2 ) = 2X̄2 − 2X̄X̃. ¯ sumnj=1 (X̃j − X̄) − (nX̃ n A fenti egyenl®ség jobb oldala a nagy számok törvénye miatt 0-hoz tart, de nomabb meggondolások alapján kiderül, hogy ez nem elegend® az ¯ 2 − X̄2 ) bootstrap statisztika eloszlás szerinti konvergenciájához. (nX̃ 192 FEJEZET 12. ALGORITMIKUS MODELLEK Útmutatások, végeredmények 12.3
Útmutatások 12.4 Végeredmények 193 194 FEJEZET 12. ALGORITMIKUS MODELLEK 13. fejezet Függelék 13.1 Jelölje Rn Függelék 1: Lineáris algebrai emlékeztet® az n-dimenziós valós euklideszi teret (elemei n-dimenziós valós kom- ponens¶vektorok, melyek összeadása és valós számmal való szorzása értelmezve van a szokásos m¶veleti tulajdonságokkal, továbbá a vektortér a ⟨·, ·⟩ skaláris Rn térben tekintsük a standard ε1 , . , εn szorzás m¶veletével is el van látva). Az bázist (az εi vektor i-edik koordinátája 1, többi koordinátája pedig 0). Ha a skaláris szorzást nem deniáljuk konkrét formulával, akkor fel kell tennünk, hogy az ε1 , . , εn Rn bázis ortonormált: { 0, ⟨εi , εj ⟩ = δij = 1, ha ha i ̸= j i = j. (13.1) x, y, z, . -vel jelöljük, ezeket oszlopvektoroknak tekintjük; ha x⊤ , y⊤ , z⊤ , . jelölést ∑n használjuk. Az x vektor kooordinátái ebben a bázisban x1 , .
, xn , azaz x = i=1 xi εi . Az ⊤ (13.1) megállapodás miatt ⟨x, y⟩ = x y, az √ √∑n 2 x vektor euklideszi normája pedig ∥x∥ = x⊤ x = i=1 xi . n n Az A : R R lineáris transzformációt azonosítjuk azzal az n × n-es A := (aij )ni,j=1 mátrixszal, melynek j -edik oszlopában az Aεj vektor koordinátái állnak. Ha egy x vektor A-val való transzformáltja y, azt az Ax = y, vagy ∑n mátrixalakban az Ax = y (yi = j=1 aij xj ) jelöléssel fejezzük ki. Az A := (aij ) és B := (bij ) n × n-es mátrixok szorzata dení ció szerint A B := (cik ) = ∑n ( j=1 aij bjk ). Az I := (δij )ni,j=1 mátrixot n-dimenziós egységmátrixnak (identitásnak) nevezzük Az elnevezést az IA = AI = A öszefüggés indokolja Az n × n-es A mátrix A−1 inverzét az AA−1 = A−1 A = I összefüggés deniálja (ez pontosan akkor létezik, ha az |A| mátrix alább deniált determinánsa nem 0). Közvetlen számolással meggy®z®dhetünk arról, hogy, ha az A és B mátrixok
−1 invertálhatók, akkor az AB mátrix is invertálható, és (AB) = B−1 A−1 . Az A mátrix |A| determinánsa a mátrix oszlopavektorai által deniált nAz vektorait sorvektorokként szeretnénk tekinteni, akkor az dimenziós parallelepipedon el®jeles térfogata, ami az alábbi képlettel számítható 195 196 FEJEZET 13. ki: ∑ |A| = FÜGGELÉK (−1)π [inverzióinak száma] a1π(1) · · · · · anπ(n) . π ∈ az (1, . , n) permutációinak halmaza (13.2) (n − 1) × (n − 1)-es mátrixnak a determinánsát, amelyet úgy kapunk A-ból, hogy elhagyjuk az i-edik sorát és a j -edik oszlopát. Az i+j adj (A) := ((−1) Aji )nj,i=1 mátrixot A adjungált mátrixának nevezik, l. [30] −1 Az A mátrix pontosan akkor létezik, ha |A| ̸= 0, és ekkor Jelöljük Aij -vel annak az A−1 = 1 adj (A) . |A| Vegyük észre, hogy a determináns egy n2 változós függvény (polinom), így van értelme a mátrixelemek szerinti deriválásnak. A (132)-beli
deníciót felhasználva kapjuk, hogy ∂|A| = (−1)i+j Aij . ∂aij Egy 2 (13.3) f (A) (f : Rn R) álló mátrixot szokás mátrixfüggvény mátrixelemek szerinti deriváltjaiból ∂f ∂A -val is jelölni, ezzel a jelöléssel (13.3) a ∂|A| = adj (Aq top) ∂A tömör alakba írható át. −1 Ha az A mátrix nem létezik, akkor azt mondjuk, hogy az A A által deniált transzformáció szinguláris. A mátrix-jelölést alkalmazva Im(A) az A mátrix ab1 , . , abn oszlopvek- torai által kifeszített Span(ab1 , . , abn ) altér (ezt onnan is látni, hogy Ax = ∑n i=1 xi abi ), a Ker(A) altér pedig azon x vektorokból áll, amelyek ortogonálisak ⊤ ⊤ az A mátrix soraira, azaz az A (A transzponáltja) oszlopaira, vagyis az Im(A ) altérre. Ezzel igazoltuk a következ®t 139. Állítás R n A Ker(A) és Im(A -ben, tehát dim(Ker(A)) 140. Deníció az U⊤ U = I Az U ⊤ ) alterek egymás + dim(Im(A⊤ )) = n. ortogonális komplementerei
transzformáció ortogonális, ha deniáló mátrixára igaz összefüggés. Ez azt jelenti, hogy U oszlopai ortonormáltak. Belátható, hogy ekkor U sorai UU⊤ = I összefüggés is. is ortonormátak, ezért igaz az Az ilyen U mátrixot ortonormált mátrixnak is szokták nevezni. 141. Deníció (szimmetrikus mátrix) metrikus, ha A⊤ = A, j = 1, . , n) indexpárra. vagy, ami ugyanaz: Az A n × n-es valós mátrix szimaij = aji minden (i, j) (i = 1, . , n; 13.1 197 LINEÁRIS ALGEBRA 142. Deníció (projekció) P transzformáció ortogonális projekció, ha P szimmetrikus és idempotens, azaz P szimmetrikus, 139. állítás miatt x ∈ Rn vektor el®áll x = y + z alakban, ahol y ∈ Im(P), z ∈ Ker(P). Ezért Px = y, n innen az elnevezés. Ha H ⊂ R egy altér, PH jelöli a H -ra való vetítést A P PP = P. operátor az Im(P) altérre vetít. Mivel a Ker(P) és a Im(P) egymás ortogonális komplementerei, tehát minden 143. Állítás vektor,
akkor A és B tesz®leges n × n-es (AB)⊤ = B⊤ At op és Ha mátrixok és x ∈ Rn tetsz®leges (A⊤ x)⊤ Bx = x⊤ WBx . 144. Deníció (kvadratikus alak, denitás) metrikus mátrix. Az x⊤ Ax = n ∑ n ∑ Legyen A egy n×n-es, szim- aij xi xj i=1 j=1 A által deniált kvadratikus alaknak nevezzük. Az aij illetve xi számok x vektor koordinátái. Az A mátrixot pozitív denit ⊤ (szemidenit)nek nevezzük, ha az x Ax kvadratikus alak pozitív (nem-negatí v) minden, nem azonosan 0 komponens¶x vektorra. Hasonlóan, az A mátrix ⊤ negatív denit (szemidenit), ha az x Ax kvadratikus alak negatív (nem-pozitív) ⊤ minden, nem azonosan 0 komponens¶x vektorra. Ha pedig az x Ax kvadratikus alak mind pozitív, mind negatív értékeket felvehet (természetesen más-más x vektorokra), akkor az A mátrixot indenit nek nevezzük. Szinguláris (nem inszámot az az A mátrix elemei illetve az vertálható) mátrixok a szemidenitek és az indenitek egy
része. 145. Deníció Legyenek A és B szimmetrikus mátrixok. Azt mondjuk, hogy A > B, ha A−B szigorúan pozitív denit. Azt mondjuk, hogy A ≥ B, ha A−B pozitív szemidenit. 146. Tétel Rn Az A mátrix akkor és csak akkor szimmetrikus, ha minden vektorpárra x, y ∈ x⊤ Ay = y⊤ Ax . Megjegyezzük, hogy egy B mátrix pontosan akkor pozitív szemidenit, ha ún. A mátrix, hogy B = A⊤ A. Gram-mátrix, azaz van olyan Az alábbi tétel (l. [19] 149 o) kovarianciamátrixok összehasonlításánál hasznos lehet. 147. Tétel akkor Legyenek B−1 ≤ A−1 A és B invertálható szimmetrikus mátrixok. Ha 148. Deníció (sajátérték, sajátvektor) ponens¶vektort az n × n-es A Az u ∈ Rn A ≤ B, nem azonosan 0 kom- mátrix sajátvektorának nevezzük, ha van olyan valós szám (sajátérték), amellyel Au = λu teljesül. λ 198 FEJEZET 13. Ezzel ekvivalens a következ® állítás: dim(Ker(A − λI)) λI)) < n, azaz az A
− λI > 0, FÜGGELÉK illetve dim(Im(A − mátrix nem invertálható. A sajátértékek geometriájáról a Gersgorin-tétel segítségével nyerhetünk hasznos információt. 149. Tétel (Gersgorin) mátrix. Legyen Ci az aii A egy (komplex elem¶) n × n-es ∑tetsz®leges n ri := |a | k=1k̸=i ik sugarú nyílt körlemez a Legyen körüli komplex számsíkon. Ekkor az A mátrix valamennyi sajátértéke a D := ∪ni=1 Ci tartományban helyezkedik el. 150. Megjegyzés Az alábbi egyszer¶észrevétel is rendkívül hasznos lehet a sajátértékek geometriájának vizsgálatánál. 151. Tétel (spektrál-leképezés tétel) A mátrix sajátértéke, akkor P (λ) a P (A) 152. Tétel (spektrálfelbontási tétel) mátrixnak van pontosan n Ha P (·) tetsz®leges polinom, és λ az mátrix sajátértéke. Az n×n-es szimmetrikus, valós elem¶A valós sajátértéke (nagyság szerint csökken® sorrend- λ1 ≥ λ2 ≥ · · · ≥ λn ), és az
ezekhez tartozó u1 , u2 , . , un sajátvektorok megválaszthatók úgy, hogy ortonormáltak legyenek (egy ilyen u1 , . , un ben jelölje ®ket rendszert ortonormált sajátvektor rendszernek nevezünk). Mátrixalakban ez az T A = UΛU = n ∑ λi ui uTi (13.4) i=1 felbontást jelenti, ahol az n×n-es Λ diagonális mátrix a λ1 , . , λn sajátértékeket U ortogonális mátrix pedig a hozzájuk tartozó tartalmazza f®diagonálisában, az sajátvektorokat tartalmazza oszlopaiban, a sajátértékek sorrendjének megfelel®en. Az (13.4) felbontást az A mátrix spektrálfelbontás ának nevezzük. Szimmetrikus mátrixok sajátértékeinek becslésének hasznos eszköze a Weyl perturbációs tétel 153. Tétel max |λj (A) − λj (B)| ≤ ∥A − B∥. (13.5) j Vegyük észre, hogy ha a λ∗k+1 (A), viszont a mint B mátrix k -rangú, akkor (13.5) baloldala b := ∑k λ∗ u∗ u∗T mátrixra teljesül B i=1 i i i nem kisebb, b = λ∗ (A). ∥A −
B∥ k+1 Ezzel bebizonyítottuk, hogy a közelítése b. B k -rangú szimmetrikus mátrixok körében A legjobb Ez az észrevétel képezi a f®komponensanalízis alapját. A Weyl perturbációs tétel tetsz®leges mátrixokra is általánosítható. 13.1 199 LINEÁRIS ALGEBRA 154. Tétel Legyen A tetsz®leges m × n-es min BB k-rangú és a minimum a értéket, valamint és V pedig az A valós elem¶ mátrix. Akkor ∥A − B∥ = sk+1 , b = VSk U mátrixon éretik el, ahol Sk B 0-kat tartalmazó (esetleg téglalap alakú) az els® k szinguláris diagonális mátrix, U mátrix szinguláris felbontásában szerepl® ortogonális márixok. 155. Megjegyzés Az (13.4) formula azt jelenti, hogy az A mátrix egydimen- ziós alterekre való mer®leges vetítések valós lineáris kombinációjaként áll el®. Tetsz®leges valós n × n-es mátrixot nem lehet ortogonális bázisban diagonal- izálni, s®t egyáltalán nem lehet diagonalizálni, mert pl. a
|A − λI| = 0 karakα szöggel való terisztikus egyenletnek komplex gyökei vannak, ilyen pl. a sík elforgatását megadó ( sin α − cos α cos α sin α ) mátrix. Ilyenkor a mátrix komplex euklideszi térbeli ortogonális bázisban diagonalizálható, de ha a karakterisztikus egyenletnek többszörös (valós vagy komplex) gyöke van, akkor el®fordulhat (nem szükségképpen!), hogy a mátrixnak még a komplex térben is sem diagonalizálható, pl. n-nél kevesebb sajátvektora van, így ferde" bázisban ( 1 0 ) 1 . 1 Más módszert kell találni a mátrixok egyszer¶bb alakban való felírására. Erre iφ szolgál a poláris felbontás tétele, amely a komplex számok z = re alakú felírásának messzemen® általánosítása. 156. Tétel (a poláris felbontás tétele) Tetsz®leges A négyzetes mátrix felírható WB alakban, ahol B pozitív szemidenit (szimmetrikus), W pedig ortogonális. A B mátrix mindig egyértelm¶en meghatározott, míg W
csak abban az esetben, ha A invertálható. A tétel közvetlen következménye a négyzetes mátrixokra vonatkozó 157. Tétel (szinguláris felbontási tétel) hoz van olyan S = diag (s1 , . , sn ) hogy A = VSUT = n ∑ A négyzetes mátrixU és V unitér mátrix, Tetsz®leges diagonális, valamint si vi uTi . (13.6) i=1 • 1. A poláris (és a szinguláris) felbontásban szerepl® U mátrix oszlopvektorai rendelkeznek a következ® tulajdonsággal: (Aui )T (Auj ) = δij s2i u1 , . , un 200 FEJEZET 13. • 2. A • 3. Az FÜGGELÉK V mátrix v1 , . , vn oszlopvektoraira igaz az si ·vi = Aui összefüggés u1 , . , un vektorrendszer az AT A, míg a v1 , , vn vektorrendszer T az AA sajátvektorrendszere. (Az els® állítás a konstrukció következménye, T T T 2 T a második pedig az AA = VSU USV = VS V egyenl®ségsorozatból adódik.) • 4. Egy szimmetrikus mátrix szinguláris értékei a sajátértékek abszolút értékei. Egyik
oldali szinguláris vektoroknak megfelel a sajátvektorok bármely rendszere, legyen ez az vi = ±ui pedig a ui rendszer, a másik oldali szinguláris vektorok vektorok lesznek, ahol az el®jel a megfelel® λi sajátérték el®jele. • 5. ∥A∥ = s1 . 158. Tétel Legyen A tetsz®leges m × n-es min BB k-rangú értéket, valamint V pedig az A ∥A − B∥ = sk+1 , b = VSk U mátrixon éretik el, ahol Sk az els® k szinguláris B 0-kat tartalmazó (esetleg téglalap alakú) diagonális mátrix, U és a minimum a és valós elem¶mátrix. Akkor mátrix szinguláris felbontásában szerepl® ortogonális márixok. 159. Deníció (mátrix nyoma) A tr A = ∑n i=1 aii mennyiséget az A n×n- es mátrix nyomának nevezzük. általában nem igaz, hogy az tr (A1 de ha π(·) 1, . , k számok tetsz®leges π(·) permutációjára . Ak ) = tr (Aπ(1) Aπ(k) ), ciklikus, akkor a tr(·) függvény kommutatív: tr (A1 . Ak ) = tr (A2
Ak A1 ) = tr (A3 Ak A1 A2 ), s.ít p × n-es A és a q × m-es B mátrixok Kroneckerpq ×nm-es, A ⊗B-vel jelölt hipermátrixot értjük, melynek pn darab q×m méret¶blokkja van: az (i, j) blokk az aij B mátrix (i = 1, . p; j = 1, , n) A Kronecker-szorzás asszociatív, a mátrixösszeadásra Szükségünk lesz még a vagy tenzor-szorzatára. Ez alatt azt a nézve disztributív, viszont általában nem kommutatív. Igaz azonban, hogy (A ⊗ B)T = AT ⊗ BT . Amennyiben m × m-es, A és B négyzetes mátrixok például A n × n-es, B akkor |A ⊗ B| = |A|m · |B|n , továbbá, ha mindkett® invertálható, akkor Kronecker-szorzatuk is az, és (A ⊗ B)−1 = A−1 ⊗ B−1 . pedig 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY201 13.2 Függelék 2: Valószín¶ségelméleti képletgy¶jtemény 13.21 • Kolmogorov axiómái: Ω halmaz (az ω -val jelöljük. (i) Adva van egy nem üres eseményeknek nevezzük, és
eseménytér), Ω elemeit elemi • (ii) Ki van tüntetve az Ω részhalmazainak egy A algebrája (Ω ∈ A, A ∈ A ⇒ Ω A ∈ A, A ∈ A & B ∈ A ⇒ A ∪ B ∈ A). • (iii) • (iv) Minden A σ -algebra, szám, az A azaz A∈A Ak ∈ A (k = 1, 2, . ) ⇒ ∪∞ k=1 Ak ∈ A. eseményhez hozzá van rendelve egy P (A) nemnegatív esemény valószín¶sége. • (v) • (vi) Ha Ak ∈ A (k = 1, 2, . ) páronként egymást kizáró események, akkor ∑∞ P (∪∞ k=1 Ak ) = k=1 P (Ak ). 13.22 P (Ω) = 1. Szitaformula: n = 3 esetben: P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) Tetsz®leges n-re: P (A1 ∪ · · · ∪ An ) = n ∑ (n) (−1)k Sk , k=1 ahol (n) Sk ∑ := P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ). 1≤i1 <···<ik ≤n 13.23 Események függetlensége, feltételes valószín¶ség Események függetlensége: Az A1 , . ,
An események páronként (ill teljesen) 1 ≤ j < k ≤ n párra P (Aj ∩ Ak ) = P (Aj ) · P (Ak ) (ill. 1 ≤ i1 < · · · < ik ≤ n indexsorozatra P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · · · · · függetlenek, ha minden minden P (Aik )). A teljes függetlenség implikálja a páronkénti függetlenséget. Feltételes valószín¶ség: P (A|B) := P (A∩B) P (B) , ha P (B) > 0. Teljes eseményrendszer: A1 , . , An ∈ A, P (Ai ∩ Aj ) = 0 Bayes tétele: Ha A1 , . , An ha i ̸= j és P (∪ni=1 Ak ) = 1. teljes eseményrendszer és P (B) > 0: P (B|A1 ) · P (A1 ) P (A1 |B) := ∑n . k=1 P (B|Ak ) · P (Ak ) 202 FEJEZET 13. 13.24 FÜGGELÉK Valószín¶ségi változó Valószín¶ségi változó: Az Ω halmazon értelmezett olyan ξ(ω) valós érték¶függvény, amelyre {ξ(ω) < x} ∈ A minden valós x-re. Ha ξ értékkészlete a ter- mészetes számok halmaza, akkor diszkrét valószín¶ségi változóról
beszélünk. Függetlenség: A ξ1 , . , ξn valószín¶ségi változók páronként (ill teljesen) függetlenek, ha a {ξ1 (ω) < x1 }, . , {ξn (ω) < xn } események páronként (ill teljesen) függetlenek x1 , . , xn minden értékére Eloszlás (általános eset): A ξ valószín¶ségi változó F (x) eloszlásfüggvénye: Fξ (x) := P {ξ < x} Fξ (x) monoton nemcsökken® balról folytonos függvény, Fξ (−∞) = 0, Fξ (∞) = 1. Diszkrét eset: A ξ valószín¶ségi változó {pj } eloszlása: pj := P {ξ = j} j = 0, 1, . Abszolút folytonos eset: ∫t Fξ (t) = −∞ Fξ′ (x)dx, akkor az fξ (x) := Fξ′ (x) függvény a ξ valószín¶ségi Ha változó s¶r¶ségfüggvénye. Eloszlások konvolúciója: {pi } a ξ és {qj } az η független valószín¶ségi ζ = ξ + η valószín¶ségi változó eloszlása {rk }: A diszkrét eset: ha eloszlásai akkor a rk = k ∑ pi · qk−i = i=0 Az abszolút folytonos eset: ha ∫ fξ+η
(z) = ∞ −∞ k ∑ változók pk−j · qj . j=0 ξ és η független valószín¶ségi változók, akkor ∫ fξ (z − y) · fη (y)dy = ∞ −∞ fξ (x) · fη (z − x)dx. Valószín¶ségi változó függvényének eloszlása: (Csak az abszolút folytonos esetetet vizsgáljuk.) Legyen ψ(x) monoton, dierenciálható függvény, tegyük ′ fel, hogy minden x-re ψ (x) ̸= 0. Ha fξ (x) a ξ valószín¶ségi változó s¶r¶ségfüggvénye, akkor az ψ(ξ) s¶r¶ségfüggvénye: { fψ (y) = fξ (ψ −1 (y)) |ψ ′ (ψ −1 (y))| , ha 0, különben inf ψ(x) < y < sup ψ(x) 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY203 13.25 Valószín¶ségi változó momentumai: A diszkrét eset: ha {pk } a ξ valószín¶ségi változó eloszlása, az ∞ ∑ Mn,ξ := k n · pk k=1 összeget (amennyiben konvergens) a ξ n-edik momentumának nevezzük, míg a (c) Mn,ξ := ∞ ∑ (k − M1 )n · pk k=1 ξ n-edik
összeget a centrált momentumának nevezzük. Az abszolút folytonos eset: ha f (x) a ξ valószín¶ségi változó s¶r¶ségfüg- gvénye, az ∫ Mn,ξ := integrált (amennyiben létezik) a ∫ (c) Mn,ξ := ξ n-edik integrált a Ha ξ η és ∞ −∞ xn · f (x)dx ξ n-edik ∞ −∞ momentumának nevezzük, míg a (x − M1 )n · f (x)dx centrált momentumának nevezzük. független valószín¶ségi változók, akkor Mn,ξ·η = Mn,ξ · Mn,η . Ha k<n és Mn,ξ létezik, akkor Mk,ξ is létezik. Várható érték, szórásnégyzet: A ξ valószín¶ségi változó várható értéke: (c) M2,ξ . Legyen ψ(x) E(ξ) := M1,ξ szórásnégyzete: D2 (ξ) := egy tetsz®leges valós érték¶függvény. {∑ ∞ ψ(k) · pk , ha E(ψ(ξ)) = ∫ ∞k=0 ψ(x) · f (x)dx, ha −∞ ξ diszkrét, ξ abszolút folytonos, amennyiben a jobboldalon álló összeg (integrál) létezik. Ha ξ és η tetsz®leges valószín¶ségi változók,
amelyeknek létezik a várható értékük, akkor E(ξ + η) = E(ξ) + E(η). ξ1 , . , ξn páronként független valószín¶ségi változók, akkor D2 (ξ1 +· · ·+ ξn ) = D2 (ξ1 ) + · · · + D2 (ξn ), ha a jobboldal létezik. Ha A Steiner-képlet: D2 (ξ) := M2,ξ − (E(ξ))2 204 FEJEZET 13. 13.26 A {pj } FÜGGELÉK A generátorfüggvény: eloszlású ξ diszkrét valószín¶ségi változó Gξ (s) := E(sξ ) = ∞ ∑ Gξ (s) generátorfüggvénye: sk · pk k=0 Gξ (s) analitikus az egyeségkörben, ξ1 , . , ξn Ha a Gξ (1) = 1, G′ξ (1) = E(ξ). valószín¶ségi változók teljesen függetlenek, akkor Gξ1 +···+ξn (s) = Gξ1 (s) · · · · · Gξn (s). Ha ξ1 , ξ2 , . azonos eloszlású teljesen független valószín¶ségi változók, és ν t®lük független diszkrét valószín¶ségi változó, akkor Gξ1 +···+ξν (s) = Gν (Gξ (s)). A generátorfüggvény egyértelm¶en meghatározza az eloszlást: pn = A
generátorfüggvény 1 dn Gξ (s)|s=0 , n = 1, 2, . n! dsn s=1 pontbeli deriváltjai meghatározzák az ún. fak- toriális momentumokat: E[ξ(ξ − 1) . (ξ − k)] = 13.27 ξ dk Gξ (s)/V erts=1 dsk A karakterisztikus függvény: valószín¶ségi változó φξ (t) karakterisztikus függvénye: {∑ ∞ ei·k·t · pk , ha φξ (t) := E(ei·ξ·t ) = ∫ ∞k=0 i·x·t e · fξ (x)dx, ha −∞ ahol i= A √ −1. Ha ξ diszkrét, akkor ξ diszkrét, ξ abszolút folytonos, φξ (t) = Gξ (ei·t ). φξ (t) a t-nek a (−∞ < t < ∞) intervallumon egyenletesen folytonos φξ (0) = 1, |φξ (t)| ≤ 1 minden t-re, φa+bξ (t) = ei·a·t φξ (b · t). függvénye, Mn,ξ = (−i)n Ha a ξ1 , . , ξn dn φξ (t)|t=0 . dtn valószín¶ségi változók teljesen függetlenek, akkor φξ1 +···+ξn (t) = φξ1 (t) · · · · · φξn (t). 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY205 A karakterisztikus függvény
egyértelm¶en meghatározza az eloszlást; ab- |φξn (t)| integrálható: ∫ ∞ 1 fξ (x) = e−i·x·t φξ (t)dt. 2π −∞ szolút folytonos eloszlás esetén, ha A karakterisztikus függvény t = 0 pontbeli deriváltjai alapján kiszámíthatók a momentumok: E(ξ k ) = i−k 13.28 dk φ(t) dtk Nevezetes diszkrét eloszlások: Bernoulli-eloszlás (egyszer¶ alternatíva): P {ξ = 1} = p, P {ξ = 0} = q, p + q = 1. E(ξ) = p, D2 (ξ) = p · q , Gξ (s) = q + p · s. Binomiális eloszlás (n független Bernoulli összege): ( ) P {ξ = k} = nk pk q n−k , p + q = 1, k = 0, 1, . , n E(ξ) = n · p, D2 (ξ) = n · p · q , Gξ (s) = (q + p · s)n . Poisson-eloszlás (binomiális eloszlás limesze, ha 1 k λ · e−λ , λ > 0, k = 0, 1, . P {ξ = k} = k! E(ξ) = λ, D2 (ξ) = λ, Gξ (s) = eλ·(s−1) . n∞ és p · n = λ): Geometriai eloszlás (az egyszer¶alternatíva független ismétléseinek száma az els® 1-es megjelenéséig): k−1 P {ξ = k} = p
· q , p + q = 1, k = 1, 2, . p·s . E(ξ) = p1 , D2 (ξ) = pq2 , Gξ (s) = 1−q·s Negatív binomiális eloszlás (r darab geometriai összege): ( ) r k P {ξ = r + k} = k+r−1 r−1 p q , p + q = 1, k = 0, 1, . p·s r E(ξ) = pr , D2 (ξ) = r·q p2 , Gξ (s) = ( 1−q·s ) . Hipergeometrikus eloszlás (visszatevés nélküli mintavétel): −M (Mk )·(Nn−k ) M < N, n ≤ N, k = 0, 1, . , n N (n) M M n−1 2 E(ξ) = n · M N , D (ξ) = n · N · (1 − N ) · (1 − N −1 ). P {ξ = k} = 13.29 Nevezetes abszolút folytonos eloszlások: Normális (Gauss-) eloszlás: (x−m)2 1 fξ (x) = √2πσ e− 2σ2 , −∞ < x < ∞, −∞ < m < ∞, 0 < σ < ∞. E(ξ) = m, D2 (ξ) = σ 2 , 2k−1 továbbá, ha m = 0, k = 1, 2, . E(ξ ) = 0 és 2k 2k E(ξ ) = 1 · 3 · · · · · (2k − 1)σ . ψξ (t) = ei·m·t− σ2 2 2 t . ξ Lognormális eloszlás (e eloszlása, ahol ξ Gauss): 206 FEJEZET 13. fξ (x) = E(ξ) = √1 e− x· 2πσ 2
em+σ /2 , (lnx−m)2 2σ 2 FÜGGELÉK , 0 < x < ∞, −∞ < m < ∞, 0 < σ < ∞. 2 2 D (ξ) = e2m+σ · (eσ − 1). 2 Exponenciális eloszlás: fξ (x) = λ · e−λ·x , , 0 < E(ξ) = λ1 , D2 (ξ) = λ12 x < ∞, 0 < λ < ∞. ψξ (t) = 1−1i·t . λ Az exponeciális eloszlást karakterizálja az ún. örökifjú tulajdonság: P(ξ > x + y|ξ > x) = P(ξ > y) Gamma-eloszlás (G(λ, α)): λα fξ (x) = Γ(α) xα−1 e−λx , x ≥ 0 ∫ ∞ α−1 −x e dx) (Γ(α) = x 0 α 2 E(ξ) = λ D (ξ) = λα2 ψξ (t) 2 χ eloszlás n szabadságfokkal: n/2−1 −x/2 e fξ (x) = x2n/2 Γ(n/2) , x≥0 D2 (ξ) = 2n E(ξ) = n ( )−α = 1 − i λt . ( )−n/2 ψξ (t) = 1 − i 2t . t (Student-) eloszlás n szabadságfokkal: A ξ/η eloszlása, ahol ξ ( )− n+1 2 2 Γ( n+1 ) ξ ∼ N (0, 1) η ∼ χ2 (n) fξ (x) = √π1 n Γ( n2 ) 1 + xn , és η függetlenek, 2 n D2 (ξ) = n−2 ha n > 2. Béta-eloszlás a, b
paraméterrel (B(a, b)): 1 fξ (x) = B(a,b) xa−1 (1 − x)b−1 x ∈ [0, 1] E(ξ) = 0 ha n>1 Γ(a)Γ(b) Γ(a+b) a D2 (ξ) = (a+b)2ab E(ξ) = a+b (a+b+1) Másodfajú Béta-eloszlás a, b paraméterrel: a−1 (1+x)−a−b fξ (x) = x B(a,b) x ∈ [0, ∞) a(a+b=1) a E(ξ) = b−1 ha b > 1 D2 (ξ) = (b−1) 2 (b−2) ha B(a, b) = Fisher-féle F-eloszlás és η n és m paraméterekkel (F(n, m)), A n eloszlása, ahol ξ n+m n n n( m x) 2 −1 (1+ m x)− 2 m mB( n 2, 2 ) n m Béta-eloszlás 2 , 2 paraméterrel! Az η= n m ξ valószín¶ségi változó Másodfajú Egyenletes eloszlás (az (a, b) intervallumon): 1 fξ (x) = b−a , ha a < x < b, 0 különben. a+b 1 E(ξ) = 2 , D2 (ξ) = 12 (b − a)2 ha a 13.210 ξn ξ/η függetlenek: fξ (x) = A b>2 = −b: ψξ (t) = sin bt b·t . Sztochasztikus konvergencia, majdnem biztos konvergencia: valószín¶ségi változó sorozat sztochasztikusan konvergál a ξ valószín¶ségi szt ξ ) ha
bármely ε-hoz van olyan N , hogy minden n > N -re változóhoz, (ξn 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY207 P {|ξn − ξ| > ε} < ε. A ξn valószín¶ségi változó sorozat majdnem biztosan (1 valószín¶séggel) kon- vergál a ξ valószín¶ségi változóhoz, (ξn mb ξ) ha P {limn∞ ξn = ξ} = 1. A majdnem biztos konvergencia implikálja a sztochasztikus konvergenciát. 13.211 Nevezetes összefüggések 160. Tétel (Markov-egyenl®tlenség) itiv a Ha a E(ξ) létezik, akkor minden poz- számra: P {|ξ| ≥ a} ≤ E(|ξ|) . a Csebisev-egyenl®tlenség: Ha a D2 (ξ) létezik, akkor minden pozitiv a számra: P {|ξ − E(ξ)| ≥ a} ≤ D2 (ξ) . a2 161. Tétel (Nagy számok gyenge törvénye) Ha ξ1 , ξ2 , . páronként független 2 azonos eloszlású valószín¶ségi változók sorozata, és léteznek a D (ξk ) szórásnégyzetek, akkor 1 szt (ξ1 + · · · + ξn ) E(ξ). n 162. Tétel (Nagy
számok er®s törvénye) Legyen ξ1 , ξ2 , . teljesen független azonos eloszlású valószín¶ségi változók sorozata. Annak szükséges és elégséges 1 feltétele, hogy az n (ξ1 + · · · + ξn ) sorozat majdnem biztosan konvergáljon egy m számhoz az, hogy létezzen az E(ξ) várható érték. Ekkor m = E(ξ) 163. Tétel ( Centrális határeloszlás tétel) Ha ξ, ξ1 , ξ2 , . teljesen független 2 azonos eloszlású valószín¶ségi változók sorozata, és létezik a D (ξ) szórásnégyzet, akkor { limn∞ P 13.212 } ∫ x 2 ξ1 + · · · + ξn − n · E(ξ) 1 √ √ e−s /2 ds. <x = 2 2π D (ξ) · n −∞ Spektrálel®állítási tétel 208 FEJEZET 13. 12 10 8 6 4 2 0 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 13.1 ábra Kett®s cikllus - köbös simítás 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 0 2 4 6 8 10 12 13.2 ábra Kett®s cikllus - köbös simítás 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 0 2 4 6 8 10 12
13.3 ábra Kett®s cikllus - simítás vége FÜGGELÉK Irodalomjegyzék [1] Achlioptas, D., McSherry, F, Fast Computation of Low Rank mátrix approximations J ACM 54 2 (2007) Art 9 (elektronikus) 19 o [2] Babu, Bootstrapping Statistics with Linear Combination of Chi-squares as a Weak Limit, The Indian Statist. J 46 (1984) 85-93 [3] Borovkov, A. A, Matematikai statisztika, Typotex, Bp, 1999 [4] Bevezetés a matematikai statisztikába, KLTE jegyzet, Szerk. Fazekas István, Kossuth Egyetemi Kiadó, 2005 [5] Bolla Marianna, Krámli András, Statisztikai következtetések elmélete, Typotex, 2005 [6] Breiman, L., Friedman, J H, Estimating Optimal Transformation for multiple Regression and Correlation, J Amer Stat Assoc 80 391 (1985) 580 598. [7] Breiman, L., Friedman, J H, Estimating Optimal Transformation for multiple Regression and Correlation, J Amer Stat Assoc 80 391 (1985) 580 598. [8] Csencov, N. N., Statisztikai Döntési Szabályok és Optimális Következtetések
(oroszul), NAUKA, Moszkva, 1972 [9] Csiszár Imre, Eloszlások eltérésének információ típusú mértékszámai. MTA III. Oszt Közleményei 17, 123149, 1967 [10] Efron, B., Bootstrap methods: another look at the jackknife Ann Statist 7 (1979), 1-45 [11] Fisher, R. A Theorz of statistical estimations, Proc Cambridge Phylosoph Soc. 22 (1925), 700 [12] Flury, A rst course in multivariate statistics, Sringer, 1997 [13] Frieze, A., Kannan, R, Vempala, S, Fast Monte Carlo Algorithms for Finding Low-Rank Approximation, J ACM 51 6 (2004) 10251041 209 210 IRODALOMJEGYZÉK [14] Giri, Multivariate statistical analysis, Marcel Dekker, 2004 [15] Gnyegyenko, B. V, Kolmogorov, A N, Független valószín¶ségi változók öszegeinek határeloszlásai, Akadémiai Kiadª, Budapest, 1951 [16] Grone, R., Pierce, S, Watkins W, Extremal correlation matrices, Lin Alg Appl. 134 (1990), 6370 [17] Hofmann, T., Schölkopf, B, Smola, J, Kernel methods in machine learning, Ann. Statist 36 3
(2008) 11711220 [18] Kruskal, J. B, On the shortest spanning subtree of a grapf and the travelling salesman problem Problem Amer Math Soc 7 (1956), 4850 [19] [20] Lovász, L., Kombinatiorikai problémák és feladatok Typotex, Bp, 1999 [21] Lukacs, E., The stochastic independence of symmetric and homogeneous linear and quadratic statistics, Ann. Math Statist 23 (1952), 442449 [22] Mika, S., Schölkopf, B, Smola, A J Müller, K R, Kernel PCA and denoising in feature spaces, Advances in neural information processing systems 11 (1), 536-542 [23] Miller, Rupert, G., Jr, A trustworthy jackknife, Ann Math Statist 35 (1964), 1594-1605 [24] Miller, Rupert, G., Jr,Jackkning variances, Ann Math Statist 39 (1968), 567-582 [25] Móri, Szeidl, Zempléni: Matematikai statisztika példatár, ELTE Eötvös Kiadó, 1997 [26] Móri Tamás, Székely J. Gábor (szerk), Többváltozós Statisztikai Analizis, M¶szaki Könyvkiadó, Budapest, 1972 [27] Olkin, I., Pierce, S The 70th anniversary of random
matrices, Lin Alg Appl. 354 (2002), 231-243 [28] Quenouille, M., H, Notes on bias in estimation, Biometrika, 43 (1956) 353360 [29] R., ed Handbook of Statistics, V 9 627-659 Elsevier Science Pulisher, 1993 [30] Rózsa, P., Lineáris algebra és alkalmazásai, M¶szaki Könyvkiadó, Bp, 1974 [31] Singh, K., On the asymptotoic accuracy of Efrons bootstrap, Ann Statist 9 (1981) 11871195. [32] Tukey, J., W, Abstract, Ann Math Statist 29 (1958), 612