Tartalmi kivonat
Többváltozós Statisztikai, Ökonometriai Képletek Hajdu Ottó 1 Kovariancia az i=1,2,.,n elemű sokaságban 1 n 1 n cov (x , y ) = ∑ (x i − x )(yi − y ) = ∑ x iyi − x ⋅ y n i =1 n i =1 x −x dx x= = var (x ) σx −1 ≤ rxy = cov (x, y) var (x ) var (y) = cov (x, y) ≤ 1 2 Sum of Squares and Cross Products SSCP mátrix T X X(p,p) ⎡ x11 x12 ⎢ ⎢ xi1 xi 2 =⎢ ⎢ ⎢ ⎢⎢x n 1 x n 2 ⎣ x1p ⎤T ⎥ x ip ⎥ ⎥ ⎥ ⎥ x np ⎥⎥ ⎦ ⎡ x11 x12 ⎢ ⎢ xi1 xi 2 ⎢ ⎢ ⎢ ⎢⎢x n 1 x n 2 ⎣ x 1p ⎤ ⎥ x ip ⎥ ⎥ ⎥ ⎥ x np ⎥⎥ ⎦ 3 Sum of Squares and Cross Products SSCP mátrix (i=1,2,.n) ⎡ ⎢ ∑x1x1 ⎢ i=1 ⎢ n ⎢ ⎢ ∑x2x1 = ⎢ i=1 ⎢ ⎢ ⎢ ⎢n ⎢∑xpx1 ⎢ i=1 ⎣ n T (n,p) X X(n,p) n ∑x x 1 2 i=1 n ∑x x 2 2 i=1 n ∑x x p 2 i=1 ⎤ x1xp ⎥ ∑ ⎥ i=1 ⎥ n ⎥ x2xp ⎥ ∑ ⎥ i=1 ⎥ ⎥ ⎥ n ⎥ ⎥ x x ∑ p p⎥ i=1 ⎦ n 4 Nevezetes SSCP mátrixok Kovariancia mátrix N
⎡ ⎤ 1 T 1 Cxx = Xd Xd = ⎢ ∑dijdik ⎥ ⎢⎣ n i=1 ⎥⎦ jk n Korrelációs mátrix N ⎡ ⎤ 1 T 1 Rxx = Xs Xs = ⎢ ∑ xij xik ⎥ ⎢⎣ n i=1 ⎥⎦ jk n 5 Kovariancia-struktúra Lineáris kombinációk x = a1 x1 + a2 x2 +. + ap xp y = b1 y1 + b2 y2 +. + bq yq Kovariancia algebra cov(x, y) = ∑aj bt cov(x j , yt ) = a Cxy b T x j ,yt var (x) = cov (x, x) = a Cxx a T 6 Portfoliók kockázata Portfolió x1 Hónap 1. hó 136 2. hó 100 3. hó 115 4. hó 120 5. hó 110 átlag 116.2 a1 Súly 2 2 2 3 2 1 x2 x3 Árfolyam Ft 42 21 53 15 60 20 40 15 53 10 49.6 16.2 a2 a3 2 3 y1 42 33 56 30 29 38 b1 2 Kovariancia mátrix 141.76 -55.12 28.76 32.80 -55.12 56.24 -2.12 37.20 28.76 -2.12 15.76 31.80 32.80 37.20 31.80 10200 -22.92 2.64 1.08 4.40 408.00 Súlyozott kovariancia 8.80 567.04 -22048 17256 -220.48 22496 -12.72 172.56 -12.72 14184 y2 x y x+y Kapitalizáció Ft 17 419 101 520 26 351 92 443 27 410 139 549 30 365 90 455 18 356 76 432 23.6 380.2 99.6 479.8 b2
sum Kovariancia mátrix 1 812.56 43348 433.48 45224 213176 Súlyozott kovariancia -22.92 13120 -45.84 2.64 14880 5.28 1.08 19080 3.24 43348 4.40 26.64 8.80 26.64 452.24 7 812.56 A sajátérték feladat: (C − λI) v = 0 1 2 σ2x − λ C C σy2 − λ = (σ2x − λ) (σy2 − λ ) − C 2 = 0 λ 2 − (σ x2 + σ y2 ) λ + σ 2x σ y2 − C 2 = 0 3 λ 1 + λ 2 = σ2x + σy2 , 4 v12(λ1) + v22(λ1) = 1, v12(λ2) + v22(λ2) = 1 5 v Cv = λ = var (v1x + v2y ) max λ 1λ 2 = σ2x σy2 − C 2 T 8 Spektrális felbontás 1− λ r 2 2 = (1 − λ) − r = 0 r 1− λ λ = 1±r ⎡ ⎡1 r ⎤ ⎢⎢ ⎢ ⎥=⎢ ⎢r 1⎥ ⎢ ⎢⎣ ⎥⎦ ⎢ ⎢⎣ 1 1⎤ ⎥ 2 2⎥ ⎥ 1 1⎥ − ⎥ 2 2 ⎥⎦ ⎡1+ | r | 0 ⎤ ⎢ ⎥ ⎢ 0 ⎥ 1 | | r − ⎢⎣ ⎥⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢⎣ T 1 1⎤ ⎥ 2 2⎥ ⎥ 1 1⎥ − ⎥ 2 2 ⎥⎦ 9 Singular Value Decomposition: SVD T ( p, p ) X(n,p) = F(n,p)D p,p V ⎡x1 .j ⎢ ⎢x11 ⎢ ⎢x ⎢ i1 ⎢ ⎢xn1
⎣ xp ⎤ ⎡⎢f1 .t ⎥ ⎢ x1p ⎥ ⎢f11 ⎥ ⎢ = ⎥ xip ⎥ ⎢fi1 ⎢ ⎥ ⎢ xnp ⎥ ⎢f ⎦ ⎣ n1 1 T F F = Ip , n fp ⎤ v1 .t ⎡ ⎥ ⎡σ ⎤⎢ σ f1p ⎥⎥ ⎢⎢ 1 .t p ⎥⎥ ⎢v11 ⎥ ⎢ λ1 0 ⎥ ⎢⎢ ⎥ ⎢vj1 fip ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢0 λp ⎥ ⎢v ⎦ ⎣ p1 fnp ⎥ ⎣ ⎦ vp ⎤T ⎥ v1p ⎥ ⎥ vjp ⎥⎥ ⎥ vpp ⎥ ⎦ VVT = VT V = I p 10 SVD példa ⎡525 946 ⎤ ⎡0.47191 0.82278⎤ ⎢ ⎥ ⎢ ⎥ ⎢373 973 ⎥ ⎢0.45650 −030945⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ X = ⎢445 1096 ⎥ = ⎢0.51850 −017659⎥ ⎢ ⎥ ⎢ ⎥ ⎢258 750 ⎥ ⎢0.34677 −044279⎥ ⎢ ⎥ ⎢ ⎥ ⎢381 889 ⎥ ⎢0.42404 −000420⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎡ 525 ⎢ ⎢ 373 ⎢ ⎢ XT X = ⎢ 445 ⎢ ⎢ 258 ⎢ ⎢ 381 ⎢⎣ T 946 ⎤ ⎥ 973 ⎥⎥ ⎥ 1096 ⎥ ⎥ 750 ⎥ ⎥ 889 ⎥⎥ ⎦ ⎡525 ⎢ ⎢373 ⎢ ⎢ ⎢445 ⎢ ⎢258 ⎢ ⎢381 ⎢⎣ ⎡2280.9 0 ⎤ ⎡0.39449 091890⎤ ⎢ ⎥ ⎢ ⎥ ⎢ 0 132.77⎥ ⎢091890
−039449⎥ ⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦ 946 ⎤ ⎥ 973 ⎥⎥ ⎥ ⎡⎢ 824504 1096 ⎥ = ⎥ ⎢⎢1879508 750 ⎥ ⎣ ⎥ 889 ⎥⎥ ⎦ 1879508 ⎤ ⎥ 4395682 ⎥⎥ ⎦ 11 Főkomponens súlyrendszerek Komponens (faktor) mátrix (A): T (p,p) X(n ,p) = F(n ,p)A | A = VD Komponens (faktor)-score koeff. (Q): 1 T F(n,p) = XQ × X n −1 −1 Q = VD = C xx C xf 12 A faktorsúlyok tulajdonságai Kapcsolat reprodukció 1 T 2 T T X X = Cxx = VD V = AA n Főkomponens kovarianciák T 2 T V Cxx V = D = A A 13 SVD tulajdonságok p ∑σ j =1 2 xj p = ∑ λt = tr (Cxx ) t =1 p ∏λ t = det (Cxx ) t =1 1 T 1 T Cxf = X F = A F F = ACff ⇒ A n n 14 Redukció és rotálás T T * T ˆ X(n,p) = F(n,m) T(m,m)T(m,m) A (p,m) = F A I * m *T m A A ˆ = Am A = C T m ˆ Ce = C − C 2 x j . f1 , f2 ,, fm R ⎡ ⎤ ˆ = diag j ⎢C⎥ ⎣ ⎦ 15 Kanonikus korreláció ut=1,2,.,q = v1tx1 +v2tx2 + +vptxp zt=1,2,.,q = w1ty1 + w2ty2 + + wqtyq≤p r1 max
rt max rq max cov (ut , u≠t ) = 0 cov (zt , z≠t ) = 0 cov (ut , z≠t ) = 0 16 Kanonikus 2 r Sajátértékek Rxy w = rRxx v, (R R yx R R xy − r I) w = 0 −1 yy (R Ryx v = rRyy w −1 xx −1 xx 2 R xy R R yx − r I) v = 0 −1 yy 2 Kanonikus loading rx ,u , ry ,z 17 Bartlett-teszt H 0 : rk +1 = rk +2 = . = rq = 0 χ 2 (p −k )(q −k ) | (k = 0,1,, q − 1) ⎛ p + q + 1⎞⎟ ln Λk = − ⎜⎜n − 1 − ⎟ ⎝ ⎠ 2 Wilks Λk = q ∏ (1 −r ) 2 i i=k +1 2 2 RI yt = rt ryk ,zt , 2 2 RI xt = rt rx j ,ut 18 Korrespondencia-analízis: CA Kategória Sor 1. 1. p11 i. pi1 I. Összesen pI1 o1 Inercia = I J ∑∑ i =1 j =1 Oszlop j. p1j J. p1J Összesen (mass) s1 pij=fij/n piJ si pIj oj pIJ oJ sI 1 2 (pij − sio j ) sio j = I J ∑∑g 2 ij i =1 j =1 19 Sor- és oszlopprofilok Sorprofil (pont) 1. 1. s11 Oszlop j. s1j J. s1J 1 i. si1 sij=pij/si siJ 1 I. Centroid sI1 o1 Sor 1. 1. o11 i.
oi1 I. Összesen Összesen sIj sIJ oj oJ Oszlopprofil (pont) j J o1j o1J oij=pij/oj oIj 1 oI1 1 I J i =1 j =1 oiJ oIJ 1 J (sij −oj ) j =1 oj I (oij −si ) i=1 si INR(si ) = ∑si 2 1 1 Centroid s1 si ( j ) = ∑oj INRo 2 sI 1 INR = ∑ INR(si ) = ∑ INR(oj ) 20 Sor- és oszlopkoordináták Pont 1 . k . K főtengelyek súlyozott koordinátái Perem Sor 1 s1x 11 s1x 1k s1x 1K s1 i si x i 1 s i x ik si x iK si I Összesen Oszlop 1 sI x I 1 s I x Ik s I x IK 0 o1y 11 0 o1y1k 0 o1y 1K sI 1 o1 j o jy j1 o j y jk o j y jK oj J oJ yJ 1 oJ yJk oJ yJK oJ K INR(si ) = si ∑ x , k =1 2 ik K INR(oj ) = oj ∑ y jk2 k =1 21 Inercia-dekompozíció Pont 1 . k . főtengely K Összesen Sor 1 2 s1x 11 s1x 1k2 2 s1x 1K INR(s1) i si x i21 si x ik2 2 si x iK INR(si) I sI x I21 sI x Ik2 2 sI x IK INR(sI) Összesen=Var(x)=Var(y) μ12 μk2 μ2K Oszlop 1 2 o1y11 o1y1k2 2 o1y1K INR(o1) j o j y j21 o j y jk2
2 o j y jK INR(oj) J oJ yJ21 oJ yJk2 2 oJ yJK INR(oJ) INR 22 CA-koordináták Koordináták J yjk I xik xik = ∑sij , yjk = ∑oij μk μk j =1 i =1 Ábrázolási kritérium I min{I −1,J −1} J ∑∑f ∑ (x ij i=1 j =1 ik −yjk ) min 2 k=1 23 CA-illeszkedésvizsgálat Quality ∑ QLT (m) = ∑ m 2 k =1 ik K 2 k =1 ik i Contribution x x 2 y ∑k=1 jk m , QLTj (m) = 2 ik 2 k x CTRik = si , μ ∑ K y k =1 2 jk 2 jk 2 k y CTRjk = oj μ Correlation2 2 ik COR 2 j jk oy sx 2 = , COR jk = INR(si ) INR(oj ) 2 i ik 24 „SVD” felbontások Korrespondencia mátrix 1 −1 2 o G = Ds SD Sorprofil Oszlopprofil Átvitel Követelmény 2 ( = (D −1 2 s =D 1 T ODo = UDμ V )( ) VD )(D U) −12 s 1 2 o T −12 o 1 2 s T 2 ( ) = Y(D U) 1 2 o T 1 2 s T S = D UDμ D V = X D V OT μ −1 μ X = SYD , T −1 μ Y = O XD Covxx = XT Ds X = Covyy = YT Do Y = D2μ = μ12, μ22,., μK2 25 Normalizálás
Sorkoordináták −12 s α μ | 0 ≤ α = (1 + q ) /2 ≤ 1 −12 o β μ | 0 ≤ β = (1 − q ) /2 ≤ 1 X = D UD Oszlopkoordináták Y = D VD Kiegészítő pontok koordinátái 2 α−2 μ X = SYD , T 2 β−2 μ Y = O XD Covxx = XT Ds X = μ12α, μ22α,., μK2α Covyy = YT Do Y = μ12β, μ22β,., μ2Kβ 26 Indikátor mátrix Megfigyelési egység 1 2 A Z indikátor mátrix oszlopai (j=1,2,,J) Z1 kategóriái: Z1 Zq kategóriái: Zq ZQ kategóriái: ZQ 1 2 J1 1 2 Jq 1 2 JQ 1 1 1 1 1 1 i n Összesen 1 1 1 f11 f21 fJ11 f1q f2q 1 fJqq f1Q Q Q 1 Q f2Q Q n⋅Q 1 Összesen fJQQ 27 Burt-mátrix ⎡ZT1 Z1 ZT1 Z2 ⎢ ⎢ T T Z2 Z1 Z2 Z2 ⎢ T Z ( Z)(J ,J ) = B = ⎢⎢ ⎢ ⎢ T T ⎢⎢ZQZ1 ZQZ2 ⎣ μ 2(B ) = (μ ZT1 ZQ ⎤ ⎥ ⎥ T Z2 ZQ ⎥ ⎥ ⎥ ⎥ ⎥ T ZQZQ ⎥⎥ ⎦ ) 2(Z ) 2 28 Folytonos Metrikák Minkowski 1r ⎛ p r⎞ ⎟ ⎜ d(iA, iB ) = ⎜⎜∑ xAj − xBj ⎟⎟ ⎜⎝ ⎠⎟ j =1 Mahalanobis T
d (iA, iB ) = (xA − xB ) C (xA − xB ) 2 −1 = b (xA − xB ) = zA − zB = b Cb = var (z ) T T 29 Gyakorisági Metrikák Chi-négyzet 2 CHISQ(x,y) = (xi −E (xi )) ∑ i E (xi ) 2 (yi −E (yi )) +∑ i E (yi ) Phi2 PHI 2(x, y) =CHISQ (x, y) / n 30 Bináris Metrikák x1 ={1,0},x2 ={1,0},.,xp ={1,0} ⇒fx A,xB Távolság A és B között Df11 + Mf00 Df11 + f10 + f01 + Jf00 Matching: D=1,M=J=1, Jaccard: D=1,M=J=0, Dice: D=2,M=J=0, Russel-Rao-„binary dot product”: D=1,M=0,J=1, 31 Hierarchikus, A B klaszteregyesítés Legközelebbi szomszéd: Legtávolabbi szomszéd: Átlagos külső láncmódszer: Átlagos belső láncmódszer: Centroid módszer: Medián módszer: min [d(iA, iB )] max [d (iA, iB )] d (iA, iB ) d(iA+B) d(cA, cB ) d(meA, meB ) Ward-módszer: Belső eltérésnégyzetösszeg: min. 32 Külső-belső kovariancia-felbontás C = CB +CK Csoportok x y x g yg 3 6 6 12 6 12 6 12 9 18 6 12 1 4 2 8 1 4 2 8 2 8 2 8 4 16 2 8 14 12 14 12
Összesen 5 10 2 ⎡18 13.5⎤ ⎡3 7.5⎤ ⎡15 6 ⎤ ⎢ ⎥ =⎢ ⎥ +⎢ ⎥ ⎢13.5 25 ⎥ ⎢75 21 ⎥ ⎢ 6 4⎥ ⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦B ⎢⎣ ⎥⎦K 3 ⎡⎢ 6 12 ⎤⎥ 4 ⎡⎢1.5 6 ⎤⎥ 1 ⎡⎢0 0⎤⎥ + ⎢ + ⎢ CB = ⎢ ⎥ ⎥ 8 ⎢⎣12 24 ⎥⎦ 8 ⎢⎣6 24 ⎥⎦ 8 ⎢⎣0 0⎥⎥⎦ 3 1 2 3 ⋅ 21 − 7.5 Λ= = 0.025 2 18 ⋅ 25 −13.5 det (CB ) Wilks − Λ = det (C) 33 Diszkriminanciaanalízis Diszkriminancia változó z = b1x 1 + b2x 2 + . + bpx p Kanonikus korreláció ρ= σ2zK 2 zK σ 2 zB +σ = Maximálás T b CK b ϕ= T max b CB b σ2zK / σ2zB 1 + σ2zK / σ2zB (C ϕ = 1+ ϕ CK − ϕI) b = 0 −1 B 34 Varianciaanalízis min{p,m−1} Wilks − Λ = ∏ i =1 1 = 1 + ϕi min{p,m−1} ∏ (1 − ρ ) 2 i i =1 1 = = (1−0.972)(1−0091) = 0025 (1 + 35)(1 + 0.1) Hotelling − Lawley −tr = (ϕ1 = 35) + (ϕ2 = 0.1) Pillai − tr = (ρ = 0.972) + (ρ = 0091) 2 1 2 2 2 1 Roy s root = ρ = 0.972 35
Homogenitás-vizsgálat H0 : Σ1 = Σ2 = . = Σm Box-M-statisztika M = − 2 ln m ∏ ˆ C g 1 2 ( n g −1) g =1 ˆ C 1 2 ( n −m ) Bartlett-Box Chi2 ~χ 2 p ( p +1)(m −1) / 2 | H0 36 Változószelekció Wilks-lambda változás Λ1,2,.,p −Λ1,2,,p,k n − m − p F(xk ) = m −1 Λ1,2,.,p Dixon’s sum 4 ∑ 2 g <G 4 + DgG 37 Kanonikus korrelácós reprezentáció H0 : ϕk+1 = ϕk+2 = . = ϕk+p = 0 Csoport Dummy változók y1 y2 y3 . ym-1 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 m-1 m 0 0 0 0 0 0 p + m ⎞⎟ ⎛ Vk = −⎜⎜n − 1 − ln Λk ⎟ ⎝ 2 ⎠ 1 0 min{p,(m−1)} Λk = min{p,(m−1)} ∏ (1 − r ) = ∏ 2 i i =k +1 i =k +1 1 ˆi 1+ϕ 38 Normalitás Egyváltozós likelihood −1/ 2 Lx = (2π) Több(p)változós likelihood p − 2 1 ⎛⎜ x −μ ⎞⎟2 − ⎜ ⎟ −1 2 ⎝ σ ⎠⎟ σ e 1 − 2 1 2 − Δx 2 Lx = (2π) | Σ | e Mahalanobis-távolság T Δ = (x − μ ) Σ (x − μ ) 2 T −1 T −1 −1 T −1
= μ Σ μ − 2μ Σ x + x Σ x 39 Bayes-Klasszifikáció, Normalitás Posterior(Csőd|X)= 0.2×LX |Csőd 0.2×LX |Csőd +08×LX |OK 40 Kvadratikus klasszifikációs függvények X = likviditás: ForgEszk / RövLejKöt Group Prior Csőd O.K Összesen 0.2 0.8 1 PoCsőd|.5 = μ σ 0.60 040 1.50 080 Klasszifikációs függvények L|x Prior*L Posterior 0.5 exp(C) 0.967 0193 0.514 0.228 0183 0.486 0.376 1 PCs L.5|Cs PCs L.5|Cs + POK L5|OK C ln(P*L) -1.643 -1.700 C0 C1 C2 -2.74 -2.68 3.75 2.34 -3.13 -0.78 0.193 = 0.193 + 0183 COK e −1.7 e PoOK|.5 = CCsõd COK = −1643 −17 e +e e +e 2 ⎞ ⎛ μ 1 2 1 μ ⎟ ⎜ C = ⎜ ln P − ln(2π)−ln σ− 2 ⎟⎟ + 2 x − 2 x ⎝ 2σ σ 2 2σ ⎠ 41 Kvadratikus klasszifikáció Klasszifikációs függvény: T T C = const + b x + x Qx Konstans tag: p 1 1 T −1 ln (Priorg ) - ln (2π) − ln | Σg | − μg Σg μg 2 2 2 Lineáris tag: b = μT Σ−1 = ⎡b ,b ,.,b ⎤ g g 1g 2g pg ⎣ 1 Kvadratikus
tag: Q = − Σ−1 g 2 ⎦ 42 Klasszifikációs és regressziós fák (CART) • Függő változó: Y • Cél: Y tekintetében tiszta „Node”-ok kialakítása • A fa növekedési folyamata: – Minden prediktor legjobb bináris vágása közül, – A node legjobb vágásának megállapítása, – Leállási kritériumok vizsgálata, a node vágása. • Vágások: x ≤ v ⇒ x ∈ LeftNode – Ordinális: – m-Kategóriás LeftNode RightNode : 2m−1 − 1 43 „Impurity” index és hasítási kritérium • Kategóriális Y: Gini It = ∑Costg|k (pg|t pk|t ) g≠k pg|t = pg pt|g pt = pg (ntg /ng ) p n / n ( g tg g) g=1 ∑ m • Gini improvement: ΔIt = ptIt − pLeftItLeft − pRightItRight • Folytonos Y: It = Least Squares Deviation (t) 44 Lineáris regresszió ⎡1⎤ x 11 ⎤ ⎡ y1 ⎤ ⎡ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ yi ⎥ = β0 ⎢⎢1⎥⎥ + β1 ⎢ x i 1 ⎥ +. + βk ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢⎢yn ⎥⎥ ⎢ ⎥ x n 1 1 ⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦ ⎣ ⎦ ( ⎡ x 1k ⎤ ⎡ u1 ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ x ik ⎥ + ⎢ ui ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢⎢x nk ⎥⎥ ⎢⎢un ⎥⎥ ⎣ ⎦ ⎣ ⎦ ) cov x j(=1,2,.,k ) , u = 0 45 OLS: „ordinary least squares” k ⎛ ⎞⎟ yi = ⎜⎜βˆ0 + ∑βˆj xij ⎟⎟ + uˆi = yˆi + uˆi ⎜⎝ ⎠⎟ j =1 n 2 ˆ β ⇒ ESS = ∑uˆi min i =1 ˆ β ⇒ cov (yˆ, uˆ) = 0 ⇒ uˆ = 0 ⇒ yˆ = y k ˆβ = y − ∑ βˆ x 0 j j j =1 46 Kategória kimenetű magyarázó változók Dummy-kódolás Indikátor Kategória DA DB DC 1 0 0 A 0 1 0 B 0 0 1 C Kategória-hatás C referencia DA DB 1 0 0 1 0 0 yˆ = yADA + yBDB +yCDC yˆ =yC +(yA −yC ) DA +(yB −yC ) DB 47 Paraméterbecslés k ˆβ = y − ∑ βˆ x j 0 j j =1 −1 T T ˆ β0,1,2,.,k = (X X) X y −1 ˆ β1,2,.,k = Cxx Cxy 48
Elaszticitás: Lineáris modell esetén: ∂yˆ x j El (yˆ, x j ) = ∂x j yˆ x j ˆ ˆ ˆ yˆ = β0 + ∑βj x j ⇒ El (yˆ, x j ) = βj yˆ j =1 k Konstans elaszticitású modell: ˆβ βˆ βˆk 1 2 ˆ yˆ = β0x1 x2 xk ˆβ −1 ˆβ βˆ ˆ xj β j 1 2 El (yˆ, x j ) = βˆ0x1 x2 βˆj x j xk k = βˆj yˆ 49 Standardizált regressziós koefficiensek * * * * ˆ ˆ ˆ y = β1x 1 + β2x 2 + . + βk x k + uˆi yi −y yi = σy xij = xij −xj * j β = βj σxj σx j σy * * * ˆ ˆ y = β1x1 + β2x2 + uˆ βˆ = * 1 ry 1 − ry 2r12 2 12 1−r , βˆ = * 2 ry 2 − ry 1r12 2 12 1−r 50 Többszörös determinációs és korrelációs együttható yi = yˆi +uˆi n n n ∑(y −y ) = ∑(yˆ − y ) + ∑uˆ 2 2 i i i =1 i =1 2 i i =1 TSS = RSS + ESS var (uˆ) RSS ESS var (yˆ) 0 ≤R = = 1− = = 1− ≤1 TSS TSS var (y) var (y) 2 ryˆ,y = cov(yˆ,y) var(yˆ) var(y) = var(yˆ) var(yˆ) var(y) =R 51 Többszörös determinációs
együttható Ry2.1,2,,k k k cov (x j , y ) cov (yˆ, y ) = = ∑ βˆ j = ∑ βˆ*j rx j ,y var (y ) var (y ) j =1 j =1 2 y .1,2,,k R 2 y .1,2 R = 2 y1 = 1− 1 ⎡ R −1 ⎤ ⎣ ⎦ yy 2 y2 r + r − 2ry 1ry 2r12 2 12 1−r 52 Háromváltozós útelemzés Parciális, direkt hatások Totális hatások y = βˆ0 + βˆ1x1 + βˆ2x2 + uˆ ˆ + βˆ x + uˆ y =α 0 y1 1 y1 x2 = ˆδ0 + βˆ21x1 + uˆ21 Direkt és indirekt hatások cov x , y cov x , x ( ) ( 1 1 2) ˆ ˆ ˆ βy1 = = β1 +β2 = βˆ1 +βˆ21βˆ2 var(x1 ) var(x1 ) 53 Standard hibák −1 T ˆ ˆ Std.Error (βj ) = + Var (βj ) = σ (X X)jj 2 1 σ ˆ Var (β j ) = n ⋅ σx2 j 1 − Rj2 Fölösleges változó bevonása Variancia inflátor faktor: VIFj = 1 1 = 1 − Rj2 Tolerancia j A „modell” becsült standard hibája: ˆ = ESS / (n − p) σ Az yx várható érték becsült standard hibája −1 ˆ x (X X) x σ T T 54 Mintavételi következtetések A koefficiens mintavételi
eloszlása: Parciális t-teszt: H0: βj = 0 ˆβ − β j j ~ tn−p s.e (ˆβ ) j tj = ˆβj /se . (βˆj ) Koefficiens 95% CI: ˆβ ±t ˆ . se β ( j) j (n−p).975 Várható y|x 95% CI: yˆx ± t(n −p).975 se (yˆx ) 55 Szimmetrikus-eloszlás p-value Sűrűségfüggvény 56 „Nested” modellszelekció H0 : βm+1 = βm+2 = . = βm+q = 0 Wald-teszt F= (ESSH 0 − ESSH1 ) q ESSH1 (n − pH1 ) = (R 2 H1 2 H0 −R )q (1 − R ) (n − pH ) 2 H1 1 Lagrange-multiplikátor teszt 2 q 2 uˆH 0 .x H1 χ = n ⋅R 57 Speciális Wald-modellszelekciók Variancia analízis (ANOVA) H0 : β1 = β2 = . = βk = 0 F= 2 RSS q ESS (n − pH1 ) Parciális F-teszt Fj = ESS H 0 − ESS H1 ESS H1 (n − pH1 ) = R q 2 1 − R ( ) (n − pH1 ) H 0 : βj = 0 = RH2 1 − RH2 0 2 − R 1 ( H 1 ) (n − pH 1 ) = t j2 58 F, Chi2 eloszlás: p-value • Sűrűségfüggvény 59 Parciális korreláció y −yˆz1,z2,.,zk = uy, x −xˆz1,z2,,zk = ux ruy
,ux = ry,x .z1,z2 ,,zk = 2 yx .z1 ,z2 ,,zk r ry 1.2 = − ⎣⎡R−1 ⎦⎤ yx ⎡R−1 ⎤ ⎡R−1 ⎤ ⎣ ⎦ yy ⎣ ⎦ xx 2 x t = 2 tx + szab.fok ry 1 − ry 2r12 1 − ry22 1 − r122 , ry 2.1 = ry 2 − ry 1r12 1 − ry21 1 − r122 60 Modellszelekciós kritériumok Korrigált R2 n −1 R = 1 −(1 − R ) max n −p 2 adj Akaike Schwarz 2 ESS 2np AIC = e min n p n ESS SBC = n min n 61 Csoportspecifikus paraméterek Regresszió Kódolás Indikátor A B C 1 0 0 0 1 0 0 0 1 ŷ = βˆ0 +βˆ1x Kategória A B C C referencia DummyA DummyB 1 0 0 1 0 0 Kategória-specifikus tengelymetszet βˆ0 = α0 +αADA +αBDB Kategória-specifikus meredekség βˆ1 = γ0 + γADA + γBDB 62 Marginális dummy magyarázó változók Kategória-kódolás Dummy Kategória Marginális A B C DA DB 1 0 0 A 1 0 0 1 0 B 0 1 0 0 1 C -1 -1 Kategória-hatás yˆ =γADA +γBDB +γCDC yˆ =α0 +αADA +αBDB 63 Conjoint-Analízis: Autóválasztási preferenciák Card
Ajtó 1 5 2 5 3 5 4 5 5 3 6 5 7 5 8 3 9 5 10 5 11 3 12 5 13 5 14 3 15 3 A Garancia G3 1 1 -1 1 1 -1 1 3 1 1 3 1 -1 5 0 1 1 -1 1 3 1 -1 5 0 1 1 -1 1 1 -1 -1 5 0 1 5 0 1 1 -1 -1 5 0 -1 5 0 G5 Sebesség -1 130 -1 100 0 130 0 100 1 130 -1 70 0 70 1 100 -1 130 -1 100 1 70 1 70 -1 70 1 70 1 130 Ár 14 14 14 14 10 10 10 10 7 7 7 7 7 10 14 Y 13 9 10 15 14 12 7 4 1 3 2 11 8 6 5 64 ConJoint-analízis Response yi = β0 + ∑ f =1 u fcij p pl pq l =1 q =1 pd md −1 = β0 + ∑ ∑ αcd Dcdi + ∑ βl xil + ∑( γ1qxiq + γ2qxiq2 ) d =1 c=1 Utility (part-worth) β0, md −1 ∑α c=1 Importance cd βl xil , Dcdi , RI faktor = (γ1qxiq + γ 2 2q iq x ) max (u)f − min (u)f p ∑(max (u) f f =1 − min (u)f ) 65 Conjoint-regresszió R2=0.5297 Változó Coefficient Intercept -33.0 A 5.0 G3 -2.5 G5 4.6 Sebesség 0.0001 ár 6.9 ár^2 -0.28 St. Error 25.61 2.58 2.53 3.22 0.05 4.71 0.22 t- Stat p-value -1.29 0.234 1.93 0.090 -0.97 0.360 1.42 0.194 0.002 0.999
1.46 0.182 -1.26 0.243 66 Relatív fontosság, ideális ár intercept 5A -2.5G3 + 46G5 0001Seb 69Ár - 28Ár^2 y hat 0.013 41.7 11.60 -33 5.0 -2.1 -33 5.0 0.010 -2.1 41.7 11.60 41.7 -33 5.0 -2.5 0.013 11.26 -2.5 41.7 -33 5.0 0.010 11.26 0.013 41.0 7.60 4.6 -33 -5.0 -2.1 41.0 10.88 -33 5.0 0.007 -33 5.0 -2.5 0.007 41.0 10.54 -33 -5.0 4.6 0.010 41.0 7.59 -33 5.0 -2.1 0.013 34.6 4.46 -2.1 34.6 -33 5.0 0.010 4.46 4.6 34.6 -33 -5.0 0.007 1.17 4.6 34.6 -33 5.0 0.007 11.14 -2.1 34.6 -33 5.0 0.007 4.46 4.6 41.0 -33 -5.0 0.007 7.59 4.6 41.7 -33 -5.0 0.013 8.32 7.1 7.1 Importance 10.0 0.006 24.206 0.293 0.293 Rel.import 0413 0.000 1 12.3 Ideál 67 A paraméterek lineáris kombinációja • Hipotézis H0 : (c1β1 +c2β2 +. +ck βk ) = δ • t-statisztika tn −p cˆ β + c βˆ + . + c βˆ ) − δ ( = s.e (c ˆβ + c βˆ + + c βˆ ) 1 1 1 1 • Kvadratikus formában k 2 2 k 2 2 t= k k ˆβ −δ c c cov (b) c T 68 Főkomponens regresszió m m t =1 t =1 yˆ =
y + ∑ bt kt = y + ∑ bt p = y + ∑ (∑ t =1 bt v jt ) m j =1 (∑ p ) v x = jt j j =1 xj − xj σX j p p ⎛ ⎞⎟ = ⎜⎜⎜y − ∑ β j x j ⎟⎟ + ∑ β j x j ⎜⎝ ⎠⎟ j =1 j =1 p bt = Cov (y, kt ) = ∑vjtCov (y, x j ) j =1 69 Szakágazatok termelési függvénye, 2000 Változó NARB KLT VEVOK HLK RLK FO Korrelációs mátrix (r) Átlag Szórás(s) NARB KLT VEVO 946.4 47699 1 0.93 0.95 107.8 656.5 093 1 0.93 94.9 466.0 095 0.93 1 142.1 12718 092 0.89 0.90 321.5 16975 061 0.61 0.66 58.4 301.3 041 0.25 0.43 Főkomponens-score koefficiensek (v) f1 f2 f3 f4 f5 0.26 -0.31 -0.48 0.85 3.22 0.27 -0.07 -0.36 1.38 -313 0.27 -0.10 -0.21 -251 -056 0.22 -0.08 1.31 0.28 0.28 0.14 1.04 -0.09 0.12 0.71 KLT VEVOK HLK RLK FO Intercept sajátérték 3.54 b 4487.3 r(y,k) 0.941 Kum r2 0.885 0.84 0.47 -332.5 -10006 -0.070 -0210 0.890 0934 0.11 0.05 51.4 -1510 0.011 -0032 0.934 0935 HLK 0.92 0.89 0.90 1 0.68 0.39 C(y,x) r*s(y) 4431.2 4528.5 4385.9 2932.5 1960.4 RLK
FO 0.61 0.41 0.61 0.25 0.66 0.43 0.68 0.39 1 0.31 0.31 1 5 főkomponens bv bv/s 1311.7 2.00 2142.2 4.60 1409.7 1.11 -321.3 -019 264.4 0.88 146.80 R2= 0.935 Coeff t 146.80 2.00 6.84 4.60 1097 1.11 9.58 -0.19 -407 0.88 3.67 3 főkomponens bv bv/s 1753.8 2.67 1598.1 3.43 1454.5 1.14 -292.8 -017 366.2 1.22 154.90 70 Az Y={1,0} logisztikus regresszió PX PX /QX oddsx PX = > C ⇒ Y =1 = = PX +QX 1+PX /QX 1 + oddsx β0 +βT x odds x =e =e b0 +b( X +1) oddsx =e logit( Px ) b0 +bX b =e e ∂Px /∂x j = βj PQ x x 71 Klasszifikációs Mátrix Observed 1 0 Predicted 1 N11 N01 0 N10 N00 Gain(Loss) = a*N11 + bN10 + cN01 + dN00 72 Likelihoodarány-modellszelekció n n i=1 i=1 yi 1−yi ˆ L(β) = ∏Pr (Yi = yi ) = ∏Pi Qi H 0 : βm +1 = βm +2 = . = βm +q = 0 Chi2q = −2 ln (LˆH 0 / LˆH 1 ) CIalsó,felsõ = e |n ∞ ˆβ ±z j (1−α /2)s .e(bj ) 73 Pseudo-determinációs együtthatók 2 McFadden R (−2 ln LNull Modell ) − (−2 ln LTárgyi
Modell ) = (−2 ln LNull Modell ) − (−2 ln LSzaturált Modell ) 2/ n 2 Cox −Snell R 2 Nagelkerke R ⎛ L ⎞⎟ ⎜ = 1 − ⎜⎜ Null ⎟⎟ ⎜⎝ LTárgyi ⎠⎟ 2 Cox −Snell 2 Cox −Snell R = max R 74 Szeparált m inta 75 Multinomiális logisztikus regresszió αg +βTg x oddsx (g /m) =e PxG = (g =1,2,.,G,,m) oddsx (G /m) m ∑odds (g /m) x g=1 n L (ˆβ) = ∏Pr (Yi = yi ) max i =1 odds (g /m) odds (g / j) = odds ( j /m) 76 Ordinális, kumulatív logit-regresszió Kategóriák: y = {1,2,.,g,,m} Kumulatív valószínűség Pr(y ≤ g) = Kategória-valószínűség oddsalsó / felsõ 1 +oddsalsó / felsõ Pr(y = g) = Pr(y ≤ g) − Pr(y ≤ g −1) Proporcionális odds: αg +βTx oddsa /f =e 77 Ordinális, equal-odds logit-regresszió Kategóriák: y = {1,2,.,g,,m} Lánc odds: τg +βTx oddsg /(g+1) = e Bázis odds oddsg /m = e Kategória-valószínűség τg +τg+1+.+τm−1+(m−g )βTx PG|x = oddsG /m m ∑odds g
/m g =1 78 Matched, 1:1 Case-Control (1,0) Model Rétegek (stratum): s=1,2,.,S s Case odds: αs +βT xcase oddss,case = e s Control odds: αs +βT xcontrol oddss,control = e Feltételes likelihood az „s” párosnál : Ls = oddss,case oddss,case + oddss,control = e βT (xcase −xcontrol ) 1 +e βT (xcase −xcontrol ) 79 Discrete Choice of „i”: g=1,2,.,C,,m Multinomial modell: PiC|x = Feltételes logit modell: PiC|z = Mixed modell: PiC|x,z = e ∑ T β0C +βT C xi +θ ziC m e g=1 β0g +βTg xi +θT zig e β0C +βT C xi ∑ m g =1 e ∑ e β0g +βTg xi | βm = 0 θT ziC m e g =1 θT zig | βm = 0 80 Poisson-regresszió yi L(yi | λi ) = (λi ) e E(yi ) = λi = e −λi yi ! xT i β | βˆ ⇒ yˆi n L (ˆβ) = ∏ L(yi | λi ) max i =1 81 Tobit-regresszió: Cenzorált Y adóalap Adófizetési kötelezettség Likelihood ⎧ β β u | Y + x + > 0 ⎪ 0 i i i ⎪ yi = ⎨ ⎪ 0 ⎪ ⎪ ⎩ ⎛⎜ y −(β +β x
)⎞⎟2 i ⎟ 0 1 i ⎟⎟ − ⎜⎜⎜ ⎟ σ 2 ⎜⎝⎜ ⎠⎟⎟⎟ 1 e ∏ 2πσ i =1 n ⎛ 0 − β 0 − β xi ⎞⎟ Φ ⎜⎜ ⎟⎟ ∏ ⎜ σ ⎝ ⎠ j =1 m × 82 „Duration” modellek “Survival function” (t,T: time): S (t) = Pr(T ≥t) = 1−F (t) “Hazard rate”: f (t) ∂(−lnS(t)) h(t) = = S(t) ∂t Kumulatív hazard: t H(t) =∫ h(u)du =−lnS(t) 0 S (t ) = e −H (t ) 83 Cox-regresszió Cox-“proportional hazards”: h (t | x ) = h0 (t )e S (t | x ) = e Rétegzett „hazards”: −H 0 (t )e xT β xT β e = (S 0 (t )) xT β G1,G2,.,Gg,,Gm hg (t | x ) = h0g (t )e xT β 84 Cox-regresszió: paraméterbecslés “Failure time”: Kovariánsok: t1(d1) <t2(d2) <. <ti(di ) < <tk(dk ) x 1(w 1 ), x 2(w 2 ),. Breslow-parciális likelihood: k L ( β) = ∏ i =1 e SiT β di ⎛ ⎞ T ⎜⎜ w e xl β ⎟⎟ ⎟⎟ ⎜⎜∑ l ⎝ l ∈Ri ⎠ max 85 Struktúrális Egyenletek Modelljei: SEM Multiple Indicators
Multiple Cause: MIMIC Teljesítmény – Fogyasztás (36 18) U1 U2 VégSeb E1 Gyorsul Teljesítmény LE U3 90Km U4 U5 130Km Városi E2 Fogyasztás H cm3 Tömeg 86 Jövedelmezőség: A/B Longitudinális modell (21/17) U1 U2 Üer/Árb 0 Aer/Árb 0 Jöv0 U3 U4 Mer/Árb 0 Üer/Árb 1 U5 Aer/Árb 1 U6 Mer/Árb 1 Jöv1 E 87 Jövedelmezőség: A/B Multitrait-Multimethod: MTMM (45/30) Üer Aer Üer/Árb U1 Aer/Árb U2 Mer/Árb U3 Üer/Eszk U4 Aer/Eszk U5 Mer/Eszk Mer U6 Üer/Tőke U7 Aer/Tőke U8 Mer/Tőke U9 88 Jövedelmezőség: A/B Multitrait-Multimethod: MTMM (45/33) U2 U1 U3 Üer/Árb Aer/Árb Üer Árb U4 Mer/Árb U5 Üer/Eszk Aer Aer/Eszk Eszk Mer/Eszk U6 Üer/Tőke Mer Aer/Tőke Tőke Mer/Tőke U7 U9 U8 89 A Bentler-Weeks-modell v = Bv + Gx Struktúrális forma: ⎡ y⎤ ⎡⎢ B v = ⎢x⎥ = ⎢ y ⎢⎣ ⎥⎦ ⎢ 0 ⎣ y Redukált forma: 0 ⎤ ⎡ y ⎤ ⎡G ⎥×⎢ ⎥ + ⎢ x⎥ x ⎢ x 0
⎥ ⎢⎣ ⎥⎦ ⎢ I ⎦ ⎣ x x ⎤ ⎥×x ⎥ ⎥⎦ −1 v = (I − B ) Gx 90 Manifest-változók kifejezése Filter mátrix: ⎡ m p = ⎢ I p, p ⎣ ⎡m p ⎤ ⎤ 0p,l ⎥ × ⎢⎢ ⎥⎥ = Dv ll ⎦ ⎣ ⎦ D Extrahálás: −1 m = D (I − B) Gx 91 Kovariancia - struktúra Megfigyelt kovariancia mátrix: Cov(m) = (D(I −B) ) −1 G [Cov(x)] (G (I −B) T −1T T D ) Cov (mj ,mt ) = f (θ1, θ2,., θq ) Szabadsági fok: p (p +1) df = −q 2 92 Legkisebb négyzetek esztimátorok Fitting function: 1 F = tr 2 • V = I: • V = S: • V = Ŝ : ( ⎡S − S ˆ ⎤ V −1 ⎢⎣ ⎦⎥ ) 2 min Unweighted least squares (ULS) Generalized least squares (GLS) Iteratively weighted least squares (IWLS) Æ Maximum likelihood (ML) 93 Asymptotically Distribution Free ADF esztimátorok Diszkrepancia függvény: T −1 F = (s − ˆs) C (s − ˆs) min ADF Súly: C jk ,lt = f ( K jklt ) Heterogén kurtozis: Homogén kurtozis: Normalitás:
Kj K K =0 94 Teljesítmény fogyasztás: paraméterek 1. tábla F=0695, Chi-Square(18)=50736, T Pr=0 Paraméter Coeff. St.Error t Prob. (Teljesit)-1->(Fogyaszt) 0.198 0.078 2.526 0.012 [HengUrt]-2->(Fogyaszt) 0.593 0.085 6.936 0.000 [Tomeg]-3->(Fogyaszt) 0.221 0.058 3.786 0.000 [LE]-4->(Teljesit) 1.114 0.095 11.699 0.000 [HengUrt]-5->(Teljesit) -0.180 0.105 -1.717 0.086 (Teljesit)-6->[VSebesség] 0.989 0.012 84.950 0.000 (Teljesit)-7->[Gyorsul] -0.873 0.025 -34.474 0.000 (Fogyaszt)-8->[Fogy90] 0.832 0.032 26.253 0.000 (Fogyaszt)-9->[Fogy130] 0.936 0.014 67.053 0.000 (Fogyaszt)-10->[VárosiF] 0.997 0.008 124.446 0.000 (E1)-11-(E1) 0.110 0.023 4.736 0.000 (E2)-12-(E2) 0.096 0.026 3.658 0.000 (U1)-13-(U1) 0.023 0.023 0.989 0.323 (U2)-14-(U2) 0.238 0.044 5.384 0.000 (U3)-15-(U3) 0.308 0.053 5.840 0.000 (U4)-16-(U4) 0.124 0.026 4.750 0.000 (U5)-17-(U5) 0.005 0.016
0.319 0.750 (U3)-18-(U4) 0.094 0.028 3.316 0.001 RMS Standardized Residual=0.029 95 Modellszelekció, hipotézisvizsgálat dfM dfNull = p(p+1)/2 - q Goodness-of-Fit Chi2 = (N-1)F Szaturált M Null Függetlenség 96 Heurisztikus Modellszelekció Nem-centralitási Goodness-of-Fit Indexek Nem-centrális paraméter: E(χ 2 df ,τ ) = df + τ ˆτ = Chi − df 2 Pr( ˆτa < τ < ˆτf ) = 0.95 Nem-centralitási index: τˆ F = N −1 * 97 Teljesítmény fogyasztás: Goodness-of-Fit Nem-centralitási Fit-indexek Lower 90% Point Upper 90% Population Noncentrality Parameter 0.167 0.383 0.704 Steiger-Lind RMSEA Index 0.109 0.165 0.224 McDonald Noncentrality Index 0.703 0.826 0.920 Population Gamma Index 0.850 0.913 0.960 Adjusted Population Gamma Index 0.615 0.775 0.897 Parsimonia Fit-indexek Value Joreskog GFI 0.874 Joreskog AGFI 0.677 Akaike Information Criterion 1.298 Schwarzs Bayesian Criterion 1.992 Browne-Cudeck Cross
Validation Index 1.383 Independence Model Chi-Square Independence Model df 919.587 28 Bentler-Bonett Normed Fit Index 0.945 Bentler-Bonett Non-Normed Fit Index 0.917 Bentler Comparative Fit Index 0.959 James-Mulaik-Brett Parsimonious Fit Index 0.472 Bollens Rho 0.890 Bollens Delta 0.959 98 Heurisztikus Modellszelekció „Parsimonia” Goodness-of-Fit Indexek Bentler-Bonett, Tucker-Lewis Index: FI t /b 2 t 2 b dfb Chi − dft = 1− dft Chi − dfb 99