Tartalmi kivonat
Miskolci Egyetem GAZDASÁGTUDOMÁNYI KAR Üzleti Információgazdálkodási és Módszertani Intézet Üzleti Statisztika és Előrejelzési Tanszék TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS Oktatási segédlet Készítette: Domán Csaba egyetemi tanársegéd 2005. Többváltozós korreláció- és regressziószámítás A REGRESSZIÓS MODELLEK NÉHÁNY KÉRDÉSE A regressziós modellek az idősoros módszerekhez képest más gondolkodásmódot követelnek az alkalmazóktól. Az idősoros modellek az idősor mozgását önmagában vizsgálták, s még a legfejlettebb, legbonyolultabb modell is „csak arra képes”, hogy az idősor adatainak változásait a lehető legjobban kövesse. Ezzel szemben a regressziós modellek esetében olyan változót, vagy változókat használunk (tényezőváltozó), amelyek az általunk modellezni kívánt változó (eredményváltozó ) mozgását jól követik, lévén, hogy arra törekszünk, hogy a környezetben olyan
tényezőváltozókat keressünk, amelyek az eredményváltozó alakulására közvetlenül, vagy közvetve hatnak. Ha regressziós modellt egy adott időpontra, vagy időszakra vonatkozó megfigyelések adatbázisára épül, akkor e modellt keresztmetszeti (cross-sectional regression) modellnek nevezzük. Meghatározható tehát, hogy az eredményváltozó alakulásában mely független változó(k), illetve ezen változó(k) milyen mértékben játszanak szerepet. A regressziós modellt megszerkeszthetjük a változók idősora alapján, ekkor idősoros regressziós modellt (timeseries regression) kapunk. A vállalati gyakorlatban elterjedtebb, hogy rendelkezésre áll mind az eredményváltozó, mind a vele sztochasztikus kapcsolatban levő tényezőváltozó, vagy változók idősora. Korábbi tanulmányaink során a korrelációs összefüggést két mennyiségi ismérv között értelmeztük. A társadalmi-gazdasági élet jelenségei azonban sokkal összetettebbek,
bonyolultabbak annál, mint amit két tényező összefüggése kifejez. Egy-egy jelenség változása általában több tényező változásával van összefüggésben. A gyakorlatban általában nem lehetséges egyetlen magyarázóváltozó segítségével leírni a vizsgált jelenség alakulását. A kétváltozós kapcsolat vizsgálatánál az Y-ra ható tényezők közül csak egyet, X-et választottunk ki – feltételezve, hogy ennek hatása jelentős. Például egy dolgozó havi bruttó átlagbérét jelentősen befolyásolja az iskolai végzettségük foka. Azonban a gazdasági társaságok gazdálkodásának mutatóit vizsgálva arra a következtetésre jutunk, hogy az eredmény alakulását több tényező befolyásolja (pl: nettó árbevétel, hatékonyságot kifejező vagyonarány mutató stb.) Az eredményváltozóra ható tényezők körének kibővítésével többszörös vagy többváltozós sztochasztikus kapcsolathoz jutunk. 3 Üzleti Statisztika és
Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 1. Modellszerkesztés A többváltozós regresszió-analízis segítségével több ismérv eredményváltozóra gyakorolt hatását vizsgáljuk. A kapcsolat az ismérvek száma szerint három-, négy-, öt- stb változós, a függvény típusa szerint pedig lineáris és nemlineáris kapcsolat lehet. A többváltozós függvények értelmezése nehezebb, mint a kétváltozós kapcsolatoké, ezek függvényképe már csak térben írható le. Grafikus ábrázolásuk is problémásabb, ugyanis három változónál többet három dimenziós térben csak nagyon erős megszorítások mellett vetíthetünk ki. Ezért a legmegfelelőbb függvénytípus kiválasztása a tényezők hatásának számszerűsítése többirányú megfontolást, körültekintőbb szakmai mérlegelést tesz szükségessé. A regressziós modellek szerkesztésekor legelső feladatunk, hogy megkeressük azokat a változókat,
amelyek feltevésünk szerint az eredményváltozóval lényeges (szignifikáns) kapcsolatban vannak. Az így meghatározott magyarázó- és eredményváltozók kapcsolata persze csak hipotetikus, azt első lépésben ellenőrizni kell, hogy feltevésünk a konkrét megfigyelések függvényében mennyire állja meg a helyét. A többváltozós lineáris regressziós modellt az alábbi matematikai egyenlettel írhatjuk fel: Y=β0+β1x1+β2x2++βpxp+ε ahol, β1,β2βm a ható tényezők β0 a függvény konstans tagja ε a regressziós egyenes hibatagja. Fő feladatunk az ε hibatag minimalizálása, amit akkor érünk el, ha a becslőfüggvény értékei minimálisan térnek el az eredeti tapasztalati értékektől. Vagy az eltérések négyzetösszegén értelmezve: n ∑e i =1 2 [ ] = ∑ Y − (β 0 + β 1 x1 + β 2 x 2 + . + β p x p ) min 2 Az egyenletrendszer megoldásához szükséges paraméterek a fenti egyenlet β0, β1,βm szerinti parciális deriváltjainak
meghatározásával állíthatóak elő. A többváltozós függvények illesztésének pontosságát a regressziós függvény hibájának nagysága alapján ítélhetjük meg. Az illesztés hibája (se): e2 ( y i − Yˆi ) 2 ∑ ∑ se = = n−2 n−2 s Az illesztés relatív hibája (vagy pontossága): Vse = e ∗ 100 Yˆ A relatív hiba azt fejezi ki, hogy a számított yi értékek, azaz a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó mért yi értékeitől. Minél kisebb a relatív reziduális szórás, annál jobban illeszkedik a regressziós függvény a pontdiagram pontjaira. A gyakorlatban, általában 10% alatti relatív hiba esetén fogadjuk el jónak a regressziós becslést, a regressziós függvény illeszkedését. A többváltozós lineáris regressziós modell paramétereit mátrixalgebrai jelölésekkel is kiszámíthatjuk. A számításhoz az alábbi mátrixokat kell felhasználni 4 Üzleti Statisztika és Előrejelzési Tanszék
Többváltozós korreláció- és regressziószámítás (Az alábbi mátrixok háromváltozós regresszió-függvényre vonatkoznak. Természetesen mindegyik bővíthető a változók számának növelésével.) Együtthatómátrix: n X T X = ∑ x i1 ∑ x i 2 ∑x ∑x ∑x x i1 2 i1 i1 i 2 ∑x ∑x x ∑x i1 i 2 2 i2 i2 X T y vektor: ∑ yi X y = ∑ x i1 y i ∑ x i 2 y i T Számítástechnikai szempontból az inverz mátrix létezése lehet kétséges. A gyakorlati regresszió-számítási feladatoknál azonban általában teljesül az a feltétel, hogy a normálegyenletek független egyenletrendszert alkotnak. Ezért az együtthatómátrix nem szinguláris, és így invertálható. A regresszió-függvény paramétereit az alábbi szorzat adja meg: b0 X T X ∗ X T y = b1 = b b2 A regresszió-függvény paramétereinek értelmezése: ŷ=b0+b1x1+b2x2++bpxp A
regressziós együtthatók egy-egy tényezőváltozó részleges hatását mutatják, ezért ezeket parciális regressziós együtthatóknak nevezzük. Szokásos a mutató parciális jellegét a jelölésben is érzékeltetni. Például b1 így is írható: by12, ami arra utal, hogy az eredményváltozóban csak x1 hatása mutatkozik meg, x2 változatlan. A b0 a konstans, az x1=x2=0 helyen vett függvényérték, ha ott értelmezve van. Értelmezése logikailag nem indokolt a legtöbb esetben. A b1, b2, bp parciális regressziós együtthatókat a következőképpen értelmezzük: Ha xi értéket egy egységgel növeljük –miközben a többi xi értéket változatlanul hagyjuk-, akkor az eredményváltozó (Y) becsült értéke (ŷ) éppen bi egységgel változik. (A változás növekedés vagy csökkenés lehet bi előjelétől függően.) A regressziós együttható tehát kifejezi, hogy egy adott tényezőváltozó egységnyi növekedése mekkora növekedést (vagy csökkenést)
okoz az eredményváltozó becsült értékében, miközben a többi tényezőváltozó értéke változatlan. 5 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 1.1 Mesterséges változók alkalmazása Gyakran fordul elő, hogy az eredményváltozó alakulását minőségi jellemzők is befolyásolják, így ha a vizsgálatoknál azok hatásait nem szerepeltetjük, akkor lényeges hatótényezőktől tekintünk el, s így könnyen adódhat, hogy a felépített modell hibatényezője lényeges hatótényező „hiányát” mutatja. Eddig csak olyan eseteket tárgyaltunk, amelyben a regressziós modell változói legalább sorrendi (ordinális) skálán mérhetőek. Vizsgáljuk meg, hogy a regressziós modell változói között hogyan szerepeltethetők minőségi ismérvek. Ha a minőségi ismérvnek két változata lehetséges, illetve megoldható annak alternatívvá alakítása, akkor numerikussá tehető úgy, hogy az
egyik előfordulást 0 értékkel, a másik előfordulást 1 értékkel tesszük egyenlővé. O, ha nem teljesül a feltétel . z= 1, ha teljesül a feltétel Az így definiált változót Bernoulli vagy dummy változónak nevezzük. Általánosan az fogalmazható meg, hogy ezen változók felhasználásával ismert, feltárt és kimutatott, de egzaktan mégsem számszerűsíthető hatásokat lehet szerepeltetni az adott regressziós modellben. Ha a dummy változó értékeit definiáltuk, akkor szokásos módon határozzuk meg a regressziós modellt. Ilyen dummy változó lehet: F nem (férfi - nő), F földrajzi elhelyezkedés ( főváros - vidék, de lehet szerepeltetni a régiókat, vagy a megyéket is a modellben, bár itt csak több alternatív ismérv kombinációjával ), F szakképzettség (szakképzett-szakképzetlen), F iskolai végzettség (több alternatív ismérv kombinációjával például: egyetem - főiskola középiskola - általános iskola), F szezonális
idősornak az éven belüli szezonok kimutatása (több alternatív ismérv kombinációjával például a negyedévek) F vagy a kiugró értékek (outlier) szerepeltetése (szokásostól eltérő állapot - szokásos állapot). Tegyük fel, hogy a testsúly és a testmagasság összefüggését vizsgáljuk egy n elemű minta alapján. Az adatfelvétel során a nemet is rögzítették Az n elemű minta alapján a regresszió-függvény a következőképpen adható meg (általános formában): Y$ = β$0 + β$1 ⋅ X + β$2 ⋅ Z ahol: Y : testsúly (kg), X : magasság (cm), Z : a nemet jelző dummy változó ( Z = 1, ha az illető férfi, Z = 0 , ha az illető nő). Ha egy mesterséges változó kettőnél több értéket vehet fel, azt proxy változónak hívjuk. E változó alkalmazásának körülményei hasonlóak az előbbieknél, a közvetlenül nem mérhető jelenségeket a vele összefüggésben levő, mérhető változóval közelítjük. Elterjedten alkalmazott proxy változó
az időváltozó. Mivel a LNM a tényezőváltozókat nem tekinti valószínűségi változónak, így azok eloszlásának eltérése a mennyiségi ismérvek eloszlásától, illetve az eloszlás kérdése nem merül fel, mint alkalmazási probléma. 6 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 2. Többváltozós korrelációszámítás A többváltozós lineáris regressziós modellben arra a kérdésre is választ keresünk, hogy az egyes tényezőváltozók tisztán, önmagukban milyen szoros kapcsolatban vannak az eredményváltozóval. A regresszió-számítással szemben a korreláció szorosságának vizsgálatakor minden változót valószínűségi változónak tekintünk. Vagyis kizárjuk az olyan kontrollált kísérletek eredményeként kapott magyarázóváltozókat, amelyekkel a többi befolyásoló tényező értékét rögzíteni tudjuk, és így hatásukat a vizsgálat során ellenőrzésünk alatt
tartjuk. Az eredményváltozót ennek ellenére megkülönböztetjük a tényezőváltozóktól Ezt azonban csak amiatt tesszük, hogy jelölésrendszerünk összhangban legyen a regressziószámításnál tanultakkal. A kapcsolat szorosságának vizsgálata önmagában a megkülönböztetést nem tenné szükségessé. Kettőnél több változó esetén a korreláció szorosságáról háromféle értelemben beszélhetünk. A kapcsolat szorossága vizsgálható páronként, továbbá páronként, de a többi változó hatásának kiszűrésével. Végül pedig az eredményváltozó és az összes tényezőváltozó közötti szorosság is mérhető. 2.1 Páronkénti korrelációs együttható Korábbi tanulmányaink során már megismerkedtünk a kétváltozós lineáris korrelációs és determinációs együttható számításával, így ezekkel e témakörben részletesen nem foglalkozunk 2.2 Parciális korrelációs együttható A parciális korrelációs együttható annyiban
különbözik a páronkénti együtthatótól, hogy számításánál a többi változótól nem tekintünk el, de hatásukat kiküszöböljük. Az így kapott parciális korrelációs együttható az mutatja meg, hogy milyen szoros a kapcsolat valamelyik kiválasztott tényezőváltozó és a függő változó között, ha a többi tényezőváltozó hatását mind a vizsgált tényezőváltozóból, mind az eredményváltozóból kiszűrjük. Kiindulásként írjuk fel az (m+1) változós modell korrelációs mátrixát (R): . ryp 1 r12 . r1 p r21 1 . r2 p M M M M rp1 rp 2 . 1 Az R korrelációs mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti
korrelációját méri. A korrelációs mátrix szimmetrikus mátrix, a fődiagonálisában lévő elemek értéke 1, ami a kétváltozós lineáris korrelációs együttható képzési módjából közvetlenül adódik. Az R mátrix 1 r 1y R= r2 y M rpy 7 ry1 ry 2 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás számos információt tartalmaz a kapcsolat természetére vonatkozóan. Megállapítható, hogy melyek azok a magyarázó változók, amelyek a legszorosabb összefüggésben vannak a függő változóval és mely magyarázó változók között van számottevőbb korrelációs összefüggés. Ez utóbbi a multikollinearitás veszélyére hívja fel a figyelmet. Háromváltozós modellben az Y és X1 változó közötti parciális korrelációs együtthatót a következő módon számíthatjuk ki: ry1 − ry 2 ∗ r12 ry1.2 = (1 − ry22 ) * (1 − r122 ) Hasonlóan felírható az
ry2.1 és az r12y korrelációs együttható is A parciális korrelációs együttható pozitív korrelációnál pozitív, negatív korrelációnál negatív előjelű lesz, abszolút értéke 0 és 1 között helyezkedik el. A sokváltozós modellben általánosan a korrelációs mátrix inverze alapján határozhatjuk meg a parciális korrelációs együtthatókat. A korrelációs mátrix inverze: q yy q 1y M R= q jy M q py q y1 L q yj q11 M L q1 j M M q j1 L q jj M M M q p1 L q pj L q yp L q1 p M M L q jp M M L q pp A parciális korrelációs együtthatókat az inverz mátrixból a következő összefüggés szerint számolhatjuk ki: ryj .1, 2,( j −1),( j +1),, p = − q yj q yy q jj A parciális korrelációs együttható az Y és az Xj változók kapcsolatának szorosságát méri, miután a többi (m-1) magyarázó változó hatását mindkét változóból kiszűrtük. A parciális korrelációs
együttható négyzetét parciális determinációs együtthatónak nevezzük. A parciális determinációs együttható arra ad választ, hogy az Xj magyarázó változó mekkora hányadot képes megmagyarázni az Y függő változó varianciájának azon részéből, amelyet az X1, X2,Xj-1, Xj+1,,Xp változók nem képesek megmagyarázni. Gyakran előfordul, hogy a korrelációs mátrix mellett a változók páronkénti kovarianciamérőszámait tartalmazó, variancia-kovariancia mátrixra is szükségünk van. A mátrix általános formája a következő: C yy C y1 L C yp C C11 L C1 p 1y C= , M M M M C py C p1 L C pp ahol Cyj az eredményváltozó és a j-edik magyarázóváltozó; Cij pedig az i-edik és a j-edik magyarázóváltozó kovarianciája. A mátrix diagonális elemei pedig a regressziós modellben szereplő változók szórásnégyzetei. 8 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció-
és regressziószámítás 2.3 Többszörös korrelációs együttható A többváltozós lineáris regressziós modellnél az eredményváltozó (Y) és a magyarázó változók (X1, X2,,Xp) együttes összefüggését is vizsgáljuk. A tényezőváltozók és az eredményváltozó közötti korreláció szorosságát a többszörös korrelációs együttható méri. A többszörös korrelációs együttható olyan speciális kétváltozós korrelációs együttható, amely az Y és az X1, X2,,Xp tényezőváltozók alapján becsült Yˆ kapcsolatának szorosságát méri. A háromváltozós modellben a többszörös korrelációs együtthatót a kétváltozós korrelációs együtthatók felhasználásával is kiszámíthatjuk: R y .1, 2 = ry21 + ry22 − 2ry1 ry 2 r12 1 − r122 A többváltozós modellben általánosan a korrelációs mátrix inverze alapján határozzuk meg a többszörös korrelációs együtthatót. 1 R y .1, 2,, p = 1 − q yy A többszörös korrelációs
együttható előjelét mindig pozitívnak tekintjük. 2.4 Többszörös determinációs együttható A többszörös korrelációs együttható négyzetét többszörös determinációs együtthatónak nevezzük. A mutatószámmal azt mérjük, hogy a független változók együttesen milyen erősséggel határozzák meg az Y változó ingadozását. Másképpen fogalmazva az együttható arra ad választ, hogy a függő változó teljes szórásnégyzetéből mekkora a regressziónak tulajdonítható, tehát a tényezőváltozókkal megmagyarázható hányad. Az R2 jellemzői: F értéke 0 és 1 között lehetséges, F a maximális értéket akkor veszi fel, ha az X változók determinisztikusan meghatározzák Y-t, F 0 az értéke, ha az Y szóródását teljes egészében a véletlen magyarázza, F %-os formában értelmezzük. A többszörös determinációs együttható: 1 R y2.1, 2,, p = 1 − q yy A többszörös determinációs együttható kifejezhető a többváltozós
modellben alkalmazott eltérés-négyzetösszegek hányadosaként is: SSR R2 = SST 9 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 2.5 Parciális rugalmassági együttható A kétváltozós regressziós modellhez hasonlóan a többváltozós regressziós modellben is gyakran használjuk a regressziós együtthatók mellett az elaszticitási mutatószámokat, amelyek ekkor szintén parciális értelmezésűek. Az eredményváltozó rugalmasságát azonban egyszerre csak az egyik magyarázóváltozó szerint vizsgálhatjuk, miközben a többi magyarázóváltozó értékét rögzítjük. Az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága (elaszticitása) azt mutatja meg, hogy a megfelelő magyarázó változó valahonnan kiinduló 1%-os növekedésével (csökkenésével) hány %-os növekedés (csökkenés) mutatkozik az eredményváltozóban, feltéve, hogy az összes többi
tényező nem változik (ceteris paribus). Általános képlete: Eˆ ( yˆ , x j = bj x j , b0 + b1 x1 + . + bk x k Ami már egy százalékosan értelmezhető mutatószámot eredményez. A parciális rugalmassági együttható nagysága attól függ, hogy azt a magyarázóváltozók milyen színvonala mellett számítjuk. x1 = x1* , x 2 = x 2 ,. x k = x k * ) 2.6 Korrelációs index Nemlineáris esetekben ajánlott kapcsolat-szorossági mérőszám a korrelációs index, amely az eredeti változók közötti kapcsolat szorosságát mutatja: I= ∑ (y 1− ∑ (y i i 2 − yˆ ) − y) 2 Az I mutató szerkezete és tartalma világos, hiszen analóg a lineáris esetben a determinációs együtthatóból vont négyzetgyökkel. Az index értéke 0 és 1 között helyezkedik el Látható, hogy amennyiben az illeszkedés jó, a mutató értéke 1-hez közelít, míg alacsony I esetén a maradék-négyzetösszeg viszonylag nagy, ami rossz illeszkedésre utal. Az index esetén
fontos megjegyezni, hogy a mutató irányt nem jelez. Kellemetlen tulajdonsága, hogy nem mindig van valós érték, hiszen nemlineáris regresszió esetén előfordulhat, hogy a gyök alatt álló kifejezés negatív lesz. Ennek oka, hogy nemlineáris esetben a négyzetösszeg-felbontás nem úgy teljesül, mint lineáris esetben. 2.7 Korreláció idősoros adatok esetén Ha változóként idősorokat kívánunk felhasználni, akkor az eredményváltozó alakulását legjobban meghatározó változók kiválasztásakor a kapcsolat-szorossági mérőszámok akár „csődöt is mondhatnak”. Az annak tudható be, hogy az idősor tagjai nem függetlenek egymástól. A vállalati gyakorlatban döntő többségében olyan idősorokat találunk, amelyekben létezik alapirányzat (trend), azaz az idősor egyes tagjai valóban nem függetlenek egymástól. Idősorok esetében tehát a mutató akkor jelez szoros kapcsolatot valamely magyarázó változó és az eredményváltozó között,
ha az adott magyarázó változó alapirányzata közel esik az eredményváltozó alapirányzatához. 10 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Ezért az esetek legtöbbjében az idősorból „el kell tüntetni” az alapirányzatot, azaz meg kell határozni a változók trendértékeit, majd ezeket kivonva az idősor tényleges értékeiből: F az eredményváltozónál: ky= y − yˆ F az i-edik tényezőváltozónál: k xi = x i − xˆ i Majd az így képzett változókra határozzuk meg a lineáris korrelációs együtthatót: ∑ d k y * d k xi r= n * s k y x k xi Ez a mérőszám már valóban alkalmas arra, hogy választ adjon arra a kérdésre, hogy az i-edik magyarázóváltozó és az eredményváltozó kapcsolata tekinthető-e jelentősnek önmagában, az idő hatásának kiszűrésével. 3. Statisztikai következtetések a lineáris regressziós modellben 3.1 Intervallumbecslés a többváltozós
regressziós modellben Konfidencia intervallumokat nemcsak a regressziós együtthatókra, hanem a regressziós modell becsült értékeire is számíthatunk. A regressziós becslést úgy is értelmezhetjük, mint a regressziós együtthatók adott lineáris kombinációját. A konfidenciaintervallum-számítás során a fontosabb feladat azonban nem a becsült paraméterek intervallumának, hanem a függvényérték intervallumának a becslése. Erre vonatkozó eredményeink szintén hasonlók mindahhoz, amit a kétváltozós esetben származtattunk, a különbség mindössze annyi, hogy a függvényértékek kiszámításakor a mátrixalakokat használjuk, a t-eloszlású változó pedig n-p1 szabadságfokú. Ha tehát egy x=x0 pontban keressük a becsült függvényértéket, akkor az Yˆ0 = x0 β̂ becsült függvényérték torzítatlan becslést ad egyrészt a megfelelő pontban a regressziós függvényértékek várható értékére (átlagbecslés), másrészt ugyancsak ebben
a pontban a sokasági elemekre. A varianciák azonban a két esetben különbözők Az átlag varianciáját a −1 var Yˆ = x var βˆ x = σ 2 x (X X ) x () () 0 0 e 0 0 formában határozhatjuk meg, ha pedig mintából becsüljük, akkor a σ 2 -et se2-tel becsülve a varianciára torzítatlan becslést kapunk: −1 var( yˆ ) = s e2 x 0 (X X ) x 0 , Aminek négyzetgyöke a standard hiba: ( s yˆ = s e x 0 X X ) −1 x0 A konfidencia intervallumot 1-α megbízhatósági szinten a regressziós becslés és a variancia alapján az alábbi formulával számíthatjuk ki (konkrét minta esetén): yˆ ± t α * s yˆ 1− 2 e A számítási módból is következik, hogy a függő változó várható értékére számított konfidencia intervallum nagysága a magyarázó változók adott értékeitől, valamint a paraméterek varianciájának és kovarianciáinak nagyságától függ. 11 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós
korreláció- és regressziószámítás Amennyiben csak egyetlen független változónk van, az eredeti adatok függvényében még aránylag egyszerűen felírható a becslőfüggvényünk: Az egyedi értékek esetén az Yˆ = yˆ + ε összefüggés alapján azt kapjuk, hogy −1 Var Yˆ = σ 2 1 + x (X X ) x () [ A becsült hiba pedig 0 ( s yˆ = s e = 1 + x 0 X X 0 ) −1 ] x0 Az intervallumbecslés ekkor yˆ ± t α * s yˆ 1− 2 Ez olyan intervallumot jelent, amelyik 1-α megbízhatósággal adja meg azokat a határokat, amelyek tartalmazzák az x0-hoz tartozó ismeretlen sokasági Yˆ értéket. 3.2 Hipotézisvizsgálat Többváltozós statisztikai modell esetében, akárcsak a kétváltozós esetben, a hipotézisvizsgálat három kérdésre keresi a választ: 1. A kapott (becsült) paraméterek jók-e, azaz a nekik megfelelő változók jó magyarázó változók-e a regressziós modellben? 2. A változók együttesen kielégítő módon magyarázzák-e az
eredményváltozót? 3. A modellfeltételek a becslések tükrében helytállóak voltak-e, avagy empirikus eredményeink arra utalnak, hogy ezek valamelyike nem teljesült? Az első esetben a paraméterek teszteléséről beszélünk, és nullhipotézisünk az, hogy a j-edik sokasági paraméter értéke 0, ellenhipotézisünk pedig az, hogy nem, azaz H0 : β j = 0 H1 : β j ≠ 0 Látható, hogy a nullhipotézis azt jelenti, hogy a j-edik magyarázó változó regressziós együtthatója 0, azaz a j-edik változó tetszőleges elmozdulása nem befolyásolja az eredményváltozót. Ezért ha a próba során a nullhipotézis mellett döntünk, egyben azt is állítjuk, hogy a j-edik magyarázó változó nem magyarázza az eredményváltozót, tehát szerepeltetése a regresszióban felesleges. Ellenkező esetben, ha az ellenhipotézis fogadható el, a j-edik magyarázó változó sokasági értéke szignifikáns mértékben különbözik 0-tól, tehát a jedik magyarázó változó
valóban magyaráz, jó, releváns változó a regresszióban. A hipotézis tesztelésére a t-próbát alkalmazzuk. A próbát külön-külön valamennyi paraméterre el kel végezni, és ennek eredményeképp képet kapunk arról, hogy az egyes változók lényeges mértékben hozzájárulnak-e az eredményváltozó magyarázatához. $ A próba elvben a konstans együtthatójára is alkalmazható, és értelmezése ott is ugyanaz, mint bármely más paraméter esetén. Ennek ellenére a konstans esetében többnyire nem végezzük el a próbát, azaz a t-értéktől függetlenül a konstanst mint az illeszkedést segítő paramétert megtartjuk a modellben. A második esetben a vizsgálat arra irányul, hogy a modell elégséges-e abban az értelemben, hogy a magyarázó változók összességükben kielégítően magyarázzák-e az eredményváltozót. Ennek tesztelése a varianciaanalízis segítségével történik. A nullhipotézisünk ezúttal az, hogy a magyarázó változók
sokasági együtthatói mind 0-k, azaz 12 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás H 0 : β1 = β 2 = K = β k = 0 , ellenhipotézisünk pedig az, hogy létezik legalább egy olyan együttható, amely sokasági szinten nem nulla, azaz H 1 : ∃β j ≠ 0 . Látható, hogy a nullhipotézis azt jelenti, hogy a modellünk egészében rossz, míg az ellenhipotézis azt monda ki, hogy van legalább egy változó a modellben, amit érdemes megtartani, tehát a modellt nem lehet eleve elutasítani. Ebben az értelemben valójában a varianciaanalízis próbája logikailag megelőzi a t-próbát, hiszen ha a varianciaanalízissel megállapítjuk, hogy a modell rossz, akkor nincs mit elemezni a továbbiakban ha pedig van benne valami, akkor érdemes a t-próba alkalmazásával megkeresni azokat a relációkat, ahol érdemleges kapcsolatok találhatóak. A varianciaanalízis próbáját a próbafüggvényről F-próbának,
vagy az egész modellre történő alkalmazására utalva, globális F-próbának szokták nevezni. A próba alapötlete: F a nullhipotézis fennállása esetén a regresszió által magyarázott négyzetösszeg és a maradék-négyzetösszeg alkalmasan normált hányadosa F-eloszlást követ, és F ha a nullhipotázis ne igaz, akkor ugyanez a hányados növekszik, ezért a mullhipotézis elutasítási tartománya a jobb oldalon jelenik meg. Mindez formálisan úgy néz ki, hogy az eredményváltozó varianciáját a regressziós modell és a hibatényező hozzájárulására bontjuk fel. A többváltozós regressziós modell feltételei segítségével bizonyítható, hogy többváltozós esetben is felírható az eltérés-négyzetösszegek között a következő összefüggés: n ∑ ( yi i =1 2 n 2 n 2 − y ) = ∑ ( yˆ i − y ) + ∑ ( y i − yˆ i ) i =1 i =1 SST=SSR+SSE A függő változó átlagtól vett eltérésnégyzet-összegének (SST) két komponense tehát:
a regressziós becslések átlagtól vett eltérésnégyzet-összege (SSR) és a reziduális négyzetösszeg (SSE). A mintákból meghatározott négyzetösszegek segítségével vizsgálhatjuk a nullhipotézis fennállását: SSR p F= , SSE n − p −1 ahol a számláló szabadságfoka: szf1=m, a nevező szabadságfoka pedig: szf2=n-p-1. Az F-próba végrehajtása után az alábbi megállapításokat tehetjük: Ha a számított érték kisebb, mint a kritikus érték, akkor a nullhipotézis elfogadjuk, és megállapítjuk, hogy a vizsgált szignifikancia-szinten a modell nem jó, a magyarázó változók nem tudtak érdemben több magyarázatot adni az eredményváltozó alakulására, mint az eredményváltozó egyszerű mintaátlaga. Ha a számított érték nagyobb vagy egyenlő a táblázatból kikeresett kritikus értéknél, akkor az adott szignifikancia-szinten a modell nem utasítható el egyértelműen, legalább egy lényeges relációt megragad, ezért érdemes tovább
vizsgálni. A varianciaanalízis számításait és eredményeinek bemutatását a nemzetközileg is szabványosnak tekinthető ANOVA (ANalysis Of VAriance) táblázatok segítségével szoktuk rendezni. Az ANOVA tábla általános sémája a következő: 13 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás A variancia forrása Regresszió (R) Eltérésnégyzetösszeg (SS) Szabadságfok (DF) Átlagos négyzetösszeg (MS) SSR p MSR=SSR/p F-érték F= Hibatényező (E) SSE n-p-1 MSE=SSE/(n-p-1) Teljes (T) SST n-1 - MSR MSE Ennél a próbánál egyre gyakoribb az, hogy a számítások során nem csupán a próbafüggvény empirikus értékét adjuk meg, de kiszámítjuk, illetőleg megadjuk az empirikus szignifikanciaszintet (a p-értéket) is. A 0-hoz közeli p-értékek a nullhipotézis elutasítását, az 1 közelében lévő p-értékek a nullhipotézis elfogadását javasolják. Kissé pontosabban azt
mondhatjuk, hogy a nullhipotézist minden, p-nél nem nagyobb szignifikancia-szinten elutasítjuk, minden, p-nél nagyobb szignifikancia-szinten pedig elfogadjuk. A globális F-próbával kapcsolatban megjegyezzük még, hogy kapcsolata a többszörös determinációs együtthatóval meglehetősen egyszerű, ezért az illeszkedés tesztjének is felfogható. Ha ugyanis az F-értéket a többszörörs determinációs együttható segítségével akarjuk felírni, akkor n − p − 1 SSR n − p − 1 n − p −1 SSR / SST R2 F= = = * * * p SSE p p 1 − ( SSR / SST ) 1− R2 kapható, amiről viszont látszik, hogy a nagy R2, azaz jó illeszkedés esetén utasítja el a nullhipotézist –míg ha a determinációs együttható kicsi, a nullhipotézist- azaz azt, hogy rossz a modell – nem tudjuk elvetni. Ebben az értelemben tehát a globális F-próba az illeszkedés jóságának próbája is. 4. Optimális regresszió-függvény meghatározásának lehetséges módjai Az egyszerű,
kizárólag az adott tényező- és az eredményváltozó közötti kapcsolat szorosságán alapuló mérlegelésnek van előnye és hátránya. A korrelációs együttható könnyen meghatározható, de nem biztos, hogy olyan eredményre vezet, amelyet célul tűztünk ki: azaz, hogy az eredményváltozóval szoros kapcsolatban álló tényezőváltozók szerepeltetésével a modell jó becslést ad az eredményváltozó alakulására. A magyarázat pedig a multikollinearitás lehet. Multikollinearitás alatt a magyarázó változók közti lineáris kapcsolatot értjük, ami sok esetben - a modellben - megfigyelhető, s léte a becslési eljárás eredményét befolyásolja. Célszerű lehet a modellszerkesztés során az eddig tárgyalt változók kiválasztása helyett más megoldáshoz nyúlni, amely a két változó közti kapcsolaton túl a többi magyarázó változóval való összefüggéseire is figyelemmel van. Valószínűleg olyan regresszió-függvény segítségével
tehetjük ezt meg, amely csak a szignifikáns paraméterekkel rendelkező változókat tartalmazza, ezekből is csak annyit ( a lehető legkevesebbet ), amelyek 14 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás lehetővé teszik, hogy a modell által becsült értékek a ténylegesen megfigyelt értékekhez jól illeszkedjenek. Ezzel olyan modell építhető fel, amely a magyarázó változó várható értékére jó közelítést ad, s egyben gazdaságos modell is. A változók ilyen céloknak megfelelő kiválasztásának eljárását az optimális regresszió-függvény meghatározásával érhető el. Az optimális regresszió-függvény meghatározásának több módja ismert, mi azonban csak a két legelterjedtebben használt eljárást: a Backward eliminációs módszert és a Stepwise módszert tárgyaljuk. A módszerek bemutatása előtt szükséges kiemelni, hogy első lépésként a modellt kell felépíteni,
tehát a magyarázó változóval logikailag összefüggő változókat kell megkeresni, majd ellenőrizni kell, hogy a változókra vonatkozó megfigyelések (mintaadatok, illetve idősorok) rendelkezésre állnak-e, majd ezt követően lehet csak az optimalizálással foglalkozni. Külön rá kell mutatni arra, hogy a statisztikai programcsomagokban az optimális regressziós függvény meghatározására használt módszerek megtalálhatók, s így a számítások gyorsan és egyszerűen elvégezhetők (így például a Minitab, SPSS, SAS programcsomagokkal). A bemutatásra kerülő eljárások lépésről lépésre ítélik meg azt, hogy az adott változó önmagában milyen jelentős hatást gyakorol a modellre, illetve a modellben még/már szereplő többi változó magyarázó erejére. A bemutatásra kerülő módszerek logikailag egymás ellentettei, míg a Backward eliminációs módszer „lebontással”, addig a Stepwise módszer lépésről lépésre
„építkezéssel” jut el az optimális modellhez. 4.1 Backward eliminációs módszer A módszer lépései: 1. 2. 3. 15 A magyarázó változóval szerintünk logikailag összefüggő valamennyi változót beépítjük a modellbe. Legyen az összes magyarázó változók száma p Ekkor egy p+1 változós modellt állítunk össze és meghatározzuk a modell paramétereit, meghatározzuk a paraméterek standard hibáját. Kiszámítjuk a magyarázó változók paramétereire a parciális t -próba értékét ( vagy a parciális F -próba értékét ): β$i βˆ i2 F = (7) vagy (8) t= σ ( β$i ) σ ( βˆ ) 2 Ho : β i = O hipotézis tesztelésére. a H1: β i ≠ O Megvizsgáljuk azt, hogy az abszolút értéken legalacsonyabb t (vagy F ) értékkel bíró változó szignifikáns változó-e: Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás - - 4. ha a próbafüggvény értéke magasabb az adott
szignifikancia-szinthez tartozó függvényértéknél, ( t1n−−αp/−21 , vagy F1−pα, n/−2p −1 ): a változót megtartjuk a modellben és optimális regresszió-függvénynek az általunk választott valamennyi változót tartalmazó modellt tekinthető, tehát már első iterációban optimális regresszió-függvényhez jutottunk: a gyakorlat igazolta a feltevést a kapcsolat valódiságáról, ha a próba értéke alacsonyabb az adott szignifikancia-szinthez tartozó értéknél, akkor e változót kizárjuk - elimináljuk - a regressziós modellből: e változó - a többi változóhoz képest - nem gyakorol lényeges hatást a magyarázó változóra, nincs indokunk a modellben való szerepeltetésére. A maradék magyarázó változók felhasználásával egy újabb modellt szerkesztünk, majd a 2. pontnál folytatjuk a vizsgálatot. A vizsgálatot mindaddig folytatjuk, amíg a modellben szignifikáns változók szerepelnek csak! 4.2 Stepwise módszer A Stepwise
módszer megoldásában éppen ellenkezője a Backward módszernek, lévén a teljes modell lebontása helyett a modell alulról való felépítését tűzi ki célul. A módszer lépései: 1. A modellbe elsőként azt a változót építjük be, amelynek a legszorosabb a kapcsolata az eredményváltozóval ( a legnagyobb a determinációs együtthatója: ryi2 ). 2. Megvizsgáljuk, hogy az első lépésben bevont változó szignifikáns kapcsolatban van-e az eredményváltozóval. (ry2.1,2 ,, p − ry21,2 ,, p −1 ) F= . (9) 1 − ry2.1,2 ,, p n − p −1 A (9) próbafüggvény számlálójában a determinációs együtthatók különbségének meghatározásával arra kapunk választ, hogy a p-edik változó beépítése mennyivel növeli a modell magyarázó erejét. Lévén a próbafüggvény értékének meghatározása munkaigényes, a gyakorlatban elterjedtebb a próbafüggvény meghatározása a szokásos formában, a változó négyzete és a változó varianciája
hányadosaként, azaz: β$i 2 . F= Var ( βi ) 16 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 3. Az első lépésben bevonásra nem került magyarázó változókra (1,2 , i − 1, i + 1, p ) meghatározzuk a parciális korrelációs együtthatókat. Másodikként azt a változót vonjuk be a modellbe, amelynél az itt meghatározott parciális korrelációs együtthatók négyzete ( parciális determinációs együttható ) értéke a legmagasabb. Mielőtt beépítenénk a modellbe az újabb változót (legyen az a j-edik) vizsgálnunk kell azt is, hogy az újabb változó bevonása a modellbe szignifikánsan növeli-e a determinációs együttható értékét ( (9)-es pontbeli F próbával ). 4. Az új változó bevonásával meghatározott új regressziós modell paramétereit, s az így meghatározott paraméterek szignifikanciáját t próbával vizsgáljuk. Ha a parciális regressziós paraméter értéke nem
különbözik nullától, akkor az új ( j -edik ) változót elhagyjuk a modellből, s visszatérünk a 3. lépésnél meghatározott feladatokra Ha a parciális regressziós paraméterek értéke különbözik szignifikánsan nullától, akkor a munkát tovább folytatjuk. 5. Az eddig bevonásra nem került magyarázóváltozókra ( 1,2 , i − 1, i + 1, j − 1, j + 1, p ) meghatározzuk a parciális korrelációs együtthatókat. A legnagyobb determinációs együtthatóval bíró változóra vonatkozóan szignifikancia vizsgálatot végzünk. 6. Ha a próbafüggvény értéke szignifikáns kapcsolatra utal, akkor az 5 lépésnél folytatjuk a számításokat. Ha a próbafüggvény értéke nem utal szignifikáns kapcsolatra, akkor az előzőekben meghatározott regresszió-függvényt tekintjük optimális regresszió-függvénynek. Az optimális regressziófüggvény meghatározásakor a számításokat célszerű különböző szignifikancia-szinten elvégezni. Ezzel lehet
megbizonyosodni arról, hogy valóban helyes modell került-e meghatározásra. Ezt követően a statisztikailag optimális modellt szakmai szempontból is górcső alá kell vetni, s alaposan megvizsgálni, hogy a feltárt összefüggés a valóságban is megállja-e a helyét. 4.3 A korrigált determinációs együttható A modellkészítés során az illeszkedés leggyakrabban használt mutatója az R2 determinációs együttható. Ennek azonban van egy nagy hibája: ha a meglévő változókörhöz egy újabb változót csatlakoztatunk, R2 soha nem csökken, a gyakorlatban pedig mindig nő. Ekkor, ha csak az R2 kritériumot tekintjük, a legjobb modell az, amelyik a lehető legtöbb (a megfigyelések számával megegyező számú) változót tartalmazza. Ez viszont más szempontból nem jó döntés. Ekkor ugyanis a változók számának növelésével egyrészt megnő a multikollinearitás veszélye, aminek következtében jellemző módon nőnek a paraméterbecslések hibái,
és a regresszió értéktelenné válhat. Másrészt a túl sok magyarázó változó csökkenti a szabadságfokot (a megfigyelések és a becsülni kívánt paraméterek számának különbségét), s ezáltal nem engedi meg a becslés statisztikai tulajdonságainak érvényesülését. Ezért az R2 helyett olyan mutatók alkalmazása célszerű, amelyek figyelembe veszik a becslés során a változók számát is, és ezáltal a kevés számú paramétert tartalmazó modelleket versenyképessé teszik a több változót, illetve paramétert tartalmazó modellekkel. A legegyszerűbb ilyen mutató a Theil-féle, szabadságfokkal korrigált determinációs együttható, amelynek alakja a következő: 17 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás n −1 1− R2 n − p −1 A mutató értéke a paraméterek számának növekedésével csökkenhet és csökken is akkor, ha a rendszerbe utolsónak bevont változó csak
kis befolyással bír az eredményváltozóra. A korrigált R2 mutató egyébként nagyrészt hasonlóan viselkedik, mint az eredeti, nem korrigált változata, ám rossz tulajdonságai között meg kell említeni azt, hogy bizonyos esetekben negatív értéket is felvehet! A mutató a különböző modellek összehasonlításában kiemelkedő fontosságú, így nem véletlen, hogy a különböző regressziós szoftverek kiterjedten alkalmazzák. Az R 2 mutató mellett számos más, hasonló célt szolgáló, más elméleti alapokon álló mutató létezik, melyek közül csak kettőt említenénk meg. 1. Akaike a mintában meglévő információ felhasználásának maximalizálását tűzte ki célul, és mutatója –amely az AIC1 rövidítéssel vált ismertté- olyan konstrukciójú, hogy ennek minimálása a maximális információ-felhasználású modellhez vezet. A regressziószámításban alkalmazott leggyakoribb formája SSE AIC = exp( 2k / n) min n Alakú. Ez a mutató is
előnyben részesíti a jó illeszkedésű, ugyanakkor bünteti a nagy számú változót tartalmazó modelleket. Mivel a mutató az SSE-re épít, természetesen kis értékei jelzik a jó modellt. R 2 =1− ( ) 2. Az SBC2 mutató is hasonló mutató, bár egész más elméleti megalapozottságú (bayes statisztikából származtatott). Ennek formája: SSE k / n SBC = n min . n Ezek a mutató, bár árnyaltabbak mint a determinációs együttható, csupán durva indikációval szolgálhatnak, mintegy döntőbíróként szerepelhetnek a modellek összehasonlítása során, ám a lehető legjobb modell kialakításában szerepük meglehetősen passzív. 4.4 A regressziós modell feltételeinek ellenőrzése A standard lineáris regressziós modell feltételei: 1. A variancia állandó: Var (Y / X = X i ) = Var (Y / X = X j ) = σ 2 2. Linearitás: E (Yi ) = β0 + β1 X 1 + β2 X 2 + β p X p E (ε ) = 0 . 3. Függetlenség: az Y1 , Y2 , valószínűségi változók
függetlenek egymástól 4. Normális eloszlás: az Y1 , Y2 , valószínűségi változók normális eloszlást követnek: N ( β0 + β1 X 1 +.+ β p X p , σ 2 ) A regressziós modell meghatározása után, az egyedi Y értékek és a várható érték eltérése ε -nal. Így felírhatjuk, hogy meghatározható. Jelöljük ezt az eltérést Y = β0 + β1 X 1 +.+ β p X p + ε 1 2 Akaike Information Criterion - AIC Schwarz Bayesian Criterion -SBC 18 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás ahol: ε 1 , ε 2 , . normális eloszlású, egymástól független változó: E (ε ) = 0 . Var (ε ) = σ 2 Hogyan vizsgálhatjuk e feltételek teljesülését? Legegyszerűbben ezt úgy lehet megtenni, hogy a reziduumokat a becsült értékekkel szemben ábrázoljuk. (Tehát újra a jól bevált grafikus ábrázolás módszeréhez folyamodunk). Célszerű persze a reziduumok standardizált értékeit szerepeltetni az
ábrán. A reziduumok standardizált értékeit a következő képlettel számíthatjuk ki: y − y$ e∗ = se ahol: se = ∑e 2 i n − p −1 . A modellspecifikáció helyességének eldöntésére célszerű még a standard reziduumokat az egyes tényezőváltozókkal szemben is ábrázolni. A gyakorlott szemnek az ábra sokat felfed arról, hogy a megszerkesztett modell a feltételeknek többé-kevésbé megfelel-e. A továbbiakban részletesen meg kell vizsgálni, hogy az ábra mellett milyen viszonylag egyszerű statisztikai próbák segíthetik a feltételek ellenőrzését. 4.41 Homoszkedaszticitás tesztelése A homoszkedaszticitási feltétel azt követeli meg, hogy a maradékváltozó különböző Xértékekhez tartozó eloszlásai azonos szóródásúak legyenek. Ez egyfajta állandóságot jelent és egyebek közt azért lesz fontos, mert ez a feltétele annak, hogy a közös varianciát (és szórást) mintából becsülni tudjuk. Más szóval azt is mondhatjuk,
hogy a véletlen maradékváltozótól elvárjuk, hogy állandó mértékben ingadozzék a regressziós egyenes körül. A variancia állandóságának ellenőrzése kiemelten fontos, mert F keresztmetszeti modelleknél a tényezőváltozó(k) eltérő szintjein a hozzárendelt eredményváltozó értékek jelentősen eltérhetnek, szóródhatnak, F idősoros modelleknél a tendenciát követő eredményváltozó szórása általában növekszik vagy csökken. A feltétel teljesüléséről grafikus ábrázolással győződhetünk meg legegyszerűbben: az empirikusan meghatározott reziduumokat egy-egy magyarázó változóval ábrázoljuk. Ha valamely ábrán a hibatényező tölcsér alakban nyílik vagy fordítva zárul, akkor a következtetésünk: heteroszkedasztikus a hibatényező. Ha a heteroszkedaszticitás közvetlenül valamelyik tényezőváltozóhoz kapcsolódik, akkor a feltétel teljesülése például Goldfeld-Quandt féle teszttel is ellenőrizhető, amelynél: H 0 :
σ 2j = σ 2 . H1: σ 2j = σ 2 ⋅ X ji vagy σ 2j ≠ σ 2 F A próba végrehajtásához célszerű a keresztmetszeti adatokat Y szerint rangsorba rendezni, majd a megfigyeléseket három részre osztani úgy, hogy az eloszlás elején és 19 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás végén ugyanolyan számosságú csoportokat képezzünk. Jelöljük a középső csoportba kerülő elemek számát r-rel (maradék). F Az első és a harmadik csoportba tartozó adatokra kiszámítjuk a regressziós függvényeket és meghatározzuk a reziduális szórásnégyzeteket is. F A nullhipotézis igaza esetén a varianciák χ 2n − r eloszlást követnek és a részminták 2 függetlenségéből adódóan ezek egymástól függetlenek. Így az alsó és felső részminta nagyságának azonossága miatt: ∑ e12 = s12 F= ∑ e22 s22 eloszlású próbafüggvényt használhatjuk a hipotézis vizsgálatához, amelynek n−r
n−r , ν2 = . szabadságfokai: ν1 = 2 2 F A próbafüggvény elfogadási tartománya kétoldali alternatív hipotézis esetén : Fαν/12,ν 2 , F1ν−1α,ν/22 . 4.42 A hibatényező várható értéke nulla Ez a feltétel valójában azt fogalmazza meg, hogy a különböző X értékekhez tartozó maradékváltozók valóban semleges, maradék jellegűek legyenek, ne húzzanak tendenciaszerűen semerre. Ez egyébként nyilvánvaló követelmény, hiszen ha a 0 várható érték nem teljesülne, akkor ez olyan tendenciát jelezne, ami beépíthető lenne a modell determinisztikus részébe. A feltétel teljesülésének ellenőrzése a gyakorlatban nehéz, mivel a legkisebb négyzetek módszerének alkalmazásával eleve biztosított lesz az, hogy a maradéktag átlaga nulla. 4.43 Függetlenség A függetlenségi feltétel szerint az egyes megfigyelésekhez tartozó reziduumok egymással korrelálatlanok. Ha a modellt keresztmetszeti adatokra építettük, akkor a megfigyelések
általában az egyszerű véletlen kiválasztás követelményeinek megfelelnek, s így feleslegessé válik e hipotézis ellenőrzése. A függetlenségi feltétel tartalmilag azt jelenti, hogy a különböző X értékek mellett megjelenő maradékváltozók ne korreláljanak egymással, azaz az egyik változóérték melletti kis vagy nagy értékeik ne jelentsenek semmiféle információt egy másik X érték esetére. Ettől eltérő a helyzet, ha a modellt idősoros adatokra építettük. Mielőtt az idősoros adatokra készített modellt felhasználnánk becslésre, meg kell határoznunk hogy milyen erős kapcsolat érvényesül a tényadatok és a modell által becsült adatok eltéréseként adódó reziduumok elemei között, azaz milyen erős a reziduális autokorreláció. Az elsőrendű autokorrelációs együtthatót a regressziós reziduumokból a következőképen lehet becsülni: A Durbin-Watson-teszt nullhipotézise és ellenhipotézise a következő: H0: ρ = 0 H1:
ρ ≠ 0 20 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás A próbafüggvénnyel nem közvetlenül a ρ -t, hanem annak egy transzformáltját teszteljük a következő módon: n ρ̂ = ∑e i=2 ⋅ ei −1 i n ∑e i =2 . 2 i −1 Minthogy a modell az elméleti regressziós modellnek csak egy lehetséges közelítése, így szükséges a tapasztalati reziduális autokorreláció szignifikanciájának ellenőrzése. Az ellenőrzés általánosan elterjedt módszere a Durbin-Watson próba alkalmazása. A próbafüggvény: n d= ∑ (e t − et −1 ) 2 t =2 n ∑e 2 t i =1 ahol: e t = Yt − Y$t , azaz a t. időszakra az idősor tényadata és a modell által becsült adat különbsége: az empirikus reziduum. A fenti próbafüggvény értékét össze kell vetnünk a Durbin és Watson által megszerkesztett, a d eloszlását mutató táblázatban szereplő értékekkel. Ezzel azt a hipotézist
ellenőrizzük, hogy a minta adatok mennyire támasztják alá azt a feltevésünket, hogy az elméleti reziduális autokorreláció értéke nulla. A d eloszlását mutató táblázatban az adott szignifikanciaszinthez két kritikus érték tartozik: d L és d U , a mintanagyság és a változók száma szerint. A döntéshozatal előtt nézzük meg, hogy milyen összefüggés mutatható ki az autokorrelációs együttható ( ρ ) és a d mutató között: d ≅ 2 ⋅ (1 − ρ ) . A próba döntési szabálya egy kicsit bonyolultabb a korábban megszokottaknál. Ha a próbafüggvény (d) empirikus értéke a 0-dL tartományba esik, a döntés az, hogy a maradékváltozó szignifikáns mértékű pozitív autokerrelációt tartalmaz. Ha a próbafüggvény empirikus értéke a dL-dU tartományba esik, e próba alapján nem tudunk dönteni, ezt a tartományt semleges zónának nevezzük. Ha próbafüggvényünk empirikus értéke a dU-(4-dU) tartományba esik, a nullhipotézist, azaz a
maradékváltozó elsőrendű autokorrelációtól való mentességét nem tudjuk elutasítani. Ennek a tartománynak a közepe 2. Ha próbafüggvényünk empirikus értéke a (4-dU)-(4-dL) tartományba esik, ismét semleges zónában vagyunk, és nem tudunk dönteni. Ha próbafüggvényünk empirikus értéke a (4-dL)-4 tartományba esik, döntésünk szignifikáns negatív autokorreláció. A próba alkalmazásával kapcsolatban két dologra hívjuk fel a figyelmet. Az egyik az, hogy ez a teszt a pozitív, illetve negatív autokorrelációt mindig az ellenkező oldalon mutatja. A másik 21 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás fontos dolog a semleges zónákra vonatkozik. Ha próbafüggvényünk értéke ezek valamelyikébe esik, nem tudunk dönteni. Ekkor vagy a szignifikancia-szintet változtatjuk úgy meg, hogy döntési helyzetbe kerüljünk, vagy más próbafüggvényhez kell fordulnunk. Végezetül ki kell
emelni, hogy reziduális autokorrelációt okozhatnak a következő esetek: F ha a modellben nem szerepeltettünk minden lényeges magyarázóváltozót (a reziduum nagysága nemcsak a véletlentől, hanem a mulasztástól is függ), F ha helytelen a modellspecifikáció, a változók között például nem lineáris a kapcsolat, azonban mégis lineáris regressziós modellt illesztettünk ( a helytelenül illesztett modell reziduumai tendenciát követnek! ), F nem véletlen jellegű mérési hibák. 4.44 Normális eloszlás Ez a feltétel részben kényelmi okokból indokolható, de kétségtelen, hogy az esetek jó részében a maradékváltozók sok, egymástól független, a modellben figyelembe nem vett hatás eredőjéből tevődnek össze, ami indokolhatja a normalitás feltételezését. Az empirikus eloszlást vizsgálhatjuk a hipotézisvizsgálat során megismert illeszkedésvizsgálati teszttel ( χ 2 próba ). A nullhipotézisben szereplő valószínűség a normális
eloszlás megfelelő valószínűségi értéke: H 0 : Pr(ε j ) = Pj . H1: ∃j: Pr(ε j ) ≠ Pj A próbafüggvény: ( f − n ⋅ Pi ) 2 , n ⋅ Pi i =1 k χ2 = ∑ ahol: k a képzett osztályközök száma. A null-hipotézis elfogadási tartománya: 0 ≤ χ 2 ≤ χ 12− α ,k −1− b . A normális eloszlás a standardizált hibaváltozó értékei és a standardizált hiba normális eloszlását feltételező várható értékek ábrázolásával, s ezen értékeken alapuló próbafüggvénnyel is vizsgálhatók, s így a normalitás ellenőrzése egyszerűbbé válik. A hipotézis változatlan: H 0 : Pr(ε j ) = Pj H1: ∃j: Pr(ε j ) ≠ Pj . A hipotézis ellenőrzésére használt próbafüggvény: Cee* . r= n ⋅ σ e ⋅ σ e* A H 0 elfogadási tartománya: r ≤ rc , míg H 0 visszautasítási tartománya: r ≥ rc . 22 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 4.5 A multikollinearitás A
többváltozós lineáris regressziós modell széles körben használt, hatékony elemzési eszköznek bizonyul olyan esetekben, amikor valamelyik jelenségnek több más jelenségtől való egyidejű függőségét vizsgáljuk. A többváltozós regressziós elemzésnél is, mint minden statisztikai módszer alkalmazásánál, a módszer hatékonysága nagyban függ attól, hogy az alkalmazás feltételei mennyiben állnak fenn. Fontos kérdés továbbá, hogy milyen következményekkel kell számolnunk, és mit kell tennünk olyan esetekben, amikor e feltételek nem, vagy nem teljesen állnak fenn. A standard lineáris regressziós modell feltétele megköveteli, hogy az [n(p + 1)]-ed rendű X mátrix rangja p + 1 legyen, azaz ne legyen lineáris függőség a magyarázó változók között. Ennek az alapvető feltételnek az a magyarázata, hogy a legkisebb négyzetek elve alapján becsült regressziós együtthatók ( bi; i = 1, 2, , p ) meghatározásához szükség van az X’X
mátrix inverzére. Mint ismeretes az X’X mátrix csak akkor invertálható, ha az X mátrix és az X’X mátrix rangja p + 1, azaz megegyezik a változók számával. Amennyiben az X’X szinguláris, vagyis az X mátrix rangja kisebb, mint p + 1, a modell együtthatói nem becsülhetők. Ez az eset akkor áll fenn, ha a magyarázó változók egyike kifejezhető a többi magyarázó változó lineáris kombinációjaként. Szokás ezt az esetet teljes, vagy extrém multikollinearitásnak is nevezni. A teljes multikollinearitás fennállására egyértelműen fény derül, ezért nem okoz különösebb problémát az elhárítása. A lineáris függőségben lévő változók egyikét elhagyjuk, hogy létrehozzuk a magyarázó változók lineárisan „független” rendszerét. Így a modellben kevesebb, azonban kölcsönösen lineárisan független magyarázó változó szerepel. Sok esetben nem könnyű annak eldöntése, hogy a lineáris függvénykapcsolatban lévő
magyarázó változók melyikét kell elhagyni, és melyiket kell a regressziós modellben figyelembe venni. Ez a döntés mindenekelőtt alapos közgazdasági megfontolást igényel. A gyakorlatban a teljes multikollinearitás viszonylag ritkán fordul elő. Jóval gyakrabban találkozunk viszont a multikollinearitás olyan esetével, amikor a magyarázó változók között lineáris összefüggés van, azonban ez nem egzakt lineáris függvénykapcsolatban, hanem sztochasztikus kapcsolatban fejeződik ki. Itt szó lehet arról is, hogy a magyarázó változók között fennálló egzakt lineáris összefüggés azért jelenik meg sztochasztikus összefüggésként, mert az adatokban mérési, megfigyelési hiba is jelen van. A multikollinearitás jelenléte zavarja a modell specifikálását, és általában csökkenti a modellből nyerhető információ minőségét. Káros hatása egyrészt abban nyilvánul meg, hogy növeli a paraméterek varianciáját. A gyakorlati
elemzéseknél ez olyan következményekkel is járhat, hogy indokolatlanul kihagyunk egyébként releváns változókat. Kollineáris magyarázó változók esetén nem lehetséges az egyes tényezőváltozók hatásának elkülönítése, szeparált vizsgálata sem. A multikollinearitás megnyilvánulhat abban is, hogy a paraméterek mintánként nagy különbözőséget mutatnak, illetve a minta néhány pótlólagos megfigyeléssel történő kiegészítése lényeges változást idézhet elő a paraméterek értékeinél. 4.51 A multikollinearitás mutatószáma Új változó bekapcsolása a modellbe növeli (a kapcsolat teljes hiánya esetén nem változtatja meg) a determinációs együtthatót. A változó hatása két tényezőtől függ: egyrészt attól, hogy a modellben már szereplő változók a függő változó varianciájából mennyit hagynak „magyarázatlanul”, másrészt attól, hogy az újonnan bekapcsolt változónak mennyi a modellben lévő változókra
számított parciális determinációs együtthatója. 23 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Minden modellben szereplő változóra kiszámítjuk, hogy mennyivel növeli a többszörös determinációs együtthatót, ha a változót utolsóként kapcsoljuk be a modellbe. Ha ezeket a változónkénti hatásokat összeadjuk, és megkapjuk a többszörös determinációs együtthatót, úgy a multikollinearitást nullának tekinthetjük, mivel a többszörös determinációs együtthatót fel tudtuk bontani a változónkénti hatások összegére. Az esetek többségében azonban nem ez a helyzet. Van az R2y·1,2,,p-nek egy olyan része, amit a változók együttesen magyaráznak meg. Kézenfekvő, hogy a multikollinearitást ezzel az együttesen magyarázott hányaddal mérjük: p M = R y2⋅1, 2,., p − ∑ ( R y2⋅1, 2,,( j −1),( j +1),, p ), j =1 ahol: j = 1,2,,p a magyarázó változókat jelöli. Az M
mérőszám értéke azt mutatja meg, hogy a tényező változók nem elkülöníthető hatása milyen nagyságrendű. Ily módon a többszörös determinációs együttható felbontható az egyes tényezőváltozók parciális és a tényezőváltozók együttesen jelentkező hatására. Minél nagyobb az M értéke, annál inkább számolni kell a multikollinearitásból adódó veszélyekkel. Példa a multikollinearitás vizsgálatára 30 véletlenszerűen kiválasztott vállalat 1999. évi adatai alapján megvizsgáltuk az alábbi változók kapcsolatát: Y: a vállalat nyeresége (m Ft), X1: piaci részesedés (%), X2: alkalmazottak átlagkeresete (Ft/fő). A számítások során a következő részeredmények adódtak: ry1=0,89, ry2=0,83, r12=0,61. A parciális korrelációs együtthatók a következők: 0,89 − 0,83 ⋅ 0,61 0,3837 ry1⋅2 = = = 0,87, (1 − 0,83 2 )(1 − 0,612 ) 0,44197 ry 2⋅1 = r12⋅ y = 0,83 − 0,89 ⋅ 0,61 (1 − 0,89 2 )(1 − 0,612 ) 0,61 −
0,89 ⋅ 0,83 (1 − 0,89 2 )(1 − 0,83 2 ) = 0,2871 = 0,79, 0,3613 = − 0,1287 = −0,51. 0,2543 A többszörös determinációs együttható: R2 = 0,89 2 + 0,83 2 − 2 ⋅ 0,89 ⋅ 0,83 ⋅ 0,61 1,481 − 0,9012 = = 0,9234 . 1 − 0,612 0,6279 A multikollinearitás mérőszáma: M = 0.9234 − (0,9234 − 0,89 2 ) + (0,9234 − 0,832 ) = = 0,9234 − (0,1313 + 0,2345) = 0,9234 − 0,3658 = 0,5576. [ 24 ] Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Ennél a feladatnál a multikollinearitás nem számottevő. Ezt vélelmezhetjük a páronkénti és a parciális korrelációs együtthatók közötti viszonylag kis mértékű eltérésből is, de a multikollinearitás mérőszáma is erről tanúskodik. Megjegyezzük, hogy a gyakorlati tapasztalatok alapján a multikollinearitást akkor szokásos káros mértékűnek tekintetni, ha létezik a korrelációs mátrixnak a tényezőváltozókra vonatkozó
részében a többszörös korrelációs együtthatónál nagyobb abszolút értékű elem. Természetesen léteznek ennél jóval egzaktabb módszerek is a multikollinearitás mérésére, a probléma kezelésére. A statisztikai módszertan számos eljárást ismer multikollinearitást tartalmazó regressziós modellek paramétereinek becslésére, ilyen például a faktoranalízis. 4.52 A multikollinearitás tesztelése A VIF mutató segítségével történhet. 1 VIF j = Azt mutatja, hogy a j-edik változó becsült együtthatójának tényleges 1 − R 2j varianciája hányszorosa annak, ami a multikollinearitás teljes kizárásával lenne. A mutató értékelésekor azt mondhatjuk, hogy ha valamely változó VIF mutatója 1 és 2 közöt van, akkor gyenge, ha 2 és 5 között van akkor erős, zavaró, ha pedig 5 felett van, akkor nagyon erős, káros a multikollinearitás. 25 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és
regressziószámítás MINTAFELADAT Példa az eredmények értelmezésére. A többváltozós korreláció és regresszió számítás eredményeit az SPSS14.0 szoftver „Cars.sav” adatfájljában található adathalmaz vizsgálata alapján mutatjuk be! A vizsgált változók: A változó Tartalom (angolul) neve mpg Miles per Gallon engine horse weight accel year origin cylinder filter $ Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Country of Origin Number of Cylinders cylrec = 1 | cylrec = 2 (FILTER) Tartalom (magyarul) Üzemanyag hatékonyság (mérföld/gallon) Motor térfogat Jelölése a regresszió egyenletben Y X1 Lóerő Súly Gyorsulás X2 X3 X4 Évjárat X5 Származási hely Hengerek száma Filter X6 X7 X8 A Cars.sav fájl a fenti változók adatait 406 autóra vonatkozóan tartalmazza! A változók korrelációs elemzése során kapott korrelációs mátrix, mely tartalmazza
páronként a lineáris korrelációs együtthatókat: Az R korrelációs mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri. A korrelációs mátrix szimmetrikus mátrix, a fődiagonálisában lévő elemek értéke 1, ami a kétváltozós lineáris korrelációs együttható képzési módjából közvetlenül adódik. Az R mátrix számos információt tartalmaz a kapcsolat természetére vonatkozóan. Megállapítható, hogy melyek azok a magyarázó változók, amelyek a legszorosabb összefüggésben vannak a függő változóval és mely magyarázó változók között van számottevőbb korrelációs összefüggés. Ez utóbbi a multikollinearitás
veszélyére hívja fel a figyelmet. 26 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Correlations Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Country of Origin Number of Cylinders cylrec = 1 | cylrec = 2 (FILTER) Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Time to Engine cylrec = 1 | Accelerate Miles per Vehicle Model Year Country of Number of Displacement cylrec = 2 from 0 to 60 Horsepower Weight (lbs.) Gallon (modulo 100) Origin Cylinders (cu. inches) (FILTER) mph (sec) 1 -,789* -,771* -,807* ,434* ,576* ,563*
-,774* ,650* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 398 398 392 398 398 397 397 397 390 -,789* 1 ,897* ,933* -,545* -,379* -,612* ,952* -,864* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 398 406 400 406 406 405 405 405 398 -,771* ,897* 1 ,859* -,701* -,419* -,459* ,844* -,838* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 392 400 400 400 400 399 399 399 392 -,807* ,933* ,859* 1 -,415* -,310* -,584* ,895* -,801* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 398 406 400 406 406 405 405 405 398 ,434* -,545* -,701* -,415* 1 ,308* ,221* -,528* ,591* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 398 406 400 406 406 405 405 405 398 ,576* -,379* -,419* -,310* ,308* 1 ,186* -,357* ,350* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 397 405 399 405 405 405 405 405 398 ,563* -,612* -,459* -,584* ,221* ,186* 1 -,567* ,424* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 397 405 399 405 405 405 405 405 398 -,774* ,952* ,844* ,895* -,528* -,357* -,567* 1 -,891* ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 397 405 399 405 405 405 405 405
398 ,650* -,864* -,838* -,801* ,591* ,350* ,424* -,891* 1 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 390 398 392 398 398 398 398 398 398 *. Correlation is significant at the 001 level (2-tailed) 27 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás A többváltozós regresszió számítás során azt vizsgáltuk, hogyan alakult a járművek üzemanyag hatékonysága a többi változó függvényében! Az optimális regresszió függvény meghatározásához a Backward eliminációs módszert alkalmaztuk A program eredményei: Model Summary Model 1 2 R ,921a ,921b R Square ,849 ,849 Adjusted R Square ,845 ,846 Std. Error of the Estimate 3,072 3,068 a. Predictors: (Constant), cylrec = 1 | cylrec = 2 (FILTER), Model Year (modulo 100), Country of Origin, Time to Accelerate from 0 to 60 mph (sec), Vehicle Weight (lbs. ), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) b. Predictors: (Constant), cylrec = 1 |
cylrec = 2 (FILTER), Model Year (modulo 100), Country of Origin, Vehicle Weight (lbs.), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) A program két lépésben jutott az optimális modellhez! A kialakított többváltozós lineáris regressziós összefüggés magyarázóereje 84,9%, másképpen, az optimális modellben szereplő magyarázó változók együttesen 84,9%-ban határozzák meg az eredményváltozó (mpg) szóródását! Variancia analízis tábla: ANOVAc Model 1 2 Regression Residual Total Regression Residual Total Sum of Squares 19836,918 3538,062 23374,980 19836,851 3538,129 23374,980 df 8 375 383 7 376 383 Mean Square 2479,615 9,435 F 262,815 Sig. ,000a 2833,836 9,410 301,154 ,000b a. Predictors: (Constant), cylrec = 1 | cylrec = 2 (FILTER), Model Year (modulo 100), Country of Origin, Time to Accelerate from 0 to 60 mph (sec), Vehicle Weight (lbs.), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) b. Predictors:
(Constant), cylrec = 1 | cylrec = 2 (FILTER), Model Year (modulo 100), Country of Origin, Vehicle Weight (lbs.), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) c. Dependent Variable: Miles per Gallon 28 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás A táblából leolvasható az F statisztika értéke, mely az 1. lépésben kialakított modell esetében 262,815, a második lépésben kialakított (optimális) modell esetében 301,154. Mindkét esetben a szignifikancia szint értéke (utolsó oszlop adatai) 0,00. Ami azt jelenti, hogy a kialakított lineáris regressziós összefüggés megbízhatónak tekinthető. A regresszió egyenlet paraméterei: Coefficientsa Model 1 2 (Constant) Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 100) Country of Origin Number of Cylinders cylrec = 1 | cylrec = 2 (FILTER) (Constant)
Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Model Year (modulo 100) Country of Origin Number of Cylinders cylrec = 1 | cylrec = 2 (FILTER) Unstandardized Coefficients B Std. Error -3,271 4,725 Standardized Coefficients Beta t -,692 Sig. ,489 ,018 ,007 ,241 2,526 ,012 -,035 -,006 ,013 ,001 -,171 -,629 -2,581 -9,321 ,010 ,000 ,008 ,094 ,003 ,085 ,933 ,726 1,304 -1,720 ,047 ,262 ,345 ,342 ,133 -,374 15,295 4,976 -4,981 ,000 ,000 ,000 -5,138 ,840 -,291 -6,113 ,000 -3,111 4,324 -,719 ,472 ,018 ,007 ,240 2,530 ,012 -,035 -,006 ,725 1,305 -1,722 ,011 ,001 ,047 ,262 ,344 -,175 -,626 ,342 ,133 -,375 -3,285 -10,521 15,350 4,988 -5,003 ,001 ,000 ,000 ,000 ,000 -5,137 ,839 -,291 -6,121 ,000 a. Dependent Variable: Miles per Gallon A többváltozós lineáris egyenletet a következő általános formával közelítjük: ŷ = b 0 + b1 x 1 + b 2 x 2 +.+ b p x p Az egyenlet „b” paramétereit a fenti táblázat „B” oszlopa
tartalmazza. A 2-es számú (optimális) modellt tekintve tehát a regresszió egyenlete a következő: Ŷ=-3,11+0,018*x1-0,035x2-0,006x3+0,725x4+1,305x6-1,722x7-5,137x8 Értelmezés: b1=0,018: Minden egyéb változatlansága mellett, ha a motor térfogata 1 inch3-el nő akkor az üzemanyag hatékonyság átlagosan 0,018 mérföld/gallonnal nő. 29 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás b2=-0,035: Minden egyéb változatlansága mellett, ha az autó teljesítménye egy lóerővel nő, akkor az üzemanyag hatékonyság átlagosan 0,035 mérföld/gallonnal csökken. Stb. 30 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Az utolsó előtti oszlop „t” a változók szignifikanciájának tesztelésére szolgáló T-statisztika eredményét közli. Az eredmények a szignifikancia szinttel együtt (utolsó oszlop) világosabban értelmezhetők.
Amennyiben a szignifikancia szint közel van a nullához, akkor a változó szignifikáns hatást gyakorol az eredményváltozóra. Az általunk vizsgált változók mindegyikére igaz ez, kivéve a gyorsulás változót. Az 1-es modellnél láthatjuk, hogy a gyorsulás változó t-statisztikájának szignifikancia szintje 0,933, ami rendkívül magas. Ezért nem tekinthető szignifikáns magyarázó változónak. Ennek eredményeként a 2-es modellben már nem is jelenik meg. A többi változó szignifikancia szintje közelíti a nullát Egyedül a motor térfogat haladja meg a társadalomtudományi kutatásokban általánosan alkalmazott 0,05-ös szignifikancia szintet, de még így id jelentős hatást gyakorol az eredményváltozóra. Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás FELHASZNÁLT IRODALOM Köves Pál - Párniczky Gábor: Általános statisztika Tankönyvkiadó, Budapest, 1989 Hajdu - Pintér - Rappay -
Rédey: Statisztika Pécs, 1994 Korpás Attiláné dr.: Általános statisztika Nemzeti Tankönyvkiadó, 1996 Szarvas Beatrix - Sugár András: Példatár a Statisztika című tankönyvhöz Aula Kiadó, 1997 B. Kröpfl W Peschek-E Schneider-A Schönlieb: Alkalmazott statisztika Műszaki Könyvkiadó, Budapest, 2000 Hunyadi László-Vita László: Statisztika közgazdászoknak Budapest, 2002 Szűcs István: Alkalmazott statisztika Budapest, 2002 32 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás GYAKORLÓ FELADATOK 1. feladat 30 véletlenszerűen kiválasztott termelőszövetkezetben 1997-ben a kukorica termésátlaga (t/ha), a felhasznált műtrágya mennyisége (hatóanyag q/ha) és az öntözéshez felhasznált víz mennyisége (m3/ha) következőképpen alakult: Sorszám 1. 2. 3. . . . 28. 29. 30. Összesen Termésátlag (Y) 15,4 8,8 7,2 . . . 10,0 8,2 9,0 Műtrágya (X1) 4,8 2,8 2,0 . . . 3,5 3,0 3,1 Öntözés
(X2) 2.014 1.200 1.000 . . . 1.640 1.259 1.200 Feladat: 1. Becsülje meg és értelmezze a lineáris regresszió paramétereit, tesztelje le, szignifikánsak-e a magyarázó változók! 2. Számítsa ki és értelmezze a különböző korrelációs és determinációs együtthatókat! 3. Elemezze a regressziós modell megbízhatóságát! Számítási részeredmények: 84,4 37463 30 X * X = 84,4 257,02 110722 37463 110722 50701341 b0 −1 b = b1 = ( X * X ) X y b2 (X * X ) 33 −1 259,7 X * y = 775,1 342969,9 s=0,612 sy=2,1054 0,532242 − 0,090476 − 0,000196 = − 0,00011 0,081068 0,0000004 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 2. feladat 20 kísérleti parcellán – azonos minőségű földterületen – elemezték a búzatermelés alakulását. A következő
számszerű értékek adódtak: Y: termésátlag (t/ha) X1: felhasznált növényvédőszer mennyisége (kg/ha) X2: átlagos munkaidő-ráfordítás (óra/ha) 1,900 b = 0,019 0,056 (X * X ) −1 13,6400 = − 0,0366 0,0036 − 0,1537 − 0,0011 0,0024 se = 0,2865 Feladat: a) Értelmezze a regressziós együtthatókat! b) Vizsgálja meg a paraméterek szignifikanciáját (α = 5%)! c) Határozza meg és értelmezze a 80 órás munkaidő-ráfordításhoz tartozó parciális rugalmassági együtthatót (X1 = 50)! 3. feladat Egy szálloda vezetése arra kíváncsi, mitől függ a vendégek szállodában töltött napjainak száma. Ezért 40 véletlenszerűen kiválasztott vendéget megkérdeznek a következőkről: Y: X1: X2: X3: a szállodában töltött napok száma évente átlagosan mennyit költ nyaralásra ($ /fő) hányadszor van Magyarországon 1 − OECD országból érkezett 0 − egyéb országból
érkezett A lineáris regresszió-számítás néhány részeredménye: 0,264513 − 0,000309 0,0000979 −1 (X * X ) = − 0,0403706 0,00000533 0,0131548 − 0,020513 − 0,00003106 − 0,007735 0,105597 0,78 0,02 b= 3,07 − 2,08 1 400 [1 400 1 1]( X * X )−1 = 0,134 1 1 ∑e 2 = 24,3566 Feladat: a) Értelmezze a becsült paramétereket! b) Határozza meg a paraméterek becslésének p-értékeit! c) Becsülje meg 95%-os megbízhatósággal egy olyan turista tartózkodási idejét, aki Ausztriából érkezett, évente kb. 400 $-t költ nyaralásra és először jött Magyarországra nyaralni! 34 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 4. feladat 40 véletlenszerűen kiválasztott 1994-es külföldi utazás jellemzői: Y: X1: X2: Utazás ára (Ft) Utazás hossza (km)
Időtartam (nap) X3 Utazás módja: X4 X3 = 0 ; X4 = 0 - autóbusz X3 = 1 ; X4 = 0 - repülő X3 = 0 ; X4 = 1 - autóbusz és repülő s = 18.765 Néhány számítási eredmény: Y = -14.698 + 7,28 X1 + 3164 X2 + 17712 X3 + 25384 X4 t-értékek: (6,58) (2,99) (2,29) (2,36) p-értékek: (0,0000) (0,005) (0,028) (0,024) Feladat: a) Értelmezze a becsült paramétereket! b) Értelmezze a paraméterek szignifikanciájának p-értékeit! c) Becsülje meg 95%-os megbízhatósággal,hogy a 2.000 km-es, 5 napos, repülővel történő −1 utazások mennyibe kerülnek átlagosan, ha ismert, hogy x0 ( X * X ) x 0 = 0,174 5. feladat Egy szabadidő park 40 napon keresztül figyeli az alábbi változók értékét: Y: Látogatók száma, fő X1: Hőmérséklet Co X2: 0, ha hétköznap, 1, ha hétvége volt X3 = 0, X4 = 0 ha sütött a nap X3 = 0, X4 = 1 ha borult volt, de nem esett X3 = 1, X4 = 0 ha esett A becslések néhány eredménye: Yˆ = 384 + 124X1 + 401X2 – 274X3 – 361X4 ( X
* X )−1 0,000251 − 0,00139 0,132895 = − 0,00409 − 0,00923 0,126939 − 0,00296 0,009297 0,022967 0,097312 − 0,00131 0,00678 0,001169 0,04151 0,081221 SSR = 13372617 35 SSE = 414984 d = 1,89 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Feladat: a) Értelmezze a regressziós paramétereket! b) Tesztelje külön-külön 5%-os szignifikancia-szinten a tényezőváltozó szignifikáns különbözőségét a 0-tól! c) Számítsa ki és értelmezze a többszörös korrelációs együtthatót! d) Tesztelje le 5%-os szignifikancia-szinten, elfogadható-e az a nullhipotézis, hogy a rezidumok autokorrelálatlanok a reziduális autokorrelációval szemben! 6. feladat Egy vállalatnál azt vizsgálták, hogy milyen tényezők befolyásolják a kereset alakulását. Ennek érdekében megvizsgálták 45 dolgozó esetén az órabér és az azt befolyásoló
legfontosabb tényezők alakulását. A felmérés eredménye az alábbi táblában látható: Órabér (Ft/ó) 188 157 165 124 139 165 158 224 169 114 160 154 150 130 198 159 154 174 126 162 181 146 152 36 Munkahelyen eltöltött idő (év) 25 16 30 5 12 17 10 24 17 6 11 27 14 7 31 16 16 17 7 12 26 10 7 Kor (év) 45 45 51 39 31 34 31 44 45 25 48 46 30 23 56 33 32 35 44 29 46 47 30 Nem Szakképz. Órabér (1 – van, (Ft/ó) 0 – nincs) 1 0 0 0 0 0 0 1 1 1 0 1 1 1 1 0 0 1 0 0 1 0 1 1 0 0 0 0 1 1 1 1 0 0 0 0 0 1 1 0 0 0 1 1 0 1 171 142 150 156 154 176 137 130 155 234 200 228 161 148 127 195 237 163 201 137 233 180 Munkahelyen eltöltött idő (év) 9 7 10 15 20 25 13 7 7 33 25 24 16 5 2 22 27 21 18 5 27 15 Kor (év) Nem Szakképz. (1 – van, 0 – nincs) 36 26 26 28 41 43 42 23 44 52 42 44 33 43 20 39 40 46 41 23 45 42 1 1 0 0 0 1 0 0 0 1 1 1 0 0 0 1 1 0 1 1 1 1 1 0 0 0 0 1 0 0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 Üzleti Statisztika és Előrejelzési Tanszék
Többváltozós korreláció- és regressziószámítás The regression equation is ORABER = 105 + . MUELIDO + 0224 KOR + NEM + SZAKKEPZ Predictor Constant MUELIDO KOR NEM SZAKKEPZ Coef 105.05 2.2585 0.2238 . 21.977 s = . Stdev 10.72 . 0.3536 5.277 4.952 R-sq = 78.3% t-ratio 9.80 5.48 . 1.55 . p 0.000 0.000 0.530 0.129 0.000 R-sq(adj) = . Analysis of Variance SOURCE Regression Error Total DF . . SS MS 8268.7 . . 42245.2 F p 36.07 0000 MTB > Stepwise ORABER MUELIDO-SZAKKEPZ; SUBC> FEnter 4.0; SUBC> FRemove 4.0 Stepwise regression of ORABER on 4 predictors, with N = 45 STEP CONSTANT MUELIDO T-RATIO 1 2 118.7 1113 2.96 8.45 SZAKKEPZ T-RATIO S R-SQ 2.58 8.97 24.3 5.15 19.2 62.39 15.2 76.93 MTB > Stepwise ORABER MUELIDO-SZAKKEPZ; SUBC> Enter MUELIDO-SZAKKEPZ; SUBC> FEnter 4.0; SUBC> FRemove 4.0 37 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Stepwise regression of ORABER on 4
predictors, with N = 45 STEP CONSTANT 1 105.0 2 111.0 MUELIDO T-RATIO 2.26 5.48 KOR T-RATIO 0.22 0.63 NEM T-RATIO 8.2 1.55 7.5 1.46 SZAKKEPZ T-RATIO 22.0 4.44 22.1 4.50 24.3 5.15 15.1 78.29 15.0 78.08 15.2 76.93 S R-SQ 2.44 8.10 3 111.3 2.58 8.97 Feladat: 1. Egészítse ki a hiányzó adatokat! 2. Értelmezze a regresszió-függvény paramétereit! 3. Becsülje meg annak a dolgozónak a várható keresetét, akinek a munkában −1 eltöltött ideje 15 év, 38 éves, férfi és szakképzetlen! ( x0 ( X * X ) x 0 = 0,159 ) 4. Milyen módszerrel történt a regresszió-függvény meghatározása? 5. Értelmezze az egyes lépéseket! 7. feladat Egy ingatlanközvetítő iroda adatai alapján 1996. októberében 20 véletlenszerűen kiválasztott budapesti öröklakás eladási ára (millió Ft), életkora (év) és területe (m2) az alábbi volt: Sorszám 1. 2. 3. 19. 20. 38 Eladási ár (mFt)-y 2,45 4,10 2,15 1,55 1,45 Terület (m2)-x1 48 55 71 . 53 54 Életkor
(év)-x2 2 2 3 . 40 78 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Feladat: a) Egészítse ki az alábbi számítógépes programrészletet a hiányzó adatokkal ! eladar = . + 0,0373 terület - életkor Predictor Constant Terület Életkor Coef . 0,0373 . se = R-sq = 64,0 % Stdev 1,083 . . t-ratio 0,69 2,55 -2,12 p 0,499 . 0,049 R-sq (adj) = . % Analysis of Variance SOURCE Regression Error Total DF . . . SS 19,0732 . 29,8103 MS . . F . . - 0,02448 - 0,01241 (X X) = - 0,02448 . 0,00015 - 0,01241 0,00015 0,00015 * -1 p 0,000 b) Becsülje meg 95 %-os megbízhatósággal azoknak a lakásoknak a várható eladási árát, amelyek 15 évvel ezelőtt épületek és alapterületük 70 m2 ! (x0 (X*X)-1 x0=0,023) c) Becsülje meg 95%-os megbízhatósággal egy olyan lakás várható eladási árát, amely 25 évvel ezelőtt épült és alapterülete 85 m2 ! (x0 (X*X)-1
x0=0,018) d) Határozza meg az elaszticitást a 15 éves életkorú lakásnál (x1=72) ! e) Határozza meg és értelmezze az ry1 és az ry1 2 korrelációs együtthatókat ! MTB > Correlation ’eladar’ – ’eletkor’. eladar terulet terulet 0,738 eletkor -0,709 -0,639 f) Határozza meg a multikollinearitás mérőszámát! 8. feladat Egy kereskedelmi vállalat üzletkötői 1995-ös prémiumának alakulását vizsgálták és a következő befolyásoló tényezőket találták: x1: x2: x3: éves bér üzletkötések száma nem (nő = 0, férfi = 1) A vizsgálathoz 36 fő üzletkötő adatait használták, s a következő részeredményeket kapták: 39 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 1 0,69 1 R= 0,87 0,71 1 - 0,79 - 0,44 - 0,51 12,75750 - 0,93752 R -1 = - 7,43852 5,87228 1 2,11934 - 0,79907 6,57192 - 0,21566 - 2,87634 y = 7,801 +
0,19 x 1 + 349 x 2 − 13 511 x 3 4,07726 s( βˆ 3 ) = 1911 Feladat: a) Értelmezze a minőségi ismérvhez tartozó parciális regressziós együtthatót, valamint a minőségi ismérv és a prémium közti korrelációs együtthatót ! b) Számítsa ki és értelmezze az ry3 12 parciális korrelációs együtthatót ! c) Vizsgálja meg a minőségi ismérvhez tartozó paraméter szignifikanciáját (szignifikancia szint 5%) és határozza meg a p értékét ! 9. feladat 50, gazdasági tevékenységet folytató KKV-ra vonatkozó adatok felhasználásával vizsgálták az egy főre jutó árbevétel (Y), az egy főre jutó gépek, berendezések értéke (X1) és az egy főre jutó havi átlagkeresetek (X2) közti kapcsolatot. A korrelációs mátrix: 1 R = 0,85 1 0,63 0,28 1 Feladat: a) Határozzuk meg és értelmezzük a többszörös determinációs együtthatót és a parciális korrelációs együtthatókat! b) Mutassuk
be a többszörös determinációs együttható szerkezetét, jellemezzük a multikollinearitást az M mutatóval! 10. feladat Egy ingatlan ügynökségben megvizsgálták 25 véletlenszerűen kiválasztott ingatlan esetén, hogy milyen tényezők befolyásolják az eladási árat. 40 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Az alábbi változókat vették figyelembe: eladar: eladási ár (USD) lakassza: lakások száma (db) epeletko: az építmény életkora (év) telekmag: teleknagyság (négyzetláb) parkolo: belső parkolóhelyek száma (db) brterule: az épület összes területe (négyzetláb) Feladat: a) Mutassa be részletesen az optimális regresszió-függvény meghatározásának módját az alábbi példa alapján ! Írja fel a módszerben felhasznált hipotéziseket és próbafüggvényeket is ! STEP CONSTANT brterule T-RATIO lakassza T RATIO epeletko T-RATIO 1 57 211 20,4 18,58 2 59 539 14,5 7,82 5
376 3,64 3 114 456 15,0 10,38 5 017 4,3 -1 057 - 3,95 S R-SQ 53 996 93,75 43 629 96,10 33 833 97,76 b) Töltse ki az alábbi programrészlet hiányzó adatait ! The regression equaiton is Eladar = 92 379 + . lakassza epeletko + 1,04 teleknag + 2 692 parkolo + brterule Predictor Constant lakassza epeletko teleknag parkolo brterule Coef 92 379 - 851,4 2 692 se = 33.100 Analysis of Variance SOURCE DF Regression Error 24 Total 41 Stdev 2,866 1,457 t-ratio 3,23 2,76 0,36 1,71 10,68 p 0,004 0,721 R-sq = 98,1 % R-sq (adj) = .% SS 1,07379*1012 MS 2,10595 x 10 11 F p 0,000 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás Számítási részeredmények: (X * X) -1 . 0,019795 - 0,005952 - 0,000056 0,019795 0,002015 - 0,000092 - 0,000002 - 0,005952 - 0,000092 0,000081 0,000000 = - 0,000056 - 0,000002 0,000000 . - 0,017324 - 0,000718 0,000167 0,000001 - 0,000010 -
0,000002 0,000000 0,000000 - 0,017324 - 0,000010 - 0,000718 - 0,000010 0,000167 0,000000 0,000001 0,000000 . 0,000000 0,000000 . c) Becsülje mg egy olyan ingatlan eladási árát, amelyben 5 lakás található, a bruttó területe 1500 négyzetméter, az ingatlan 10 éve épült és minden lakáshoz 2 parkolóhely tartozik, a hozzá tartozó telek viszont csak 250 m2 ! (x0 (X*X)-1 x0=0,018 d) Mennyi az elaszticitás az előző paraméterek mellett 10 lakásos ingatlan esetén ? 11. feladat Egy elemzés során azt vizsgálták, hogy mely tényezők befolyásolják az építőipari beruházások idejének alakulását. Az elemzés során figyelembe vett változók az alábbiak voltak: beruhert – a beruházás értéke (m USD) rosszido – a munkavégzésre nem megfelelő munkanapok száma esemeny – volt-e az építkezést gátló esemény (1-volt, 0-nem volt) panelalany – az épület anyaga (1-panel, 0-nem panel) munkassz – az
építkezésen dolgozó munkások száma Mutassa be részletesen az optimális regresszió-függvény meghatározásának módját az alábbi példa alapján! Írja fel és értelmezze a módszerben felhasznált hipotéziseket és próbafüggvényeket valamint az optimális regresszió-függvényt! 42 STEP CONSTANT beruhert T-RATIO rosszido T-RATIO esemeny T-RATIO munkassza T-RATIO panelany T-RATIO 1 15,7 0,362 6,82 1,79 2,85 24,1 3,13 -0,32 -0,71 -0,1 -0,02 2 14,97 0,362 6,97 1,79 2,94 24,0 3,21 -0,30 -0,73 3 12,1 0,360 7,00 1,76 2,93 23,8 3,20 S R-SQ 13,6 88,14 13,3 88,10 13,2 87,89 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás 12. feladat Egy játékgyár kíváncsi arra, hogy hány napig játszanak a gyerekek a legújabb pingvinjátékkal, ezért 25 véletlenszerűen kiválasztott gyermek szüleit megkérik, írják meg a gyárnak, mikor dobják el a pingvint. A napok számán túl az is érdekli a
vállalatot, milyen tényezők befolyásolják a játék használati idejét. A megfigyelt szempontok: y: a játék használati ideje (nap) x1: a gyermek életkora (év) x2: a gyermek neme: 1 – fiú, 0 -lány Néhány számítási eredmény: 1,068310 - 0,09768 (X X) = - 0,09768 0,009687 - 0,11401 0,003042 * -1 - 0,11401 478 * -1 * 0,003042 (X X) X y = - 24 199 0,161212 Σe 2 = 619035 Σd 2y = 946 784 Feladat: a) Írja fel a regressziós egyenes egyenletét, értelmezze a paramétereket ! b) Ellenőrizze 95%-os biztonsággal a H0:β1 = β2 = 0 nullhipotézist ! c) Ellenőrizze le a β2 paraméter szignifikanciáját, értelmezze a kapott eredményeket ! d) Becsülje meg azon játékok átlagos használati idejét, melyet 5 éves fiúknak ajánlottak ! (x0 ⋅ X * X -1 ⋅ x0 = 0,2) 13. feladat 20 európai ország adatai alapján elemezték a várható átlagos élettartamra ható tényezőket. A vizsgált
összefüggés néhány részeredménye: y várható átlagos élettartam (év) x1 halálozási arányszám (0/00) x2 egy főre jutó GDP ($) x3 egy főre jutó napi átlagos kalória-fogyasztás Feladat: a) Határozza meg és értelmezze az ry3 12 parciális korrelációs együtthatót ! 4,7102 2,1827 2,2340 R -1 = - 2,8300 - 0,9490 3,3149 - 0,0500 - 0,2400 0,8399 1,5461 43 Üzleti Statisztika és Előrejelzési Tanszék Többváltozós korreláció- és regressziószámítás b) Tesztelje le az alábbi regressziós modell megbízhatóságát (α = 5%) ! y = 78 - 0,67 x 1 + 0,0002 x 2 + 0,00018 x 3 c) Értelmezze az alábbi programrészletet, írja fel a szükséges hipotéziseket és próbafüggvényeket is, valamint az optimális regresszió-függvényt ! STEP CONSTANT X1 T-RATIO X2 T-RATIO X3 T-RATIO 1 78 -0,67 -18,58 0,0002 4,21 0,00018 1,64 2 74 -0,6715 -10,38 0,00024 2,14 3 71 -0,87 -,5,78 S R-SQ 5,3996 73,75 4,3629 75,1
4,1217 75,12 14. feladat Egy kísérleti oktatásban részesülő tankör esetén megvizsgálták a Statisztika III. zárthelyi dolgozat eredményeit és azt tapasztalták, hogy az oktatási módszer megválasztása mellett egyéb tényezők is befolyásolják a dolgozat eredményét. Az alábbi tényezőket vették figyelembe: zhpont a dolgozat pontszáma (pont) nem a hallgató neme (1 = nő; 0 = férfi) oktatas az oktatás módszere (1 = számítógépes; 0 = hagyományos) stat2 a Statisztika II. tantárgy eredménye gyak.ido az egyéni gyakorlásra fordított idő (óra) Feladat: a) Egészítse ki az alábbi számítógépes programrészletet a hiányzó adatokkal ! zhpont = 19,7 + . nem + oktatas + 1,70 stat2 + gyakido Predictor Constant nem oktatas stat2 gyak.ido se = 8,228 44 Coef 19,471 1,837 4,051 . . Stdev 5,385 . 3,033 . . t-ratio 3,67 0,54 . 0,98 2,27 p 0,001 0,592 . 0,335 0,030 R-sq = . % R-sq (adj) = 37,2% Üzleti Statisztika és Előrejelzési Tanszék
Többváltozós korreláció- és regressziószámítás Analysis of Variance SOURCE DF . Regression . Error 38 Total SS . . 4098,92 MS . . 0,084604 0,014868 0,428234 0,084604 0,170235 - 0,034906 * -1 (X X) = 0,014868 - 0,034906 0,135854 - 0,080078 - 0,040956 0,007306 - 0,012191 - 0,001027 - 0,005789 F . p 0,000 - 0,080078 - 0,012191 - 0,040956 - 0,001027 0,007306 - 0,005789 0,044658 - 0,004612 - 0,004612 0,002353 b) Becsülje meg 95%-os megbízhatósággal annak a férfi hallgatónak a várható pontszámát, aki 15 órát készült a ZH-ra, hagyományos oktatásban részesült és Statisztika II-ből négyese volt ! (x0 (X*X)-1 x0 = 0,043) c) Határozza meg a zárthelyi pontszáma és a gyakorlási idő közötti korrelációs együtthatót! MTB > Covariance ’zhpont’-’gyak.ido’ zhpont nem oktatas stat2 gyak.ido 45 zhpont 107.86639 2.23279 2.22874 5.51417 27.38461 nem oktatas stat2 gyak.ido 0.25506
0.08907 0.31781 0.95344 0.24831 0.13563 0.91565 1.13765 2.70243 19.15115 Üzleti Statisztika és Előrejelzési Tanszék