Tartalmi kivonat
Tátrainé Körmendy E. Katalin STATISZTIKA Készült a HEFOP 3.31-P-2004-09-0102/10 pályázat támogatásával Szerző: Tátrainé dr Körmendy E. Katalin főiskolai docens Lektor: Szalka Éva egyetemi docens Tátrainé Körmendy E. Katalin, 2006 Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok A dokumentum használata Vissza ◄ 3 ► A dokumentum használata Mozgás a dokumentumban A dokumentumban való mozgáshoz a Windows és az Adobe Reader megszokott elemeit és módszereit használhatjuk. Minden lap tetején és alján egy navigációs sor található, itt a megfelelő hivatkozásra kattintva ugorhatunk a használati útmutatóra, a tartalomjegyzékre, valamint a tárgymutatóra. A ◄ és a ► nyilakkal az előző és a következő oldalra léphetünk át, míg a Vissza mező az utoljára megnézett oldalra visz vissza bennünket. Pozícionálás a könyvjelzőablak segítségével A bal oldali könyvjelző ablakban
tartalomjegyzékfa található, amelynek bejegyzéseire kattintva az adott fejezet/alfejezet első oldalára jutunk. Az aktuális pozíciónkat a tartalomjegyzékfában kiemelt bejegyzés mutatja. A tartalomjegyzék használata Ugrás megadott helyre a tartalomjegyzék segítségével Kattintsunk a tartalomjegyzék megfelelő pontjára, ezzel az adott fejezet első oldalára jutunk. Keresés a szövegben A dokumentumban való kereséshez használjuk megszokott módon a Szerkesztés menü Keresés parancsát. Az Adobe Reader az adott pozíciótól kezdve keres a szövegben A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 3 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Bevezetés Vissza ◄ 4 ► Tartalomjegyzék 1. Bevezetés 7 1.1 A statisztika fogalma 7 1.2 Alapfogalmak 7 1.3 Összefoglalás 22 2. Viszonyszámok 25 2.1 A dinamikus (= időbeli) viszonyszám 26 2.2 A területi viszonyszám 29 2.3 A megoszlási
viszonyszám 32 2.4 Az intenzitási viszonyszám 35 2.5 Gyakorló feladatok 38 2.6 Összefoglalás 43 2.7 Mintapéldák korábbi vizsgadolgozatokból 44 3. Középértékek 47 3.1 A középértékek fogalma 47 3.2 A számtani átlag 48 3.3 A mértani átlag 53 3.4 A négyzetes átlag 55 3.5 A harmonikus átlag 56 3.6 Módusz 57 3.7 Medián 59 3.8 Gyakorló feladatok 63 3.9 Összefoglalás 66 3.10 Mintapéldák korábbi vizsgadolgozatokból 69 4. Szóródás 77 4.1 A szóródás fogalma 77 4.2 A szóródás legfontosabb mutatói 77 4.3 Gyakorló feladatok 85 4.4 Összefoglalás 85 5. A gyakorisági görbék (eloszlások) alakjának vizsgálata 86 5.1 Szimmetria – aszimmetria 86 5.2 Csúcsosság – lapultság 90 5.3 Gyakorló feladatok 90 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 4 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Bevezetés Vissza ◄ 5 ► 5.4 Összefoglalás 91 6. A koncentráció 92
6.1 Fogalma, fajtái, kimutatása, mérése 92 6.2 Gyakorló feladatok 98 6.3 Összefoglalás 99 7. Az ismérvek közötti kapcsolat100 A sokaságok egyszerre több ismérv szerinti vizsgálata .100 7.1 Asszociáció 103 7.2 Vegyes kapcsolat 109 7.3 Korrelációs kapcsolat 115 7.4 Gyakorló feladatok 119 7.5 Összefoglalás 122 7.6 A 4, 5, 6, 7 fejezetek tartalmához kapcsolódó mintapéldák korábbi vizsgadolgozatokból .123 8. Standardizálás 129 8.1 Bevezetés129 8.2 A standardizálás – elméleti összefoglalás 131 8.3 Gyakorlati alkalmazás135 8.4 Gyakorló feladatok 144 8.5 Összefoglalás 148 8.6 Mintafeladatok korábbi vizsgadolgozatokból 149 9. Ár-, érték-, volumenindex-számítás 154 9.1 Bevezetés154 9.2 Egyedi elemzések 154 9.3 Összevont (együttes, átlagos) elemzések 159 9.4 Az ár-, érték-, volumenindexek felhasználási lehetőségei 166 9.5 Kiegészítés 173 9.6 Gyakorló feladatok 178 9.7 összefoglalás 180 9.8 Mintafeladatok korábbi
vizsgadolgozatokból 183 10. Becslés 187 10.1 Bevezetés187 10.2 Becsült sokasági jellemzők195 10.3 Gyakorló feladatok 229 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 5 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Bevezetés Vissza ◄ 6 ► 10.4 Összefoglalás 232 10.5 Mintapéldák korábbi vizsgadolgozatokból235 11. Hipotézisellenőrzés = statisztikai próbák 240 11.1 A hipotézisellenőrzés alapfogalmai 241 11.2 A hipotézisellenőrzés menete 247 11.3 Statisztikai próbák248 11.4 Gyakorló feladatok 277 11.5 Összefoglalás 284 11.6 Mintapéldák korábbi vizsgadolgozatokból287 12. Az idősorok elemezése 292 12.1 Bevezetés292 12.2 Trendszámítás 294 12.3 A szezonhatás vizsgálata312 12.4 A véletlenhatás vizsgálata 319 12.5 Előrejelzés321 12.6 Záró példa324 12.7 Gyakorló feladatok 335 12.8 Összefoglalás 337 12.9 Mintapéldák korábbi vizsgadolgozatokból339 13. Korreláció-,
regresszió-számítás 344 13.1 Bevezetés344 13.2 Kétváltozós elemzések345 13.3 Háromváltozós elemzések376 13.4 Gyakorló feladatok 407 13.5 Összefoglalás 412 13.6 Mintapéldák korábbi vizsgadolgozatokból416 Táblázatok. 422 Felhasznált irodalom:. 435 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 6 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Bevezetés Vissza ◄ 7 ► 1. Bevezetés 1.1 A statisztika fogalma A bennünket körülvevő világ1 megismeréséhez igen sokféle adat (= információ) összegyűjtésére, rendszerezésére, feldolgozására, elemzésére van szükségünk. Ezeket a feladatokat végzi el a statisztika Ebből a szempontból nézve, a statisztika gyakorlati tevékenység. Ahhoz, hogy az összegyűjtött adatokból valóban használható eredményeket kapjunk, és azokból helyes következtetéseket vonjunk le, munkánkat elméletileg is meg kell alapozni. Az alkalmazott
módszereket és az eljárási szabályokat az elméleti statisztika foglalja össze. A statisztika ebből a szempontból nézve tudomány. Végül a statisztika magát az összegyűjtött és rendezett adathalmazt is jelenti2. 1.2 Alapfogalmak 1.21 Sokaság Sokaságnak nevezzük azoknak az egyedeknek az összességét (= halmazát), melyekre az adatgyűjtés irányul. A sokaságokat különböző szempontok szerint csoportosíthatjuk A legfontosabb megkülönböztetés: • álló sokaság; • mozgó sokaság. Az álló sokaság állományjellegű, időpillanatra vonatkozik. (pl: egy ország lakossága a népszámlálások idején3, egy felsőoktatási intézmény hallgatói a beiratkozások idején.) A mozgó sokaság folyamatot tükröz, időtartamra vonatkozik. (pl: egy bolt forgalma egy hónap alatt4, egy gyár termelése egy félév alatt, egy család kiadásai egy év alatt.) 1 A bennünket körülvevő világ = természet, társadalom, gazdaság. Szokás még magukat az
alkalmazott képleteket (függvényeket) is statisztikának nevezni. 3 Népszámlálások ideje = az év egy rögzített napja (pl. január 1) Akkor is ennek a napnak az adatait veszik fel a számláló biztosok, ha nem ezen a napon kopogtatnak be egyegy lakásba 4 A napi forgalom összesíthető hetente, havonta, negyedévente, évente. 2 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 7 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Bevezetés Vissza ◄ 8 ► További – az irodalomjegyzékben felsorolt, a témát részletesebben taglaló tankönyvekben megtalálható – szempontok alapján beszélhetünk: 1. diszkrét (= elemeik jól elkülöníthetőek) és folytonos (= elemeiknek elkülönítéséről gondoskodni kell); 2. egynemű (= elemeiknek csak közös tulajdonságai vannak) és összetett (= elemeiknek nemcsak közös, hanem megkülönböztető tulajdonságai is vannak); 3. véges (= elemeik
megszámlálhatóak) és végtelen (= elemeik nem megszámlálhatóak); 4. fő (= az összetett sokaság egésze) és rész (= az összetett sokaság valamilyen szempont alapján elkülönített részei); stb sokaságokról is 1.22 A sokasági egység A sokaság egy-egy tagját, elemét sokasági egységnek nevezzük. A sokaság egységei vagy természetükből fakadóan elkülönülnek, vagy a megfigyelés érdekében a statisztikai munkát végzők alakítják ki az elkülöníthető egységeket. A statisztikai munkában betöltött szerepük szerint az egységeknek két típusát különböztetjük meg: • megfigyelési, • számbavételi. Adatgyűjtésünk a megfigyelési egységre (pl.: egy város lakói, egy mezőgazdasági termelő állatállománya, egy gyár termelése) vonatkozik, kérdéseinket pedig a számbavételi egységhez (pl.: egy város lakói5, egy mezőgazdasági termelő6, a gyár statisztikusai, munkaügyi stb. dolgozói7) intézzük 1.23 Ismérv Azokat a
tulajdonságokat, melyek alapján a megfigyelt egységek egy sokaságot képeznek, vagy éppen elkülönülnek, ismérveknek nevezzük. Az ismérvek típusai • • • • • • közös, megkülönböztető; időbeli, területi, mennyiségi, minőségi. 5 A város lakói a rájuk vonatkozó adatokat meg tudják mondani. A mezőgazdasági termelő képes adatokat szolgáltatni állatállományáról stb. 7 A gyár termeléséről és egyéb adatairól egyes – ezzel a feladattal megbízott – dolgozók tudnak nyilatkozni. 6 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 8 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Bevezetés Vissza ◄ 9 ► A közös ismérv a sokaság minden elemét jellemzi, azok éppen ezek alapján tartoznak a sokasághoz. A megkülönböztető ismérv a sokaság elemeinek csak egy-egy részét jellemzi, részsokaságok képzésére ad lehetőséget (pl.: Egy egyetem hallgatóinak közös
tulajdonsága, hogy az adott időpontban, az adott intézménybe beiratkoztak; hallgatói jogviszonnyal rendelkeznek; de nem mind ugyanabban a városban vagy községben születtek, más középiskolákban tanultak, más szakterületet választottak stb) Az időbeli ismérvek időpontokat vagy időszakokat jelölnek; a területiek földrajzi megkülönböztetést fejeznek ki; a mennyiségiek műveletek végzésére alkalmas számok, a megfigyelt egységek nagyságát, méretét, kapacitását adják meg, ismérvváltozataik diszkrétek8, ill. folytonosak9; a minőségi ismérvek változatai pedig szavakkal megfogalmazható tulajdonságok (Példák a felsorolás sorrendjében: születési dátum, az érettségi megszerzésének éve; születési hely, állandó lakóhely; testmagasság (cm; folytonos), ösztöndíj (forint; folytonos), egy tanuló kötelező iskolai elfoglaltságának mennyisége (óra; diszkrét), testvéreiknek száma (fő; diszkrét), a félév végén leteendő
vizsgáik (db; diszkrét) stb.; • családi állapota, foglalkozása, iskolai végzettsége stb.) • • • Akármelyik eddig felsorolt ismérvről is van szó, annak vannak változatai, azaz lehetséges kimenetei. Például: a hallgatók születési ideje (= időbeli ismérv): 1980, 1981, 1982 stb., születési helyük (= területi ismérv): Budapest, Győr, Szeged stb.; testmagasságuk (= mennyiségi ismérv): 160 – 165, 165 – 170 cm stb.; szakterületük (= minőségi ismérv): mérnök, közgazdász, jogász stb Az ismérvváltozatok, a folytonos mennyiségi ismérveket – ezeket osztályközökbe, azaz „tól – ig” határok közé szokás sorolni – kivéve, jól elkülöníthetők. Az ismérvek különleges csoportját alkotják az un alternatív ismérvek, melyeknek mindig csak két10 változata van. 8 Ha az egyes ismérvváltozatokhoz tartozó előfordulásokat ábrázoljuk a koordináta rendszerben (lásd: későbbi fejezetekben), akkor a vízszintes tengely
nem minden pontjához tudunk előfordulásokat rendelni. 9 Ha az egyes ismérvváltozatokhoz tartozó előfordulásokat ábrázoljuk a koordináta rendszerben (lásd: későbbi fejezetekben), akkor elméletileg a vízszintes tengely minden pontjához tudunk előfordulásokat rendelni. 10 Alternatív ismérvek: férfi – nő, kereső – eltartott. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 9 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Bevezetés Vissza ◄ 10 ► 1.24 Statisztikai adat A megfigyelt sokaság egy-egy elemének a vizsgálat tárgyát képező tulajdonságára vonatkozó aktuális értékét statisztikai adatnak nevezzük. A statisztikai adatok különböző szempontok alapján csoportosíthatóak Így vannak: • • • • • • szöveges és számszerű; abszolút relatív; eredeti és számított adatok. Szöveges adatok a szavakkal megfogalmazott ismérvváltozatok, melyek a könnyebb
feldolgozhatóság érdekében kódolhatóak. A számszerű adatok lehetnek abszolút jellegűek, melyek adatgyűjtésből származnak, vagy összegzéssel, különbségképzéssel, szorzással állíthatók elő és van mértékegységük; ill. relatív jellegűek, melyek két statisztikai adat hányadosaként állíthatók elő, és nem mindig van mértékegységük. Az eredeti, más néven alapadatok adatgyűjtésből származnak; a számított adatokat pedig különböző matematikai műveletek eredményeként nyerjük. A számított adatok kitüntetett csoportját alkotják a mutatószámok, melyeket rendszeresen, és mindig azonos tartalommal számítunk ki. • • • • • • (Példák a felsorolás sorrendjében: szöveges: férfi – nő, kereső – eltartott, a hallgatók korábbi iskoláinak listája stb. számszerű, abszolút: havi jövedelmek nagysága, egy ország lakóinak száma stb. számszerű, relatív: egy gyár termelésének növekedése %-ban; eredeti:
egy hallgató személyes adatai; számított: minden relatív számszerű adat; mutatószám: egy főre jutó GDP, egy ország népsűrűsége stb.) A számszerű adatokkal kapcsolatban szokás, különböző mérési-, elemzési szintekről11 is beszélni. Végül azt is fontos tudnunk, hogy a statisztikai adatok korlátozott pontosságúak, vagyis azt kell általánosnak tekintenünk, hogy a statisztikai adatgyűjtés eredményeképpen kapott adatok a valódi értéktől kisebb – nagyobb mértékben eltérnek. Ennek két oka van Szubjektív, az 11 Névleges: kizárólag megkülönböztetésre szolgáló számok (postai irányítószámok, házszámok); sorrendi (egy sportverseny helyezettjei); különbségi (arányuk nem értelmezhető; az egyes naptári napok középhőmérsékletének eltérései) és arány (az egyes hallgatók ösztöndíjainak hányadosa). A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 10 ► Statisztika Bevezetés A
dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 11 ► adatgyűjtést végző személyek nem pontos munkavégzése, nem megfelelő felkészítése; az esetleg nem egyértelmű kérdések, a válaszadás megtagadása stb. Ennek nagysága nem ismerhető meg, de mindent meg kell tennünk kisebbítése érdekében. Objektív, más néven véletlen hiba Ez az adatgyűjtés nem teljes-körű voltából adódik. Nagysága szabályos mintavétel esetén megismerhető (= becsülhető). A statisztikai adatok hibáját mind abszolút, mind relatív módon kifejezhetjük. (Példa a statisztikai kiadványokban közölt adatok hibájának számítására: Magyarország népessége 2004-ben 10.11712 ezer fő; • abszolút hiba13: a = ( A′ − A) = ±500 fő , • a relatív hiba pedig α = a 500 = ⇒ 0,004942% . A 10.117000 1.25 Statisztikai adatok rendezése = csoportosítása Az összegyűjtött illetve kiszámított statisztikai adatokat annak érdekében, hogy
azok áttekinthetőek legyenek, rendezni kell. A rendezés megszokott formái a statisztikai sorok (= az adatokat egyetlen szempont alapján csoportosítjuk) és a statisztikai táblák (= az adatokat egyszerre több szempont szerint csoportosítjuk). A statisztikai sorok fajtái az ismérvekhez kapcsolhatóak, ill. alkalmazzuk az un leíró sort, ez egyetlenegy sokasági egységre vonatkozó különböző jellegű, részben különböző mértékegységű adatokat sorakoztat fel. A statisztikai táblákat az azokban található összesen-rovatok száma alapján különböztetjük meg Az adatokból akár sorokat, akár táblákat alkotunk, bizonyos formai követelményeknek14 (lásd: 12 sz. tábla) is eleget kell tennünk Kérjük, tekintse át az alábbi példákat, majd az azokról készült rövid összefoglalót! 1.1 sz tábla Magyarország népessége , (ezer fő) év 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 adat 10.337 10321 10301 10280 10253 10222 10200 10175 10142
10117 adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – hosszú idősorok, 1. oldal) 12 Adatforrás: Magyar Statisztikai Évkönyv 2003 (KSH, 2004 – hosszú idősorok, 1. oldal) a = abszolút hiba, α = relatív hiba, A = tényleges adat (= amire kíváncsiak vagyunk), ′ A = közölt adat (= a statisztikai kiadványokban, jelentésekben) 14 A minta-táblából egyetlen formai kellék hiányzik, az összegrovat. 13 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 11 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 12 ► 1.2 sz tábla Az élveszületések száma Magyarországon (fő) A formai kellékek megnevezése15 év élveszületés cím, (mértékegység) 1995 112 054 1996 105 272 1997 100 350 1998 97 301 1999 94 645 2000 97 597 2001 97 047 2002 96 804 2003 94 647 2004 92 200*16 fejléc oldalrovat (ismérvváltozatok) megfigyelt adatok adatforrás: Magyar
statisztikai évkönyv 2003 (KSH, 2004 – hosszú idősorok, 1. oldal) 1.3 sz tábla A gazdaságilag aktív népesség néhány európai országban 2003 1.4 sz tábla Magyarország férfi lakossága életkor szerint 2004. jan 1 ország aktív népesség (ezer fő) korév17 lakosok (fő) Ausztria 3.876 0 47.936 Csehország 5.096 1 49.156 Dánia 2.858 2 49.570 Finnország 2.682 3 49.881 Franciaország 26.409 4 47.949 15 A közölt minta alapján a többi sor ill. tábla formai kellékei is azonosíthatóak Becsült adat. 17 Korév = valakinek az életkora az adott évben (adott év évszáma – születés évszáma) függetlenül attól, hogy a vizsgálat elvi időpontjában az illető már betöltötte-e az adott kort vagy sem. 16 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 12 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza Görögország 4.407 Hollandia 8.432 85
4.314 Írország 1.861 86 3.731 Lengyelország 16.946 87 3.214 Magyarország 4.166 . . összesen ◄ 13 ► 4.804113 adatforrás (1.3 sztábla): Magyar statisztikai évkönyv 2003 ((KSH, 2004 – nemzetközi adatok,555 oldal) adatforrás (1.4 sz tábla): Magyar statisztikai évkönyv 2003 (KSH, 2004 –népességi adatok,36 oldal) 1.5sz tábla Külföldi érdekeltségű vállalkozások18 saját tőke szerint, Magyao.-on 2003-ban saját tőke – 150 150,1 – 200 200,1 – 250 250,1 – 500 500,1 – 750 750,1 – (millió Ft) szervezetek 22.958 362 283 718 315 1.128 (db) adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – a gazdasági szervezetek adatai, 289. oldal) 1.6sz tábla A magyarországi közoktatási intézmények az ellátott feladatok típusa szerint, a 2003/2004 tanévben az intézmény jellege az intézmények száma (db) szakiskola 3 középiskola 99 középfokú iskola 163 általános iskola 335 óvoda 861 iskola + kollégium 390 óvoda +
iskola + kollégium 42 többcélú intézmény 297 összesen 2.190 adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – oktatási adatok, 226. oldal) 18 A tábla adatai nem tartalmazzák azokat a vállalkozásokat, ahol a külföldi részesedés 10 % alatti, ill. az un offshore vállalkozások számát A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 13 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 14 ► 1.7 tábla Írország fontosabb adatai, 2004 megnevezés mértékegység19 adat terület km2 70.283 népesség millió fő 3,96 % 94 a népesség összetétele ír angol 3 vallások katolikus anglikán % presbiteriánus 77 9 hivatalos nyelvek – ír, angol főváros – Dublin a főváros lakossága millió fő 1,0 államforma – köztársaság az alkotmány kihirdetése – 1937 az önállóság elnyerése – 1921 fő 166 a törvényhozás
létszáma képviselőház szenátus 60 GDP milliárd USD 152,1 GDP/fő USD 38.430 gazdasági növekedés előző évhez % + 1,8 infláció munkanélküliség pénznem % – + 2,8 4,8 euró adatforrás: Zsebvilág 2004, A Föld országai (HVG, 76. old) 19 A táblák (sorok) egyes rovataiban (celláiban) szereplő jelek: „–” = a rovatban nem szerepelhet adat; „.” = a rovatba tartozó adat ismeretlen; „000” = az adott nagyságrenden a rovatban nem szerepelhet adat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 14 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 15 ► 1.8 tábla Az 1.25 fejezetben szereplő statisztikai sorokhoz kapcsolódó fontosabb ismeretek sorszám típus tudnivalók röviden 1.1 állapot idősor Adatai többszörös halmozódást20 tartalmaznak, így azok összegzése értelmetlen. 1.2 tartam idősor Adatai összegezhetőek. ∑y 1.3 területi sor
14. mennyiségi sor diszkrét ismérvváltozat 1.5 1.6 1.7 mennyiségi sor folytonos ismérvváltozat minőségi sor leíró sor i = 987.917 fő21 = A vizsgált időszakban Magyarországon 987.917 gyermek született. Adatai összegzésének csak akkor lenne értelme, ha a felsorolt országok valamilyen egységet alkotnának. Adatai összegezhetőek. ∑y i = 4.804113 fő = 2004-ben Magyarországnak összesen 4.80411322 fő férfi lakosa volt Adatai összeadhatók, ∑y i = 425.754 db 2003-ban hazánkban összesen 425.754 külföldi érdekeltségű vállalkozás működött. A tábla adatai összeadhatók, ∑y i = 2.190 db A 2003/2004-es tanévben hazánkban 2.190 olyan közoktatási intézmény működött, ahol a gyermekek 3 és 1823 éves koruk között tanulhatnak. A Föld országainak sokaságából kiválasztottunk egy egységet (= Írország), és erre vonatkozóan közöltünk különböző jellegű adatokat. 20 Halmozódás = aki már a megfigyelés
első évében (1996) is élt, és a megfigyelés utolsó évében is (2004), azt kilencszer venné számításba az összegzés stb. 21 y = az időpontokhoz, időszakokhoz tartozó adatok statisztikai jelölése i 22 Ez az adat un. továbbvezetett népességszám Az előző (2001) népszámlálás adatait növelik a születések és bevándorlások adataival, ill. csökkentik a halálozások és az elvándorlások adataival 23 Az évismétlők ill. a felnőttképzésben résztvevők esetenként magasabb életkorúak is lehetnek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 15 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza ► 16 1.9 sz tábla Fontosabb népmozgalmi adatok, Magyarország terhességmegszakítás száz élveszületésre teljes termékenységi arány24 1949 11,7 válás ezer lakosra 1,4 0,9 2,54 1960 8,9 1,7 110,7 2,02 1970 9,3 2,2 126,7 1,97 1980 7,5 2,6 54,4 1,92
1990 6,4 2,4 71,9 1,84 2000 4,7 2,3 60,7 1,33 2001 4,3 2,4 58,1 1,31 2002 4,5 2,5 57,9 1,31 2003 4,5 2,5 56,8 1,28 év házasságkötés ezer lakosra adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – népmozgalmi adatok, 2. oldal) 1.10 sz tábla Országos (Magyarország) közúthálózat jelleg szerint (km) megnevezés 1990 1995 2000 2001 2002 2003 gyorsforgalmi utak autópálya 267 335 448 448 533 542 82 85 57 57 48 90 elsőrendű főút 1.888 2.055 2.713 2.713 2.164 2.177 másodrendű főút 4.499 4.390 4.330 4.330 4.346 4.337 115 159 242 251 276 286 autóút főutak gyorsforgalmi utak csomóponti ágai mellékutak összekötő út 17.527 17853 17916 17916 17958 17998 24 Teljes termékenységi arány = 1000 egy időben született leánygyermek élete folyamán (illetve a szülőképeskor felsőhatáráig – 49 év – eljutva) összesen hány gyermeket szül az adott év termékenységi arányszámának
feltételezése mellett. (Köves – Párniczky: Általános statisztika, KJK, 742 old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 16 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok bekötőút állomáshoz vezető út összesen ◄ Vissza 17 ► 4.810 4.680 4.646 4.651 4.638 4.609 553 516 495 496 497 497 29.741 30073 30307 30322 30460 30536 adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – szállítási adatok, 496. oldal) 1.11 tábla A magyarországi népesség nyelvismerete főbb korcsoportok szerint, 2001. febr.25 korcsoportok (év) nyelv26 – 14 15 – 39 40 – 59 60 – összesen magyar 1.690679 3.564984 2.842430 2.079130 10.177223 230 1.116 1.281 886 3.513 19.931 35.656 16.613 4.871 77.071 görög 351 2.503 1.318 987 5.159 horvát 2.626 13.699 13.557 12.667 42.549 lengyel 680 3.481 5.355 1.690 11.206 német 86.105 544.196 251.833
158.652 1.040786 72 215 141 73 501 román 2.603 44.447 28.226 19.445 94.721 ruszin 143 758 763 562 2.226 szerb 1.082 11.006 6.963 6.432 25.483 szlovák 3.090 11.721 17.843 28.010 60.664 szlovén (vend) 358 1.759 1.886 1.640 5.643 ukrán 925 6.229 4.510 2.325 13.989 1.694936 3.574493 2.842430 2.081559 10.198315 bolgár cigány (roma) örmény összesen adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – népességi adatok, 42. oldal) 25 26 Az eddigi utolsó népszámlálás bevallásai alapján. Csak a magyar és a bejegyzett hazai kisebbségek nyelvei. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 17 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 18 ► 1.12 sz tábla Az 1.25 fejezetben szereplő statisztikai táblákhoz kapcsolódó fontosabb ismeretek sorszám típus tudnivalók röviden 1.9 egyszerű Adatai sem függőleges, sem
vízszintes irányban nem összesíthetők. Függőleges irányban négy állapot idősort, vízszintes irányban pedig kilenc leíró sort tartalmaz27. 1.10 csoportosító Adatai csak függőleges irányban összesíthetők.28 Függőleges irányban hat minőségi sort, vízszintes irányban pedig kilenc állapot29 idősort tartalmaz30. 1.11 kombinációs Adatai mind függőleges, mind vízszintes irányban összeadhatók. Függőleges irányban öt minőségi sort, vízszintes irányban pedig tizenöt mennyiségi sort tartalmaz. A tábla utolsó sorának (= legalsó) és utolsó oszlopának (= jobb szélső) találkozásában a cella (= rovat) a főösszeg adatot tartalmazza.31 27 A tábla minden adata két statisztikai sorhoz tartozik, így a táblát szokás kétdimenziósnak nevezni. 28 Az összesen rovat adatai az egyes évek teljes közút hálózatának hosszát adják meg. 29 Állapot idősor, mert az egyik évben már meglévő út benne van a következő évi
úthosszban is. 30 A tábla adataiból részösszegek is képezhetők (autópálya + autóút = gyorsforgalmi út). Ha ezeket a részösszegeket is kiszámítottuk volna, akkor további három állapot idősorhoz jutottunk volna. 31 Példák az összesen rovat adatainak jelentésére: 1.694936 = 2001-ben Magyarországon egymillió-hatszázkilencvennégyezerkilencszázharminchat 14 éven aluli gyermek élt. 10.177223 = 2001-ben Magyarországon tízmillió-százhetvenhétezerkettőszázhuszonhárom magyar nyelvet beszélő ember élt. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 18 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 19 ► 1.26 Statisztikai adatok ábrázolása A statisztikai adatokat egyrészt szemléletesebbé tételük, másrészt elemzési célokból is ábrázolni szoktuk. Az ábrázolás történhet a koordináta rendszerben és azon kívül32 is Az alábbiakban csak az
ábrázolás egyszerűbb módozataira térünk ki röviden. A koordináta rendszer pozitív negyedében készíthetünk • pont-, • vonal- és • oszlopdiagramot, ill. a sokaságok szerkezetét jól szemléltethetjük a koordináta rendszeren kívül készített kör- vagy oszlopdiagrammal. népesség (ezer fő) Magyarország népessége 10350 10300 10250 10200 10150 10100 1994 1996 1998 2000 2002 2004 2006 évek 1. sz ábra: Pontdiagram az 11 sz tábla adatai alapján 32 Például egy ország jószág-állományának növekedése egyre nagyobb állatfigurákkal, csökkenése pedig egyre kisebbekkel szemléltethető a statisztikához nem értők számára igen érzékletesen. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 19 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 20 ► élveszületések (fő) Az élveszületések száma Magyarországon 120 000 100 000 80 000 60 000 40 000
20 000 0 1994 1996 1998 2000 2002 2004 2006 évek 2. sz ábra: Vonaldiagram az 12 sz tábla alapján 30 000 25 000 20 000 15 000 10 000 5 000 Magyarország Lengyelország Írország Hollandia Görögország Franciaország Finnország Dánia Csehország 0 Ausztria aktív népesség (ezer fő) A gazdaságilag aktív népesség néhány európai országban (2003) országok 3.sz ábra: Oszlopdiagram az 13sz tábla alapján A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 20 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok 14% 0%5% Vissza ◄ 21 ► 7% szakiskola 2% középiskola 15% középfokú iskola általános iskola 18% óvoda + iskola + kollégium óvoda + iskola + kollégium többcélú intézmény 39% A magyarországi közoktatási intézmények az ellátott feladatok típusa szerint (2003/2004 tanévben) 4.sz ábra: Kördiagram az 16 sz tábla alapján Néhány fontos
szabály az ábrák készítésével kapcsolatban: • Állapot idősor esetén az adatokat mindig ahhoz az időponthoz veszszük fel, amelyikhez az adat tartozik. • Tartam idősor esetén az adatokat mindig két időpont közé, középen vesszük fel. • Ha idősorok adataiból készítünk vonaldiagramot, akkor a vonal az első és az utolsó időpont adatán túl nem hosszabbítható meg. (Arról ui nincs információnk, hogy a megfigyelés előtti utolsó időpont adata kisebb vagy nagyobb volt-e, mint az első megfigyelt adat; ill. nem tudjuk, hogyan fog alakulni a vizsgált jelenség a jövőben) • Ha az állapot idősor adatai ábrázoljuk oszlopdiagrammal, akkor az oszlopok nem érhetnek össze. (Az ábrázolt adatok összege nem értelmezhető, • Az oszlopdiagramok esetén az adattal az oszlopok területe arányos. így a területek összege sem.) (Éppen ezért, ha egy mennyiségi (= gyakorisági) sor osztályközei nem azonos szélességűek, akkor az
ábrázolás előtt átalakításokat kell végeznünk. Hasonló probléma jelentkezik majd a módusz számításánál is) • A mennyiségi sorok adataiból készült vonaldiagram neve: gyakorisági görbe (= gyakorisági poligon), az oszlopdiagram neve: hisztogram. • Ha két különböző időpontra vonatkozóan készítünk kördiagramot ugyanarról a sokaságról, akkor ábránk nemcsak a sokaság szerkezetét, hanem a körök területének arányosításával az adatok relatív változását is kifejezi. (Az új kör sugara = rúj =r régi * vd 33) 33 A viszonyszámokat – minden ilyen és ehhez hasonló számításban – együtthatós formájukban használjuk. (A számítás képletében szereplő jelöléseket lásd a következő (21) fejezetben) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 21 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 22 ► 1.3 Összefoglalás34 statisztika
1. tudomány a módszereket és az eljárásokat foglalja össze 2. gyakorlati tevékenység adatgyűjtés, rendszerezés, feldolgozás, elemzés 3. adathalmaz az összegyűjtött és rendszerezett adatok összessége sokaság a statisztikai vizsgálat tárgyát képező egyedek összessége fajtái: álló – mozgó időpillanatra – időtartamra diszkrét – folytonos jól megkülönböztethető elemek – önkényes megkülönböztetés egynemű – összetett nem bontható részsokaságokra – felbontható részsokaságokra véges – végtelen elemei megszámlálhatóak – elemei nem megszámlálhatóak sokasági egység fajtái ismérv a sokaság egy-egy eleme 1. megfigyelési amire az adatgyűjtés vonatkozik 2. számbavételi akitől az adatot beszerezzük azok a tulajdonságok, melyek alapján a statisztikai megfigyelés tárgyát képező egységek egy halmazt alkotnak (közös ismérv) ill. különböző sokaságokba oszthatók
(megkülönböztető ismérv) 34 Ehhez a fejezethez önálló feladatokat nem állítottunk össze. A következő fejezetek feladatiban azonban lesznek olyan kérdések, melyek ennek a témakörnek a tudását igénylik. (A fogalmak tisztázásának egyébként legfontosabb célja, hogy „egy nyelvet beszéljünk”) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 22 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék | Táblázatok fajtái ismérvváltozat Vissza ◄ 23 ► 1. időbeli az adatok megkülönböztetése időpontok szerint 2. területi az adatok megkülönböztetése földrajzi területek szerint 3. mennyiségi az adatok a megfigyelési egységek nagysága, mérete, kapacitása stb. szerint 4. minőségi 5. alternatív az adatok megkülönböztetése a megfigyelési egységek színe, neme stb. szerint csak két ismérvváltozata van az ismérvek lehetséges kimenetelei példák 1. időbeli a
hallgatók születési dátumai (évek) 2. területi a hallgatók születési helyei (városok) 3. mennyiségi a hallgatók születési súlya (gramm) 4. minőségi 5. alternatív statisztikai adat fajtái adatgyűjtés fajtái a megfigyelt sokaság egy-egy elemének a vizsgálat tárgyát képező tulajdonságára vonatkozó aktuális értéke 1. számszerű 1. abszolút adatgyűjtésből, számításból; van mértékegysége 2. relatív számításból; előfordul, hogy nincs mértékegysége 2. szöveges kódolhatjuk az elemzéshez szükséges adatok „beszerzése” 1. teljes körű a sokaság minden elemére kiterjed 2. részleges35 35 a hallgatók családi állapota (nős, nőtlen, férjezett stb.) férfi – nő v. kereső – eltartott stb a sokaság nem minden elemére terjed ki Lásd: Becslés témakör A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 23 ► Statisztika Bevezetés A dokumentum használata | Tartalomjegyzék |
Táblázatok az adatok hibája Vissza ◄ 24 ► korlátozott pontosságúak fajtái 1. adatgyűjtési hi- szubjektív emberi tényezők miatt bák 2. véletlen hibák a nem teljes körű megfigyelés miatt 1. abszolút hiba a= Á−A a hiba jellege szerint 2. relatív hiba fajtái a keletkezés oka szerint α= a A statisztikai sorok a statisztikai adatok egyetlen tulajdonság (= ismérv) alapján történő rendezése fajtái 1. minőségi szavakkal megfogalmazható ismérvváltozatok alapján tartalmuk szerint 2. mennyiségi számokkal megfogalmazható ismérvváltozatok alapján 3. területi földrajzi megnevezések képezik az ismérvváltozatokat dátumok képezik az ismérvváltozatokat 4. időbeli 5. leíró fajtái felhasználásuk szerint statisztikai táblák egy-egy földrajzi, gazdasági stb. egységre vonatkozóan különböző jellegű adatokat tartalmaz 1. összehasonlító adatainak összege nem értelmezhető 2. csoportosító adatainak összege
értelmezhető a statisztikai adatok egyszerre több tulajdonság (= ismérv) alapján történő rendezése fajtái 1. egyszerű egyik irányban sem összegezhető a bennük található összesen 2. csoportosító csak egyirányú összegzés lehetséges kétirányú összegzés lehetséges rovatok alapján 3. kombinációs A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 24 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 25 ► 2. Viszonyszámok Az összegyűjtött és rendezett statisztikai adatok elemzésére az elméleti statisztika igen sok módszert dolgozott ki. Ezek közül a legegyszerűbbek a viszonyszámok, melyeket két statisztikai adat hányadosaként állíthatunk elő Legismertebb és leggyakrabban alkalmazott fajtáit az 21 sz tábla foglalja össze 2.1 sz tábla A viszonyszámok fajtái típus meghatározás példa36 dinamikus Két különböző időpontra,
időszakra vonatkozó adat hányadosa. 10.117 = 0,9787 10.337 területi ösz- Két különböző földrajzi szehasonlító terület azonos jellegű adatának hányadosa. megoszlási A magyar népesség 2004-es adatát viszonyítottuk az 1995-ös adathoz.37 3.876 = 0,9304 4.166 Ausztria gazdaságilag aktív népességének aránya a magyarországi adathoz viszonyítva.38 = relatív gyakoriság 2.079130 = 0,9988 Az összegezhető statisztikai 2.081559 sorok egyes részadatainak és A 60 éven felüli magyarul beszélő a sor összesen adatának népesség aránya a teljes 60 éven hányadosa. felüli népességhez viszonyítva.39 36 A viszonyszámok egyes típusaira felírt példáknál – egyelőre – az olvasók korábbi matematika ismereteire támaszkodunk. 37 Lásd: 1.8 sz tábla 38 Lásd: 1.10 sz tábla 39 Lásd: 1.18 sz tábla A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 25 ► Statisztika Viszonyszámok A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 26 ► A viszonyszámok fajtái (folytatás) típus típus típus intenzitási Két különböző jellegű, de egy3,96 millió fő = 0,00005643 mással valamilyen kapcsolatban 70.233 km 2 álló statisztikai adat hányadosa Írország népsűrűsége 2004-ben.40 2.1 A dinamikus (= időbeli) viszonyszám A dinamikus viszonyszámok az időben változó jelenségek elemzésére alkalmasak. Megmutatják, hogy kiválasztott időponthoz (= bázisviszonyszám) vagy a felmérés idejét megelőző időponthoz (= láncviszonyszám) képest a vizsgált sokaság adatai hányszorosára nőttek vagy hányadrészükre csökkentek, illetve hány százalékkal változtak. A viszonyszámok képletei: 2.2 sz tábla Az időbeli (= dinamikus) viszonyszámok képletei: I. II. III. dinamikus viszonyszám bázisviszonyszám láncviszonyszám vd = y2 y1 bi = yi yb li = yi yi −1 A képetekben szereplő betűk jelentése: vd = bi = li = yi =
dinamikus viszonyszám bázisviszonyszám láncviszonyszám a megfigyelt adat i = 1,2,., n n= a megfigyelt időpontok (időszakok) sorszáma a megfigyelések darabszáma Az I. képletet (22 sz tábla) akkor alkalmazzuk, ha megfigyeléseink mindössze két időpontra vonatkoznak; a II. és III képletet pedig akkor, ha megfigyeléseink hosszabb időszakot ölelnek át Bázis adatnak általában az idősor első adatát 40 Lásd: 1.14 sz tábla A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 26 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 27 ► tekintjük, de vannak esetek, amikor ezt nem tehetjük meg41. Ha a kiszámított arányszámok nullával kezdődnek, az a megfigyelt adat csökkenését jelenti; ha eggyel vagy ennél nagyobb számmal, akkor a vizsgált jelenség növekedéséről beszélhetünk. A dinamikus viszonyszámokat általában százalékban is megadjuk, ez elsősorban
a viszonyszámok jelentésének megfogalmazását könnyíti meg. BEMUTATÓ FELADAT 2.3 sz tábla (az 18 sz tábla alapján) Magyarország népessége , év 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 i 1. 2. 3. 4. 5. adat (ezer fő) 10.337 10321 10301 10280 10253 10222 10200 bázis-vsz. 100,0 99,842 99,7 99,4 99,2 (%) 10.337 10.301 bi szá10.321 10.280 10.337 10.337 stb. 10 . 337 10 .337 mítása adat (ezer fő) 98,9 7. 98,7 8. 9. 10. 10.17 10.142 10117 5 98,4 98,1 97,9 10.337 10321 10301 10280 10253 10222 10200 10175 10142 10117 lánc-vsz. – (%) 99,8 li szá- 10.301 10280 10.321 10.321 10301 stb 10.337 mítása 6. – 99,8 99,8 99,7 99,7 99,8 99,8 99,7 99,8 A kiszámított viszonyszámok jelentését többféleképpen is megfogalmazhatjuk43, íme: b6 = 98,9% 41 Például, a legutóbbi (2001) népszámlálás szerinti magyar népesség létszámadatát nem hasonlíthatjuk egy az I. világháborút megelőző népszámlálási adathoz,
hiszen a két időpont között jelentősen csökkent hazánk területe (Áthidaló megoldás: a korábbi népszámlálások alapadataiból meghatározható a mai területre vonatkozó lakosság) 42 Az osztás eredményét – 10.321/10337 = 0,998452162 (= együtthatós forma) – kerekítettük, majd beszoroztuk százzal, így kaptuk meg a viszonyszámot (A százzal való szorzást a statisztika könyvekben nem szokás feltüntetni) 43 Természetesen nincs szükség mindig mind a három megfogalmazásra. A feltett kérdést vagy a feladat utasítását kell figyelni, és annak megfelelően fogalmazni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 27 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 28 ► ♥ 2000-ben Magyarország népessége az 1995-ös népesség kilencszáznyolcvankilenc ezred része volt. ♥2000-ben Magyarország népessége az 1995-ös népesség 98,9 %-a volt. ♥
2000-ben Magyarország népessége 1,1 %-kal kevesebb volt, mint 1995-ben Fontos tudnunk, hogy: • A dinamikus viszonyszámok típusai között matematikai összefüggés van, ezt ismerve az alapadatok hiányában is ki tudjuk számítani a bázisviszonyszámokból a láncviszonyszámokat és fordítva; illetve a már ismert bázisviszonyszámokat felhasználva is lehetőségünk van új bázisra áttérni. 2.4 tábla Összefüggések: bk = Π li = a k-adik bázisviszonyszám kiszámítható az első k láncviszonyszám szorzataként, ill., b lk = k bk −1 = a k-adik láncviszonyszám kiszámítható a kadik és a (k-1)-edik bázisviszonyszám hányadosaként. k i =1 búj ,k = brégi ,k brégi , amit bázisul választottunk = áttérés új bázisra • A dinamikus viszonyszámok nemcsak megfigyelt adatokból, hanem más viszonyszám típusok adataiból is számíthatók.44 • Az idősorok adataiból nemcsak azok relatív változását, hanem abszolút változását is
kiszámíthatjuk: d i = y i − y i −1 ⇒ például: d 9 = 10117 − 10142 = −25 ezer fő ♥ Magyarország lakossága 2003-ról 2004-re 25 ezer fővel csökkent. 44 Erre a további viszonyszám-típusok tárgyalása után visszatérünk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 28 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 29 ► A képletben szereplő betűk jelentése: di yi i = 1,2,., n abszolút változás a megfigyelt adat a megfigyelt időpontok (időszakok) sorszáma 2.2 A területi viszonyszám Két különböző földrajzi terület azonos jellegű adatának hányadosa a területi viszonyszám. Ezzel a viszonyszámtípussal elemezhetjük például a gazdaságilag aktív népességre vonatkozó, különböző európai országokból összegyűjtött adatainkat. Külön képlete nincs, a bázisviszonyszám képletét szoktuk értelemszerűen45 alkalmazni A
viszonyítási alap kiválasztásakor a számítással megválaszolandó kérdésre kell figyelni, illetve vannak esetek, amikor kerülendő az olyan területi egység bázisul választása, melynek adata szélsőséges46 az összehasonlítandó területi egységek sokaságában. További gondot okoz a területi összehasonlítás során az aggregátumok (pl.: egy ország teljes termelési értéke) összehasonlítása ill. az adatok eltérő pénz-mértékegysége47 45 Értelemszerűen = i ebben az esetben nem az egyes évek sorszáma, hanem a különböző földrajzi területek (országok, megyék, városok stb.) sorszáma 46 Szélsőséges, azaz kiugróan magas vagy alacsony adatot figyeltünk meg. Számpéldánkban ilyen kiugróan magas adatot találunk Franciaország ill Lengyelország mellett (Létszámadataik egy nagyságrenddel nagyobbak a többi ország létszámadatánál) 47 Erre a kérdésre a későbbiekben még visszatérünk. A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 29 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 30 ► BEMUTATÓ FELADAT 2.5 sz tábla időbeli összehasonlítás élveszületési arány (ezrelék) ország i változás 1970 2003 vint(1) vint( 2 ) számítás (%) 1 21,1 9,6 -54,5 Portugália 2 20,8 10,8 -48,1 Szlovákia 3 17,7 9,6 -45,8 4 16,8 9,2 -45,2 5 16,8 8,8 Norvégia 6 16,748 Olaszország 7 16,7 Magyarország Németország 1970 2003 Magyarország = 100 % 1970 = 100 % Románia Lengyelország Lettország területi összehasonlítás (%) 143,5 103,2 141,5 116,1 120,4 103,2 114,3 98,9 -47,6 114,3 94,6 12,0 -28,1 113,6 129,0 9,4 -43,7 8 14,749 9,3 -36,7 9 13,4 -35,8 8,6 ← (9,6/21,1)*100100 (16,7/14,7)*100 113,6 101,1 100,0 100,0 91,2 92,5 adatforrás: Demográfiai évkönyv, 2003 (KSH, 2004; 110.old) élveszületési arány = születések ezer
lakosra vetítve (= intenzitási viszonyszám, lásd: 2.4 fejezet) A színes háttérrel jelzett adatok jelentése: vd1 = 48 49 vint( 2.1) 50 vint(1.1) Kéttizedes pontossággal (az összefüggések bemutatása érdekében) = 16,67. Kéttizedes pontossággal (az összefüggések bemutatása érdekében) = 14,74. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 30 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 31 ► ♥ -54,5 % : 2003-ban Romániában 1000 lakosra vetítve 54,5 %-kal kevesebb gyermek született, mint 1970-ben; vint(1) = A1.8 A , ill. vint( 2) = 28 B1.8 B2.8 ♥ 14,7 ill. 9,3 ezrelék: Magyarországon 1970-ben 1000 lakosra 13,4, 2003-ban pedig 8,6 élveszületés jutott. vterületi (16 ) = vint(1.6) vint(1.8) ill. vterületi ( 26 ) = vint( 2.6) vint( 2.8) ♥113,6% ill. 129,0% : Norvégiában 1970-ben 13,6 %-kal, 2003-ban pedig 29,0%-kal magasabb volt az
élveszületési arány, mint hazánkban. Vizsgáljuk meg, mi bújik meg az eltérő élveszületési arányszámok, ill. azok eltérő változása mögött! Ehhez a 2.4 sz táblában szereplő adatokra is szükségünk van. 2.6 sz tábla ország Norvégia élveszületések (fő) 1970 2003 lakosság (millió fő) 1907 = 100 % 1970 64.551 54720 84,77 Magyarország 151.819 94647 63,34 3,87 2003 1907 = 100 % 4,56 117,53 10,30 10,14 98,26 Hasonlítsuk össze Norvégia és Magyarország (= 100%) élveszületési arányszámát51! Ne egyszerűen a 2.5 sz táblában szereplő adatokkal dolgozzunk, hanem tüntessük fel azokat az adatokat is, melyekből az összehasonlítandó intenzitási viszonyszámokat kiszámítottuk! Majd végezzük el a lehetséges matematikai átalakításokat! Végül a számadatokat helyettesítsük – az általánosítás érdekében – betűjeleikkel! 50 A futó index első száma jelzi, hogy a bázis (1) vagy a tárgyidőszak (2) adatát, a
második szám pedig az ország sorszámát. 51 Hasonló levezetést végezhetünk az időbeli viszonyszámok alapján is. A következtetés tökéletesen ugyanaz lesz. (A 28 sz tábla adatait felhasználva próbálja meg!) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 31 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 32 ► Összehasonlítás a számokkal: vterületi = vint(16) vint(18) = 64.551 16,67 3.870 = 64551 * 10.300 = 64551 : 3870 = 0,4252 ≅ 113% ≅ 14,74 151.819 3.870 151819 151819 10300 0,3757 10.300 Összehasonlítás a betűjelekkel: v területi ( az intenzitási viszonyszámra = v int(16 ) v int(18) Ai = Bi Aj Bj = Ai B j Ai Bi * = : = v területi ( A− ra ) : v területi ( B − re ) Bi A j A j B j Szövegesen megfogalmazva: Két viszonyszám hányadosa egyenlő a viszonyszámok számlálójában szereplő adatok arányának és a viszonyszámok nevezőjében
szereplő adatok arányának52 hányadosával. 2.3 A megoszlási viszonyszám A megoszlási viszonyszámok a sokaságok szerkezetének bemutatására szolgálnak. Kifejezik azt, hogy a teljes sokaság hányad részét, hány százalékát képviselik az egyes részsokaságokba (= az egyes ismérvváltozatokhoz) tartozó elemek 2.7 sz tábla A megoszlási viszonyszám képlete: relatív gyakoriság53 mennyiségi sorokból egyéb összeadható sorokból 52 53 megoszlási viszonyszám gi = gi = fi = n fi ∑f i wi = g i *100 (%) yi ∑ yi A megfogalmazásban szereplő mindkét arány szó helyett írhattuk volna: hányadosának A megoszlási viszonyszám együtthatós formája. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 32 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 33 ► A képletekben szereplő betűk jelentése: wi = gi = relatív gyakoriság n = ∑ fi megoszlási
viszonyszám fi = yi = megfigyelt előfordulások a megfigyelt adatok i = 1,2,., n a megfigyelések darab- a megfigyelt ismérvváltozatok sorszáma száma Tekintettel arra, hogy az egyes részsokaságok elemeinek száma mindig kisebb, mint a teljes sokaság elemeinek darabszáma ( f i 〈 n ) 54, a relatív gyakoriságok mindegyikére igaz, hogy g i 〈1 , illetve ha valamennyi részsokaságra kiszámítjuk a relatív gyakoriságokat, akkor fennáll a következő öszszefüggés: ∑ g i = 1 55. Ha a kiszámított viszonyszámokat százalékos formában adjuk meg, akkor a megismert összefüggések így írhatók fel: wi 〈100 % és ∑ wi = 100 % . Korábbi adatainkat felhasználva számoljunk ki néhány relatív gyakoriságot (megoszlási viszonyszámot), és fogalmazzuk meg jelentésüket! 54 És y i 〈 ∑y i . 55 Ezt az összefüggést a későbbiekben, például az átlagok esetében, a számítások egyszerűsítésére fogjuk használni. A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 33 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 34 ► BEMUTATÓ FELADAT 2.8 sz tábla Magyarország56 férfi lakossága életkor szerint 2004. jan 1 lakosok (fő) korév fi relatív gyakoriság gi megoszlási viszonyszám számítása wi mértékegysége nincs (%) 47.936 4.804113 49.156 4.804113 49.570 4.804113 49.881 4.804113 0 47.936 0,009978 1,00 1 49.156 0,010232 2 49.570 0,010318 3 49.881 0,010383 4 47.949 0,009981 1,00 1,02 1,03 1,04 57 85 4.314 0,000898 86 3.731 0,000777 0,08 87 3.214 0,000669 0,67 . összesen 4.804113 1 stb. 1 0,09 100 g i = 0,010383 ≅ 0,01 ⇒ wi = 1,04% ♥ 2004-ben a magyarországi férfi lakosság egyszázad része, azaz egy egész négyszázad százaléka volt hároméves. 56 Lásd: 1.11 sz tábla A tábla egyes rovataiban pontokkal jeleztük, hogy nem minden korévet
tüntettünk fel, így természetesen a kiszámított viszonyszámok összege szemmel láthatóan nem adja ki az egyet, ill. a száz százalékot 57 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 34 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 35 ► 2.4 Az intenzitási viszonyszám Az intenzitási viszonyszámok két egymással összefüggésben lévő sokaságot vizsgálva kifejezik, hogy az egyik sokaság egy elemére a másik sokaság elemeiből hány egység jut. Például: • • • • egy ország egy területi egységére (km 2 ) jutó lakosok (ezer fő ) száma, az egy házi orvosra ( fő ) jutó lakosok ( fő ) száma, a szülőképeskorú nőkre (ezer fő ) jutó újszülöttek ( fő ) száma, az egységnyi termékre (darab, liter, tonna , stb.) jutó termelési költség (Ft ) Tankönyvünk előző oldalain már találkoztak is ezzel a viszonyszámtípussal, így 1.7 sz
tábla Írországra vonatkozó adatai között szerepelt az 1 főre jutó GDP, továbbá az 1.9 sz tábla 3 és 4 oszlopában a terhességmegszakítás száz élveszületésre, illetve a teljes termékenységi arány. Az intenzitási viszonyszámoknak több fajtáját szokás megkülönböztetni. 2.9 sz tábla Az intenzitási viszonyszámok fajtái típus példa nyers Egy vállalkozás termelési értékét (= A) a vállalkozás összes dolgozójának létszámához (= B) viszonyítjuk = egy dolgozóra jutó termelési érték (Vnyers = A/B) Egy vállalkozás termelési értékét (= A) a vállalkozás fizikai dolgozóitisztított nak létszámához viszonyítjuk (= b) = az egy fizikai dolgozóra jutó termelési érték (= Vtisztított = A / b) Egy vállalkozás termelési értékét (= A) a vállalkozás összes dolgozójáegyenes nak létszámához (= B) viszonyítjuk = egy dolgozóra jutó termelési érték ( = Vnyers = A/B) Egy vállalkozás összes dolgozójának
létszámát (= B) viszonyítjuk a fordított vállalkozás termelési értékéhez (= A) = az egy (ezer) forintnyi termelési érték előállításához szükséges dolgozó létszám (= V = B / A). Példáinkból jól látható, hogy a nyers és a tisztított intenzitási viszonyszám csak nevezőjében különbözik. A tisztított viszonyszám nevezőjében A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 35 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 36 ► a nyers viszonyszám nevezőjének (= B) egy részhalmaza (= részsokasága = b) szerepel; olyan részsokasága, amelyikkel a számlálóban szereplő adatnak szorosabb kapcsolata, mint az egész sokasággal. Az egyenes és a fordított intenzitási viszonyszám egymás reciprokai. Egyenesnek tekintjük azt az intenzitási viszonyszámot, melynek növekedése kedvező, fordítottnak pedig azt, amelyiknek növekedése kedvezőtlen
jelenség. Elsősorban a régebbi tankönyvek az itt közölt elhatárolás mellett egy másik szempontot is megadnak. Egyenesnek tekintik azt az intenzitási viszonyszámot, amelyiket a mindennapi életben rendszeresen használunk (pl.: az egy hektárra jutó búzatermés, az egy lakosra jutó GDP, az egy dolgozóra jutó termelési érték stb.), fordítottnak pedig ezek reciprokait, melyek a mindennapi ember számára kissé furcsának hatnak. Ha egy dolgozóra egyre nagyobb termelési érték jut, – feltéve, hogy ez nemcsak az árak növekedésének következménye, – az kedvező; ez ugyanis azt jelenti, hogy a dolgozók nagyobb intenzitással végezték munkájukat. Ha egy (ezer, millió) forintnyi termelési érték előállításához egyre több dolgozóra van szükség, akkor az azt jelenti, hogy a dolgozók csökkenő intenzitással végezték munkájukat, és ennek következtében növekszik a termékek önköltsége. Természetesen vannak olyan intenzitási
viszonyszámok, melyek esetében azt a kérdést is fel kell tennünk, hogy kinek a szempontjából mondjuk ki, hogy kedvező, avagy kedvezőtlen egy jelenség. Pl: egy orvosra egyre több beteg jut, ez az orvosnak anyagilag kedvező, ugyanis több beteg után kapja meg az egészségbiztosítótól az un. kártya-pénzt; a betegeknek viszont kedvezőtlen, mert kevesebb időt tud rájuk fordítani orvosuk. 2.10 tábla Az intenzitási viszonyszámok képletei és azok összefüggései nyers Vny = tisztított A B Vt = A b egyenes Ve = A B fordított Vf = B A összefüggések58 Vnyers = A b * = Vt g b B Ve *V f = 1 58 Az összefüggések ismerete egyes esetekben megkönnyítheti számítási munkánkat, ill. ellenőrzésre is lehetősége ad. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 36 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 37 ► BEMUTATÓ FELADATOK 2.11 sz tábla
népsűrűség-számítás terület népesség népsűrűség ezer km2 millió fő fő / km2 számítás Magyarország 93 10,13 109 (10,13 / 93)*1000 Németország 357 82,54 231 (82,54 / 357)*1000 ország adatforrás: Magyar statisztikai évkönyv 2003 (KSH 2004, 549. old Terület – népesség – főváros) 2.12 sz tábla telekommunikáció, 2003 ország népesség59 millió fő telefon fővo- mobil telenal fon darab / ezer fő Magyarország 10,13 361 676 Németország 82,54 659 785 telefon mobil fővonalak telefon ezer db 3.656930 = 361*10.130 29.796940 = 659*82.540 6.847880 = 676*10.130 64.793900 = 785*82.540 adatforrás: Magyar statisztikai évkönyv 2003 (KSH 2004, 549. old Terület – népesség – főváros ill. 574 old Telekommunikáció) A 2.11 sz és a 212 sz táblák kiemelt adatainak jelentése: Ve = 109 fő km 2 ♥ Magyarországon egy négyzetkilométernyi területen átlagosan 109 ember él. 59 Évközepi népesség. A
dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 37 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Ve = 659 db Vissza ◄ 38 ► ezer fő ♥ Németországban ezer lakosra 659 telefon fővonal jut, azaz egy lakosra 0,659 fővonal jut. Az intenzitási viszonyszámokból további viszonyszámok60 számíthatók, ill. ha az ismert viszonyszám számításának csak egyik tényezőjére vonatkozóan rendelkezünk adattal, kiszámíthatjuk a másik tényezőt61 is 2.5 Gyakorló feladatok 1. feladat Válogassa ki az alábbi adatok közül a viszonyszámokat és állapítsa meg azok típusát! Számadatok: Palau Köztársaság területe: 508 km2 Palau Köztársaságban a maldív lakosság: 96 % Palau Köztársaságban a GDP: 5000 USD/fő Palau Köztársaságban a gazdasági növekedés: 1,1 % Palau Köztársaságban a képviselőház: 16 tagú Katar adóssága:9907,2 millió USD Oroszország népsűrűsége: 8.5
fő / km2 France Albert Renét, a Seychelle-szigetek államfőjét 1977-ben iktatták be hivatalába. 60 Például a 2.12 sz tábla adatai alapján: v Mo 676 = = 0,861146496 ⇒ 86,1% ⇒ −13,9% , azaz 1000 magyar lakosra 13,9 %-kal kevev No 785 sebb mobil telefon jut, mint 1000 német lakosra, azaz a lakosság mobiltelefonnal való ellátottsága hazánkban rosszabb. (Még nagyobb a lemaradásunk a telefon fővonalak tekintetében. Az előzővel azonos módon elvégzett számítás eredménye: -45,2 %) 61 Ezt tettük akkor is, amikor meghatároztuk az 2.12 sz tábla utolsó két oszlopának adatait, tekintettel arra, hogy az adatforrásul szolgáló Statisztikai Évkönyv csak a „népesség” és a „telefonfővonal, ill. mobil telefon ezer lakosra” adatokat közölte A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 38 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 39 ► 2. feladat
1. Állapítsa meg, hogy az alábbi statisztikai adatok, milyen viszonyszámokkal elemezhetők! 2. Végezze el az elemzést! 3. A kiszámított adatok jelentését fogalmazza meg! 4. Soroljon föl minden olyan információt, amit – az 1 fejezetben közölt ismeretek alapján – a feladathoz közölt statisztikai táblákról, a bennük szereplő statisztikai sorokról, ill. adatokról fel tud sorolni statisztikai adatok A Balaton-part kereskedelemi szálláshelyeinek száma (db) 1993 1994 1995 1996 1997 4.396 3.080 3.208 2.600 1.958 Egy vállalkozás tevékenységeire vonatkozó adatok: megnevezés 1997 1998 termelési érték (millió Ft) 900 825 foglalkoztatottak száma (fő) 180 150 fizikai foglalkoztatottak száma (fő) 120 105 A munkanélküliek száma iskolai végzettségük alapján (ezer fő): iskolai végzettség 1997 1998 8 általánosnál kevesebb 15,4 14,0 áltanos iskola 127,4 108,2 szakmunkásképző 124,8 107,6 gimnázium 30,4 30,6
szakközépiskola 40,9 40,9 főiskola 7,0 7,9 egyetem 2,9 3,8 összesen 348,8 313,0 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 39 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 40 ► 3. feladat A következő megfogalmazások, statisztikai adatok és viszonyszámok alapján írja fel az alábbiakban megfogalmazott viszonyszám számítását! Pl.: egy vállalat termelése 2003-ban 5 milliárd Ft, ez a következő évre 10 %-kal nőtt. Megoldás: 1,1 = 1,1 * 5 5 Figyelem, egyes esetekben több viszonyszám is számítható. megfogalmazások: A 20 – 24 év közötti magyar lakosság (726.714 fő) 51,2 %-a férfi A magyar népesség 1985-ről (5.591 ezer fő) 1992-re megközelítőleg 7 %-kal csökkent A kilencvenes években Magyarországon egy orvosra (41.397 fő) 248,3 fő lakos jutott. 4. feladat Egy bank értékpapír-állománya (milliárd Ft) / év eleji adatok / év
1997 1998 1999 2000 2001 2002 2003 2004 2005 adat 510,7 575,0 625,4 641,8 720,2 905,0 1.240,0 1.461,0 1.840,0 1. Számolja ki az állomány változását jellemző viszonyszámokat! Figyelem! A zsebszámológépeknek általában van „állandó osztó vagy állandó szorzó” funkciójuk. Használja ki ! 2. A 2002-es évre mutassa be a kiszámított viszonyszámok közötti öszszefüggést! 3. Fogalmazza meg a 2000 évi adatok jelentését! 4. Állapítsa meg, hogy a közölt adatok milyen jellegűek, ill milyen statisztikai sor elemeit képezik! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 40 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 41 ► 5. feladat Egy vállalkozás dolgozóit arról kérdezték naponta mennyi időt vesz igénybe a munkahelyre utazásuk ill. a hazafelé út A válaszokat az alábbi táblába rendezték: utazási idő perc / nap - 10 10 – 20 20
– 30 30 – 50 50 összesen a dolgozók száma fő 20 30 40 50 10 150 1. Számolja ki a dolgozók utazási idő szerinti megoszlását kifejező viszonyszámokat! 2. Fogalmazza meg egy-egy adat jelentését! 3. Írja fel a kiszámított viszonyszámokkal kapcsolatos összefüggéseket statisztikai jelekkel! 4. Állapítsa meg, hogy a közölt adatok milyen jellegűek, ill milyen statisztikai sor elemeit képezik! 6. feladat Egy szállítási vállalat gépjárműállományának megoszlása: életkor év állomány megoszlás (%) változás (%) 2000. I 2003. I1 2000 I1 2003 I1 állomány szerkezet 1. stat. jel: -2 2–4 4–6 70 60 40 50 60 45 6–8 30 30 8 –10 50 összesen 250 15 200 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 41 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 42 ► 1. Számítsa ki a gépjárműállomány életkor szerinti megoszlását kifejező
viszonyszámokat mindkét esztendő adatai alapján! 2. Számítsa ki a különböző életkorú gépkocsik darabszámának változását, továbbá az életkor szerinti megoszlás változását! 3. Fogalmazza meg a vastagon bekeretezett adatok jelentését! 4. Mutassa ki a változásokat kifejező viszonyszámok közti összefüggést a 4 – 6 éves gépkocsik esetében! 5. Ha helyesen dolgozott a „változások” egyik oszlopában nem állhat adat az összesen rovatban. Indokolja meg, miért! 6. Állapítsa meg, hogy a közölt adatok milyen jellegűek, ill milyen statisztikai sor elemeit képezik! 7. feladat A hangversenyek és a hangverseny-látogatók számának alakulása egy városban: év előadások látogatók az egy előadásra db ezer fő jutó. 1999 991 452,2 2000 1014 437,5 2001 723 314,3 2002 547 2003 616 210,7 221,1 változások (%) előadások látogatók az egy 1. Számolja ki – minden évre – az egy előadásra jutó hallgatók számát! 2.
Számolja ki a megadott és az Ön által kiszámított adatok időbeli változását! (Csak a bázis viszonyszámokat kell meghatároznia) 3. Fogalmazza meg a vastagon bekeretezett cellákban található adatok jelentését! 4. Mutassa ki a 2000 évi adatokra vonatkozóan az összefüggést! 5. Döntse el, kiegészíthetjük-e a feladat tábláját összesen sorral! Döntését indokolja! 6. Állapítsa meg, hogy a közölt és a kiszámítandó adatok milyen jellegűek, ill milyen statisztikai sor elemeit képezik! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 42 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 43 ► 2.6 Összefoglalás viszonyszám fajtái: = két statisztikai adat hányadosa 1. dinamikus 2. területi összehasonlító 3. megoszlási 4. intenzitási dinamikus viszonyszám = két időpontra / időszakra / vonatkozó adat hányadosa fajtái 1. bázis az összehasonlítás
alapja állandó 2. lánc megoszlási viszonyszám formái az összehasonlítás alapja változó bi = yi yb li = yi y i −1 = a sokaság egy részadatának és összesen adatának hányadosa, a sokaság szerkezetének vizsgálatára alkalmas relatív gyakoriság gyakorisági f gi = i sorból: ∑f tartam idősorból: gi = i yi ∑ yi megoszlási viszonyszám (%) wi = g i *100(%) összefüggések ∑g ∑w különbségük %-pont intenzitási viszonyszám = két egymással összefüggésben lévő sokaság adatainak hányadosa 1. egyenes – fordíA B V= V= tott fajtái i =1 i = 100% B 2. nyers – tisztított A V= B A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza A A V= b ◄ 43 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 44 mértékegysége kétdimenziós = a megfigyelt adatok mértékegységének hányadosa összefüggések A B * =1 B A előretekintés az
intenzitási viszonyszám „rokonságot” mutat a számtani átlaggal ► A A b = * B b B 2.7 Mintapéldák korábbi vizsgadolgozatokból62 1. minta Töltse ki az üres rovatokat! a vállalkozások száma év ezer db 1988 = 100 % előző év = 100 % évenkénti abszolút változás évenkénti relatív változás statisztikai jel ⇒ 1988 291,0 1989 110,2 1990 135,2 1991 1992 129,8 606,2 1993 1994 236,7 778,0 1995 93,8 1996 745,2 1997 659,7 1998 222,9 62 A dolgozat írásakor természetesen egy-egy kitöltendő rovat – a bele kerülő adatnak, szövegnek megfelelően – nagyobb terjedelmű. (Ez a megjegyzés minden további mintapélda esetén igaz) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 44 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 45 ► 2. minta Nevezze meg az alábbiakban felsorolt viszonyszámok fajtáját! a viszonyszám típusa 1.
megfogalmazások 2. Az egy főre jutó GDP Magyarországon 1998-ben 4.694 USD volt, ami az előző évinél 5,1 %-kal volt több. 3. 4. Az építőiparban a 100 fizikai foglalkoztatottra jutó szellemi foglalkozásúak száma 29 fő, a fizikaiak aránya 77,4 % volt 1998-ban. 1998-ban az 1000 lakosra jutó születések száma 9,6 volt. 5. A felsőoktatásban egy oktatóra 12,1 hallgató jutott 1998ban. 6. A PSzF-en 19998-ban oklevelet szerzett hallgatók 61,9 %-a nő volt. 7. Budapest népessége 1990-ről 1999-re (jan.1) 8,8 %-kal csökkent. 8. 1998-ban az egy főre jutó évi átlagos gyümölcsfogyasztás 62,6 kg volt. 3. minta Az orvosi ellátottság néhány adata (december 31-i állapotok) /adatforrás: KSH/ 1980 megnevezés adat 2002 statisztikai jel. adat népesség (ezer fő) 10.705 10.175 az orvosok száma (fő) 30.842 37.295 5.092 5.125 a háziorvosok száma (fő) statisztikai jel. 1. Számítsa ki az eredmény-táblában megnevezett
viszonyszámokat! 2. A 2002-re vonatkozó adatok jelentését fogalmazza meg! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 45 ► Statisztika Viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 46 ► (A kiszámított adatokat és azok megnevezését az eredmény-táblában kell rögzíteni.) eredmény-tábla az orvos-ellátottsági adatok alapján számítható viszonyszámok megnevezés eredmény 1980 2002 1 orvosra jutó lakos 1 háziorvosra jutó lakos az ezer lakosra jutó orvos az ezer lakosra jutó háziorvos a népesség változása az orvosok számának változása a háziorvosok számának változása az 1 orvosra jutó lakosok számának változása az 1 háziorvosra jutó lakosok számának változása az ezer lakosra jutó orvosok számának változása az ezer lakosra jutó háziorvosok számának változása A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 46 ►
Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 47 ► 3. Középértékek 3.1 A középértékek fogalma A statisztikai elemzések eredményeit felhasználó különböző szakemberek igen gyakran igénylik, hogy a vizsgált sokaságokat egyetlen adattal jellemezzük, erre teremt lehetőséget a különböző fajtájú középértékek számítása. Ezek, ahogy a név is sugallja, a sokaságok elemei között középső helyet63 foglalnak el, és ez teszi alkalmassá a számítás eredményeként kapott adatokat arra, hogy a fenti követelménynek megfeleljenek. A középértékeket két nagy csoportra oszthatjuk: • számított és • helyzeti középértékek. A számított középértékek alapvető tulajdonsága, hogy nagyságukat az összes rendelkezésre álló adat befolyásolja. A statisztika elmélet többféle változatukat különbözteti meg, ezek: • • • • számtani (aritmetikai), mértani (geometriai),
négyzetes (kvadratikus =quadratikus) harmonikus. A helyzeti középértékek esetében azok elhelyezkedési rendje játszik döntő szerepet, éppen ezért nagyságukat nem az összes rendelkezésre álló adat befolyásolja. Speciális helyük következtében értékük ábra64 segítségével határozható meg Változataik: • módusz, • medián. 63 [ ] Minden átlagra, minden feladatra, mindig igaz, hogy xmin 〈 x 〈 xmax . 64 Az ábra képletté konvertálható, a gyakorlatban ezt használják, mi is ezt adjuk meg, ezt használjuk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 47 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 48 ► 3.2 A számtani átlag A számtani (aritmetikai) átlag az a szám, melyet az átlagolandó értékek helyébe írva azok összege nem változik. Ebből a definícióból vezethető le a számtani átlag képlete: n n ∑x i =1 n ∑ xi =
nxa ⇒ xa = i =1 i 65 A képletben szereplő betűk jelentése: xi = xa= átlagolandó érték, számtani átlag n= i= a megfigyelt elemek száma az elemek sorszáma (1-től n-ig) Abban az esetben, ha a sokaság több elemének azonos a számértéke, lehetőségünk van a számítások egyszerűsítésére. Ez azonban az azonos számértékű (= ismérvváltozatú) elemek előzetes összerendezését követeli meg Így a képlet a következőképpen módosul: m ∑f x i xa = i =1 k ∑f i m 66 és x a = ∑ g i xi i =1 i i =1 65 Azt a számtani átlagot, amelyiket ezzel a képlettel számítottunk ki egyszerű számtani átlagnak szokás nevezni. 66 Azt a számtani átlagot, amelyiket ezzel a képlettel számítottunk ki súlyozott számtani átlagnak szokás nevezni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 48 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 49
► A képletekben szereplő betűk jelentése: xi = xa= átlagolandó érték, számtani átlag fi = az azonos ismérvértékű elemek száma m= a különböző átlagolandó értékek (= az ismérvértékek) darabszáma i= az azonos ismérvértékű összefüggés: csoportok sorszáma (1-től m-ig) m ∑f i =n i =1 g i = az azonos ismérv-értékű elemek relatív gyakorisága Számtani átlagot akkor szokás számítani, ha • az átlagolandó értékek összegének értelme (= jelentése) van, • más számított középérték használata nem indokolt67. A számtani átlag több fontos tulajdonsággal68 rendelkezik, ezek ismerete lehetővé teszi számításaink egyszerűsítését69, eredményeink gyors (= ránézéses70) ellenőrzését, illetve újabb statisztikai módszerek kidolgozását71. A tulajdonságok közül itt és most egyet emelünk ki: a számtani átlag mindig az átlagolandó értékek intervallumán belül helyezkedik el. A számtani átlag
nagysága az átlagolandó értékek abszolút nagyságától és a súlyok relatív nagyságától, azaz egymáshoz viszonyított arányától függ. Az átlag minden esetben annak az átlagolandó értéknek a közelében helyezkedik el, amelyiknek a legnagyobb a relatív (= g i ) súlya. Nagyobb számértékű átlagolandó értékek nagyobb számértékű átlagot eredményeznek (és fordítva). Átlagolja a következő adatokat: 2, 4, 6 (átlag = 4); majd 3, 5, 7 (átlag = 5)! Átlagolja a következő adatokat: 2, 4, 6 először 3, 5, 7, majd 6, 10, 14 és végül 4, 8, 9 súlyokkal! Figyelje meg az átlagokat (4,53 – 4,53 – 4,48), vonjon le következtetéseket! 67 Így például, az iskolai bizonyítványok átlagát is számtani átlagként határozzuk meg, pedig az érdemjegyek összegének nincs értelme. (Természetesen sem szorzatuknak, sem négyzetüknek és reciprokuknak sem, így a többi ismertetett átlag-típus számítása sem indokolt) 68 Részletesen lásd:
– többek között – dr Köves P. – dr Párniczky G: Általános c tankönyvében 69 Pl.: az összetett sokaságok átlaga a részsokaságok átlagaként is, – tehát nemcsak az egyedi átlagolandó értékekből, – is meghatározható. (Lásd: vegyes kapcsolat) 70 Ne fogadjon el olyan eredményt, amelyik az átlag az átlagolandó értékek intervallumán kívül esik. Számításait azonnal kezdje újra! 71 Az un. négyzetes minimum tulajdonságot használható fel a trend- és a regresszióegyenletek illesztésekor A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 49 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 50 ► BEMUTATÓ FELADAT 3.1 sz tábla A korbetöltött rokkantsági nyugdíjasok megoszlása a teljes ellátás havi öszszege szerint, 2004. január férfiak az ellátás osztály- értékösszeg relatív gya- értékösszeg havi összege közép koriság „helyettes”
ezer Ft72 fő Ft – 9.999 10.000 – 19.999 20.000 – 29.999 30.000 – 39.999 40.000 – 49.999 50.000 – 59.999 60.000 – 69.999 70.000 – 79.999 80.000 – 89.999 90.000 – 99.999 100.000 – összesen fi si = f i * y i yi gi g i * yi 25 5.000 125. 0,000154 0,769472 114 15.000 1.710 0,000702 10,526380 759 25.000 18.975 0,004672 116,805900 9.265 35.000 324.275 0,057033 1996,1650 41.515 45 000 1.868175 0,255557 11500,0700 46.720 55.000 2.569600 0,287598 15817,8900 25.938 65.000 1.685970 0,159669 10378,4600 14.413 75.000 1.080975 0,088723 6654,24200 8.969 85.000 762.365 0,055211 4692,9500 6.098 95.000 579.310 0,037538 3566,1040 8.633 162.449 105.000 – 906.465 9.797945 0,053143 1 5579,9970 60313,9755 adatforrás: Magyar Statisztikai Évkönyv 2003 (KSH, 2004 161. old Társadalombiztosítás, szociális ellátás) 72 Ahol csak lehet, használja ki az ilyen egyszerűsítéseket (itt a számolás eredménye osztva
százzal), kevesebb számjegyet kell leírnia, ill. egy esetleges további számításnál visszabillentyűzni a zsebszámológépbe, és ez kevesebb hibalehetőséget rejt magában A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 50 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok xa = ∑fx ∑f i i i = Vissza ◄ 51 ► 9.797945000 ≅ 60.314 Ft 162.449 ♥ 2004-ben a korbetöltött rokkantsági nyugdíjas férfiak átlagosan 60.314 Ft ellátást73 kaptak havonta. Megjegyzések: • Tekintettel arra, hogy egy-egy osztályközbe (= egy-egy részsokasága) a sokaság több eleme tartozik, súlyozott átlagot számítottunk. • A rokkantsági nyugdíjak összegének (= értékösszegek összege) van jelentése (= összes ilyen címen kifizetett ellátás), tehát számtani átlagot számítottunk. • Osztályközös gyakorisági sor esetén az átlagolandó érték = osztályközép = xi = xa + x f
74 2 • A nyitott (= nincs alsó vagy felső határa)75 osztályközök osztályközepét a következő ill. a megelőző osztályköz szélességét feltételezve kell ki számítani. • Vegye észre, ha súlynak a relatív gyakoriságokat használjuk, akkor a g i xi feliratú oszlop – lásd: 3.1 sz tábla utolsó oszlopa – összesen rovata (minden további művelet elvégzése nélkül) magát az átlagot tartalmazza • A legnagyobb relatív gyakoriságot a [50 000 – 59 999] osztályköz mellett találjuk, tehát „erre felé” kell megtalálnunk az átlagot.76 73 74 Ellátás = rokkantsági nyugdíj x a = az adott osztályköz alsó határa és x f = az adott osztályköz felső határa. 75 Az osztályközöket egy-egy vizsgálathoz gyakran előre – korábbi tapasztalataink – alapján elkészítjük. Ha pedig a határokat már ekkor lezárnánk, akkor előfordulhatna, hogy a sokaság egy-egy elemét ki kellene hagynunk a besorolásnál, mert olyan nagy vagy
olyan kicsi értéket vettek fel, amire előre nem számítottunk. Ez pedig torzulást okozna, hamis eredményekhez vezetne. 76 Annak oka, hogy az átlag egy osztályközzel „feljebb csúszott”, az hogy a 60 ezer Ft feletti nyugdíjasok aránya (≅ 39 %) nagyobb, mint az 50 ezer Ft alatti nyugdíjasok aránya (≅ 32 %). A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 51 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 52 ► Számtani átlagot azonban nemcsak mennyiségi sorokból, hanem összegezhető idősorokból, azaz a tartam idősorokból is számíthatunk. Az idősoroknál alkalmazott jelöléseket használva a képlet így módosul: n ya = ∑y i =1 n i . Például az 1.2 sz tábla (Az élveszületések száma Magyarországon) adatai alapján: ya = 112.054 + 105272 + + 94647 − 92200 ≅ 98.792 fő , 10 ♥ azaz 1995 és 2004 között évente átlagosan 98.792
élveszületés történt hazánkban • Állapot idősorokból, ezek összege nem értelmezhető, egy speciális súlyozású számtani átlagot = kronologikus átlagot számítunk. y y1 n −1 + ∑ yi + n 2 i =2 2 y kr = n −1 Az 1.1 sz tábla adatai alapján: 10.337 10.236 + 10.321 + + 10142 + 2 = 10.236 ezer fő , ykr = 2 9 ♥ azaz hazánk népessége a vizsgált időszakban évente átlagosan 10.236 ezer fő volt • A számtani átlagot (és a későbbiekben tárgyalásra kerülő szórást is) kiszámíthatjuk a zsebszámológépek statisztikai programjával is. Ez feleslegessé teszi a 31 sz táblához hasonló nagyméretű munkatáblák kitöltését, azaz munkánk gyorsabbá válik. • Kapcsoljuk be a zsebszámológépet77! ON/C • Állítsuk át statisztikai programra! MODE ⇒ 1 ⇒ 0 77 SHARP EL-531WH (A gépekhez vásárláskor kapott használati útmutatóból derülhet ki, hogy az Ön gépe alkalmas-e statisztikai számítások végzésére, és ha igen, annak
leírását is csatolta a gyártó. Ha nem találja a korábban vásárolt gép leírását, keresse a gyártó honlapján!) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 52 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 53 ► • • Vigyük be az első átlagolandó értéket! szám(ok) ⇒ STO Vigyük be az első átlagolandó érték súlyadatát! szám(ok) ⇒ M+ • Ismételjük az utóbbi két műveletet – az előző sorrendben! – addig, amíg valamennyi átlagolandó értéket ill. azok súlyadatát be nem vittük a gépbe Nyerjük ki a rész- és a végeredményeket! • számtani átlag RCL , 4 • szórás RCL , 6 • • értékösszeg (= a számtani átlag számításakor a számlálóban szereplő adat) RCL , tizedespont . • elemszám (= a számtani átlag számításakor a nevezőben szereplő adat) RCL , 0 • az átlagolandó értékek négyzetének összege RCL
, +/- • • A zsebszámológép memóriája mindaddig megőrzi az eredményeket (kikapcsolás esetén is), amíg nem kezdünk (a fent leírt módon) egy újabb átlagszámításba. • Az eredmények kinyeréséhez használt billentyűk statisztikai funkcióját is láthatja a zsebszámológép előlapján; általában a szám- ill. műveleti billentyűk jobb felső sarkánál, apró, színes betűkkel A számtani átlag (és minden más statisztikai mutató is) meghatározható a személyi számítógépek EXCEL programjával is. (Ennek részletes leírása azonban meghaladja tananyagunk kereteit.) 3.3 A mértani átlag A mértani (= geometriai) átlag az a szám, melyet az átlagolandó értékek helyébe írva azok szorzata változatlan. Ebből a definícióból vezethető le a mértani átlag képlete: n n n xi ⇒ l = n −1 Π li = n −1 bn = n −1 Π xi = x gn ⇒ x g = n Π i =1 i =2 i =1 yn y1 A képletekben szereplő betűk jelentése: xi = átlagolandó érték,
xg= n= geometriai átlag a megfigyelt elemek száma A dokumentum használata | Tartalomjegyzék | Táblázatok i= az elemek sorszáma (1-től n-ig) Vissza ◄ 53 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 54 ► m ∑ fi x g = i =1 Π x i f i ⇒ l = ∑ i =1 m f i −1 m Π li fi = n−1 bn = n−1 i =2 yn y1 A képletben szereplő betűk jelentése: m= xi = xg= átlagolandó érték, geometriai átlag a különböző átlagolandó értékek (= az ismérvértékek) darabszáma i = az azonos ismérvértékű csoportok sorszáma (1-től m-ig) összefüggés: fi = az azonos ismérvértékű elemek száma m ∑f i =n i =1 g i = az azonos ismérv-értékű elemek relatív gyakorisága Az elsőként megadott képlettel az un. egyszerű78, a másodikként megadottal az un súlyozott mértani átlagot számítjuk A geometria átlagot akkor alkalmazzuk, ha az átlagolandó értékek
szorzatának van jelentése, így például a láncviszonyszámok átlagolására.79 BEMUTATÓ FELADAT A 2.3 sz tábla adatai alapján: l = 9 0,998 * 0,998 0,998 0,997 . * 0,998 = 9 0,979 = 9 10117 = 0,9976 ⇒ 99,76% ⇒ −0,24% 10337 l = 9 0,9986 * 0,997 3 = 0,9976 ♥ Magyarország népessége a vizsgált időszakban évente átlagosan 0,24 %kal csökkent. Az idősorokból a relatív változás (= láncviszonyszám) mellett, ahogy arról már volt szó80, az adatok abszolút változását is kiszámíthattuk. A láncviszonyszámokhoz hasonlóan ezek is átlagolhatók: 78 Egyszerű = az átlagolandó értékek egyszer-egyszer fordulnak elő. (Lásd: számtani átlag) 79 Lásd: az egyszerű geometria átlag ill. a súlyozott geometriai átlag képlete mellett, Lásd: 2.1 Dinamikus viszonyszámok l. ◄ 54 80 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék |
Táblázatok ◄ Vissza 55 ► n d= ∑d i i =2 n −1 = y n − y1 n −1 81Például: d= 10117 − 10337 ≅ −2,8 ezer fő 9 ♥ Magyarország népessége a vizsgált időszakban évente átlagosan ≅ 2800 fővel csökkent. 3.4 A négyzetes átlag A négyzetes (=kvadratikus =quadratikus) átlag az a szám, melyet az átlagolandó értékek helyébe írva azok négyzeteinek összege nem változik. Ebből a definícióból vezethető le a négyzetes átlag képlete: m n n ∑ x = nx ⇒ x q = 2 i 2 q i =1 ∑ xi2 i =1 n ∑f x i ill. xq = 2 i i =1 m ∑f m ∑g x = i 2 i i =1 i i =1 A képletekben szereplő betűk jelentése: xi = x q= átlagolandó érték, négyzetes átlag fi = az azonos ismérvértékű elemek száma m= a különböző átlagolandó értékek (= az ismérvértékek) darabszáma i= az azonos ismérvértékű csoportok sorszáma (1től m-ig) m összefüggés: ∑f i =n i =1 g i = az azonos ismérv-értékű
elemek relatív gyakorisága Az elsőként megadott képlettel az un. egyszerű, a másodikként megadottal az un súlyozott négyzetes átlagot számítjuk A számított átlagok ezen típusát akkor alkalmazzuk, ha az átlagolandó értékek négyzetének van jelentése, ill. akkor, ha az átlagolandó értékek között pozitív és negatív 81 Jelmagyarázat: lásd a 2.1 Dinamikus viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 55 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 56 ► előjelűek egyaránt előfordulnak, de az előjeleknek vizsgálatunk szempontjából nem tulajdonítunk jelentőséget. Így például a négyzetes átlag az átlagolandó értékek átlagtól való átlagos eltérésének vizsgálatára is (különösen) alkalmas82 3.5 A harmonikus átlag A harmonikus átlag az a szám, melyet az átlagolandó értékek helyére írva azok reciprokainak
összege változatlan. Ebből a definícióból vezethető le a harmonikus képlete: m n m 1 = nx h ⇒ x h = ∑ i =1 x i n 1 ∑x i =1 xh = ill. ∑f i =1 n fi ∑x i =1 i i 1 gi ∑ i =1 x i = m i A képletekben szereplő betűk jelentése: xi = xh= átlagolandó érték, harmonikus átlag fi = az azonos ismérvértékű elemek száma m = a különböző átlagolandó értékek (= az ismérvértékek) darabszáma i= az azonos ismérvértékű csoportok sorszáma (1től m-ig) m összefüggés: ∑f i =n i =1 g i = az azonos ismérv-értékű elemek relatív gyakorisága Az elsőként megadott képlettel az un. egyszerű, a másodikként megadottal az un súlyozott harmonikus átlagot számítjuk A számított átlagok 82 Alkalmazására bemutató példát is csak a szóródás taglalásánál talál. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 56 ► Statisztika Középértékek A dokumentum használata |
Tartalomjegyzék | Táblázatok ◄ Vissza 57 ► ezen típusát akkor alkalmazzuk83, ha az átlagolandó értékek reciprokának van jelentése. Például, dolgozók az adott munkamennyiség elvégzéséhez szükséges idejét nem összegezhetjük, hiszen ha együtt végeznék az előírt feladatot, nyilván a leghosszabb egyéni időnél is kevesebbre lenne szükségük a teljesítéshez. Az adott munkamennyiség elvégzéshez szükséges idők reciproka (= egységnyi időre jutó teljesítmény) azonban értelmes. 3.6 Módusz A módusz a legtöbbször előforduló (= legáltalánosabb = tipikus = a legdivatosabb) ismérvérték a sokaságban. Diszkrét ismérvváltozatok esetén: a leggyakrabban előforduló ismérvérték; folytonos ismérvváltozatok esetén: a gyakorisági görbe84 csúcspontjához tartozó ismérvérték. A módusz értékének meghatározása diszkrét ismérvváltozatok esetén ránézéssel történik. A módusz az az ismérvérték, amelyik mellett a
legnagyobb előfordulást f max vagy a legnagyobb relatív gyakoriságot g max (megoszlási viszonyszámot, wmax ) találjuk. 3.2/ a sz tábla Egy hallgatói csoport megoszlása a statisztika vizsgaeredmények alapján eredmények 1 2 3 = Mo 4 5 hallgatók (fő) 25 50 = f max 20 13 12 ♥ Az adott hallgatói csoportban tehát a leggyakrabban előforduló vizsgaeredmény a közepes (3). Az osztályközös gyakorisági sorból a módusz meghatározása a fentieknél egy kicsit bonyolultabb. Először ellenőriznünk kell, hogy az osztály83 Ezen átlagtípust leggyakrabban azonban csak „formaként” használjuk, pl ha számtani átlagot akarunk számítani, de nem ismerünk minden alapadatot, akkor így is dolgozhatunk: m m xa = ∑s i =1 m ∑f i =1 84 i = i ∑s i =1 m i (A további felhasználásokat lásd: standardizálás, ár-, érték-, volumenindex-kör.) si ∑ i =1 x i Lásd: a statisztikai adatok ábrázolása. A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 57 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 58 ► közök azonos szélességűek-e. Ha igen, akkor ki kell választanunk a modális osztályközt (= ahol a módusz elhelyezkedik)85. Majd be kell helyettesítenünk a módusz képletébe86 a megfelelő adatokat. Mo = mo + k1 h k1 + k 2 A képletben szereplő betűk jelentése: Mo = módusz k1 = f mo − f mo −1 vagy k1 = g mo − g mo −1 mo = x mo ,alsó = k 2 = f mo − f mo +1 a móduszt tartalmazó osztályköz alsó határa vagy f mo +1 = k 2 = g mo − g mo +1 g mo = a móduszt tartalmazó a móduszt tartalmazó osztályközt követő oszosztályköz relatív gyakotályköz megfigyelt gyakorisága risága g mo +1 = a móduszt tartalmazó osztályközt követő osztályköz relatív gyakorisága f mo = a móduszt tartalmazó osztályköz megfigyelt gyakorisága f mo −1 = a móduszt tartalmazó
osztályközt megelőző osztályköz megfigyelt gyakorisága g mo −1 = a móduszt tartalmazó osztályközt megelőző osztályköz relatív gyakorisága h = x mo, felső − x mo,alsó = x mo, felső = a móduszt tartalmazó osztályköz szélessége móduszt tartalmazó osztályköz felső határa 85 Ha nem, akkor átalakítást kell végeznünk, de ez nem képezi tananyagunk részét. A módusz értékének ábrával történő meghatározása sem képezi tananyagunk részét, de jó tudnunk, hogy a képlet az ábra koordináta geometriai „lefordítása”. 86 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 58 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 59 ► BEMUTATÓ FELADAT A 3.1 sz tábla adatai alapján dolgozunk 40.000 – 49 999 41515 45.000 1.868175 0,255557 11500,0700 50.000 – 59 999 46720 55.000 2.569600 0,287598 15817,8900 60.000 – 69 999 25938 65.000
1.685970 0,159669 10378,4600 Mo = mo + 50.000 + k1 46.720 − 41515 h = 50.000 + (60.000 − 50000) = (46.720 − 41515) + (46720 − 25938) k1 + k 2 0,287598 − 0,255557 (0,287598 − 0,255557) + (0,287598 − 0,159669) (60.000 − 50000) ≅ 52000 eFt ♥ 2004. januárjában a korbetöltött rokkantnyugdíjas férfiak havi ellátásának leggyakoribb összege 5200087 Ft volt Úgy is fogalmazhatunk, hogy a megfigyelt nyugdíjak sűrűsödési88 pontja 52.000 Ft 3.7 Medián A medián az az érték, amelyiknél a sokaság elemeinek egyik fele kisebb értéket, a másik fele pedig nagyobb értéket vesz fel. A medián értékének kiszámítása sorszámának meghatározásával kezdődik, majd a medián helyének kiválasztásával folytatódik. A következő lépés pedig attól függ, hogy a ismérvváltozataink diszkrétek avagy folytonosak-e n +1 A medián sorszáma: s Me = 2 A képletben szereplő betűk jelentése: s Me = n= a medián sorszáma a sokaság elemeinek
száma 87 A módusz kiszámított értékét (52002,9 Ft) a megfigyelt adatok nagyságrendjére kerekítettük. 88 A második megfogalmazás kifejezi, hogy nem ismerjük (az adatokat osztályközbe rendezve kaptuk) valamennyi nyugdíjas ellátásának összegét, így szélső esetben meg az is előfordulhat, hogy az általunk kiszámított 52.000 Ft nem is szerepelt az eredeti adatok között, de abban biztosak lehetünk, hogy az ellátások összege e körül az összeg körül tömörül. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 59 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 60 ► A medián helyének meghatározásához adatainkat az ismérvváltozatok szerint növekvő sorrendbe kell rendezni. ( Lásd: 15, 31 és 32 sz táblánk; ezeket a szokásoknak megfelelően eleve így adtuk meg.) Majd a megfigyelt vagy a relatív gyakoriságokból képezni kell az un. felfelé kumulált
gyakorisági sort Ennek a statisztikai sornak egyes adatai ( f i′) megmutatják, hogy egy bizonyos xi értéket és annál kisebb értéket a sokaság elemei közül hány elem vesz fel, vagy a sokaság elemeinek hányad része (g i′ ) veszi fel. BEMUTATÓ FELADAT 3.3 sz tábla (Lásd: 31 sz tábla) az ellátás havi összege Ft – 9.999 – kumulált relatív gyakorisági sor – gi g i′ férfiak kumulált relatív gyakogyakorisági riság sor fő fő f i′ fi 25 25 0,000154 0,000154 10.000 – 19999 114 139 0,000702 0,000856 20.000 – 29999 759 898 0,004672 0,005528 30.000 – 39999 9.265 10.163 0,057033 0,062561 40.000 – 49999 41.515 51.678 0,255557 0,318118 50.000 – 59999 46.720 98.398 0,287598 0,605716 60.000 – 69999 25.938 124.336 0,159669 0,765385 70.000 – 79999 14.413 138.749 0,088723 0,854108 80.000 – 89999 89.69 147.718 0,055211 0,909319 90.000 – 99999 6.098 153.816 0,037538 0,946857 100.000 –
8.633 162.449 0,053143 1 összesen 162.449 – 1 – ♥ A vizsgált nyugdíjasok (162.449 fő) közül 10613 fő, azaz az összlétszám 6,3 %-a kapott a megfigyelt hónapban legfeljebb 40.000 Ft havi ellátást A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 60 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 61 ► A medián helye pedig ott található, ahol teljesül a következő nagyságrendi reláció: f i′〉 s Me Példánkban sMe = n + 1 162.449 + 1 = = 81.225 , 2 2 ennél a sorszámnál a 6. osztályköz kumulált gyakorisága (98398) már nagyobb, tehát a medián ebben az osztályközben található89 Ha ismérvváltozataink diszkrétek lettek volna, akkor munkánk itt véget is ér A mediánt (mint a móduszt is) ránézéssel meg tudjuk állapítani90. Állapítsa meg a 3.2/a sz táblából a medián értékét! 3.2/b tábla Egy hallgatói csoport megoszlása a
statisztika vizsgaeredmények alapján eredmények 1 2 3 =Me 4 5 hallgatók (fő) 12 25 50 20 13 kumulált gyak. 12 37 87 > 60. 107 120 ♥ A hallgatók egyik fele közepesnél rosszabb, a másik fele pedig közepest jobb eredményt ért el a vizsgán. (Tekintettel arra, hogy ötvenen kaptak közepest, kicsit furcsán hangzik a megfogalmazás, de ha arra gondolunk, hogy a közepesek között is, pl. a teljesítmény-százalék alapján, tudunk különbséget tenni, akkor már nem is olyan megdöbbentő a medián fentiekben leírt megfogalmazása.) A folyamatos ismérvváltozatok esetén azonban, a módusz becsléséhez hasonlóan, képletre van szükségünk. Me = me + 89 ′ −1 ′ −1 s Me − f me 0,5 − g me * h = me + *h f me g me Ha a relatív gyakoriságokkal akarunk dolgozni, akkor természetesen a medián sorszá- ma mindig 0,5, ez ∑g i fele, de ebben az esetben is ugyanazt az osztályközt választjuk ki, hisz 0,605716 már nagyobb 0,5-nél.
90 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 61 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 62 ► A képletben szereplő betűk jelentése: Me = a medián ′ −1 = f me a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága f me = mediánt tartalmazó osztályköz gyakorisága me = x me ,alsó = a mediánt tartalmazó osztályköz alsó határa ′ −1 = g me s Me = a medián sorszáma h = x me, felső − x me,alsó = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált relatív gyakorisága a mediánt tartalmazó osztályköz szélessége g me = x me,alsó = a mediánt tartalmazó osztályköz kumulált relatív gyakorisága a mediánt tartalmazó osztályköz alsó határa xme, felső = a mediánt tartalmazó osztályköz alsó határa ′ −1 sMe − f me 81.225 − 51678 (60.000 − 50000) = * h = 50.000 + f me
46.720 0,5 − g ′me−1 0,5 − 0,318118 (60.000 − 50000) ≅ 56324 Ft me + * h = 50.000 + g me 0,287598 Me = me + ♥ A vizsgált nyugdíjas férfiak egyik fele ≅56.300 Ft-nál kisebb, másik fele pedig ennél nagyobb összegű ellátást kapott 2004. januárjában Megjegyzések: • Az osztályközös gyakorisági sorból számított módusz és medián soha nem „lóghat ki” a kiválasztott osztályközből. • A medián képletének értelemszerű alkalmazásával a sokaság más osztópontjait is meg tudjuk határozni, ezeket pedig pl., a sokaság szimmetriájának elemzéséhez használjuk fel Q1 = Qa = alsó kvaritlis (quartilis) = az az érték, melynél a sokaság elemeinek negyed része kisebb, háromnegyed része pedig nagyobb értéket vesz fel. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 62 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Középértékek Vissza ◄ 63 ► Q3 = Q f = felső
kvaritlis (quartilis) = az az érték, melynél a sokaság elemeinek háromnegyed része kisebb, egynegyed része pedig nagyobb értéket vesz fel. D1 = első decilis = az az érték, melynél a sokaság elemeinek egy tized része kisebb, kilenc tized része pedig nagyobb értéket vesz fel. D9 = kilencedig decilis = az az érték, melynél a sokaság elemeinek kilenc tized része kisebb, egy tized része pedig nagyobb értéket vesz fel stb. 3.8 Gyakorló feladatok 1. feladat A következőkben felsorolt számtani átlagokról döntse el, hogy azok milyen típusúak! átlagok: 1. 2. 3. 4. 5. Egy általános iskolás kisgyermek nap, mint nap feljegyezte hány perc az út otthonról az iskolába. Majd kiszámította az átlagos idő-szükségletet Egy édesanya egy éven keresztül feljegyezte a család napi villamos-energia fogyasztását. Minden hónap végén kiszámította az egy napra jutó fogyasztást Majd az év végén a havi átlagokat felhasználva újra kiszámolta a
napi fogyasztás átlagát. Egy egyetemi évfolyamon kikérdezték a hallgatókat tanulási szokásaikról. Többek között arra voltak kíváncsiak, hogy a kötelező órákon kívül naponta mennyi időt töltenek tanulással. A kikérdezés után az összegyűjtött adatokat kombinációs táblába rendezték. A tábla oldalrovataiban a tanulásra fordított idő (órában) szerepelt; az adatokat osztályközökbe rendezték. A tábla fejlécében az egyetem különböző szakjai szerepeltek Először kiszámították a szakonkénti átlagos tanulási időt. Majd az egyetem adott évfolyamának egészére is elvégezték a számítást. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 63 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 64 ► 2. feladat Döntse el, – a számtani átlag tulajdonságai ill. a nagyságát befolyásoló tényezőkről tanultak alapján – hogy lehetnek-e az
alábbi átlagok a megadott számpéldák megoldásai! átlagok a) b) c) d) e) x = 1500USD x = 2144 fő x = 6,95kg x = 21440 fő x = 4,95kg számpéldák: 1. Egy állattenyésztő juhállományának gyapjúhozamát vizsgálták. A gyapjúhozamra vonatkozó megfigyelt adatokat (kg) osztályközökbe rendezték Az első osztályköz: − 4,5 , az utolsó osztályköz 8,5 − . Az osztályközök kilogrammonként növekedtek, és a gyakoriságok a középső osztályközöknél tömörültek. 2. Egy pénzintézetben a lakossági devizaszámlákon található összegeket (USD) rendezték osztályközös gyakorisági sorba. Az első osztályköz: − 100 , az utolsó két osztályköz 50.001 − 10000 ill 100001 − A gyakoriságok a felsőbb osztályközöknél tömörültek. 3. Zala megye településeit a települések lakóinak száma (fő) szerint rendezték osztályközös gyakorisági sorba. Az első osztályköz: − 499 , az utolsó két osztályköz 10.000 − 49999
ill 50000 − A gyakoriságok az alacsonyabb értékű osztályközöknél tömörültek. 3. feladat Egy vállalkozásnál a női dolgozók átlagkeresete 75.000,– Ft / hó, férfiaké pedig 95.000,– Ft / hó A vállalat egyes telephelyein az egy dolgozóra jutó béradatokat az alábbi tábla tartalmazza. I. telephely y a = 90.000 Ft / hó II. telephely y a = 88 . 000 Ft / hó III. telephely IV. telephely y a = 86.000 Ft / hó y a = 80.000 Ft / hó Számítással mutassa be, hogy mi a különbség az egyes telephelyek között, hogy az azonos férfi, női átlagbér ellenére más-más átlagbér adódott! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 64 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 65 ► 4. feladat Néhány egyetemi szak hallgatóinak teljesítményei matematikából az első zárthelyi dolgozat alapján: teljesítmény gépészmérnökök informatikus
közgazdász % villamosmérnökök fő - 5091 30 20 34 35 51 – 60 20 20 68 88 61 – 70 10 15 34 88 71 – 80 10 10 22 35 81 – 90 6 3 11 28 91 – 4 2 11 6 összesen 80 70 180 280 1. Számítsa ki szakonként és a négy csoportra együttesen is a teljesítmények átlagát! Az együttes átlagot kétféleképpen is számítsa ki! 2. Számítsa ki szakonként és a négy csoportra együttesen is a helyzeti középértékeket, a kvartiliseket és a deciliseket! 3. Minden kiszámított adat jelentését fogalmazza meg! 4. Nevezze meg az adat-tábla típusát, a táblában található statisztikai sorok típusát, darabszámát! 91 Figyelje meg! Bemutató példánkban az osztályközök 9-es számjeggyel végződte, ezért a számítások úgy voltak egyszerűbbek, hogy a következő osztályköz alsó határát tekintettük az előző felső határának. Itt fordított a helyzet Nincs szabály, az egyszerűbb számításra törekedjen A
dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 65 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 66 ► 5. feladat Írja fel az alábbiakban megadott átlagok számítását, majd fogalmazza alábbiakban jelentésüket! I. II. a gépkocsik számának változása egy fagylaltárus bevételeinek alakulása tárgy / bázis (%) +2 hol ? januártól áprilisig havi + 3 % áprilistól augusztusig havi +135 % a vidéki városokban + 4 augusztus októberig havi – 20 % községekben októbertől januárig havi – 40 % Budapesten –1 3.9 Összefoglalás középérték fajtái = a sokaság elemei között középső helyet elfoglalva lehetővé teszi a sokaság jellemzését egyetlen adattal 1. számított = értékét minden megfigyelt adat befolyásolja 2. helyzeti = értékét nem minden megfigyelt adat befolyásolja számított középértékek fajtái 1. 2. 3. 4. számtani
átlag mértani átlag négyzetes átlag harmonikus átlag helyzeti középértékek fajtái A dokumentum használata | Tartalomjegyzék | Táblázatok 1. módusz 2. medián Vissza ◄ 66 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok számtani átlag92 fajtái az átlagolandó értékek előfordulása alapján fajtái összetett sokaság esetén képletei tulajdonságok Vissza ◄ 67 ► = az a szám, melyet az átlagolandó értékek helyébe írva azok összege változatlan 1. egyszerű = minden átlagolandó érték egyszer fordul elő 2. súlyozott = az átlagolandó értékek többször fordulnak elő 1. részátlag 2. főátlag = az egyes részsokaságokra jellemző = a teljes (fő) sokaságra jellemző 1. egyszerű 2. súlyozott 1. legfontosabb xa = ∑x i n xi (min) 〈 x a 〈 xi (max) 2. xa = ∑f x ∑f i i i megjegyzés rokonság az értékét befolyásoló tényezők ez a tulajdonság
valamennyi középértékre igaz intenzitási viszonyszámmal 1. egyszerű 2. súlyozott összefüggés a részés a főátlag között mértani átlag négyzetes átlag a főátlag = az átlagolandó értékek abszolút nagysága az átlagolandó értékek abszolút nagysága + a súlyok relatív nagysága a részátlagok súlyozott számtani átlaga = az a szám, melyet az átlagolandó értékek helyébe írva azok szorzata állandó = az a szám, melyet az átlagolandó értékek helyébe írva azok négyzeteinek összege állandó 92 FONTOS: 1. A számtani átlag a legtöbb, a továbbiakban ismertetésre kerülő statisztikai elemzési módszerben előfordul, így tudása az egész tantárgy tanulása érdekében nélkülözhetetlen. 2. Samuelson92 szerint, mindent, amit a gazdasági életről tudunk a statisztika alapján tudjuk, így tantárgyunk egy közgazdásznak a többi tantárgy tanulásához is nélkülözhetetlen. A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 67 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok harmonikus átlag ◄ Vissza 68 ► = az a szám, melyet az átlagolandó értékek helyébe írva azok reciprokainak összege állandó fajtáik • az átlagolandó értékek előfordulása alapján • összetett sokaságok esetén képletek lásd: számtani átlag harmonikus xh = n xh = 1 ∑x i ∑f f ∑x i = i i 1 g ∑ xi i négyzetes xq = ∑x 2 i n xq = ∑f x ∑f i 2 i = ∑g x i 2 i i mértani x g = ∑ i Πxifi = Πxigi x g = n Πx i alkalmazásuk 1. harmonikus 2. négyzetes 3. mértani nagyságrendjük f ha az átlagolandó értékek reciproka értelmes ha az átlagolandó értékek négyzete értelmes vagy ha az átlagolandó értékek nem mindegyikének azonos az előjele, és az előjelnek nem tulajdonítunk jelentőséget szórás ha az átlagolandó értékek szorzatának van értelme lánc
viszonyszámok átlagolása xh 〈 x g 〈 xa 〈 xq legfontosabb tulajdonságuk a rész- és főátlag összefüggése lásd: számtani átlag az értéküket befolyásoló tényezők A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 68 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 69 ► 3.10 Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy lakótelepi háztömb egyik lépcsőházának melegvíz-fogyasztási adatai (2005. január): fogyasztás lakások m3-re kerekítve 2 3 4 5 6 7 8 összesen db 2 3 5 20 19 5 6 60 Töltse ki az alábbi eredmény-táblát! eredmény-tábla feladat statisztikai jel számítás számszerű eredmény + mértékegység megfogalmazás a sokaságot jellemző számított középérték: a leggyakoribb vízfogyasztás a rangsor középső lakosának vízfogyasztása: A dokumentum használata | Tartalomjegyzék | Táblázatok
Vissza ◄ 69 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 70 ► 2. minta Egy hallgatói csoport megoszlása a tanulóbiztosítás féléves díjai szerint: 2,0 – 2,5 2,5 – 3,0 3,0 – 3,5 3,5 – 4,0 összesen hallgatók fő 30 25 20 15 Töltse ki az alábbi eredmény-táblát! eredmény-tábla 15 10 5 60 biztosítási díjak feladat ezer Ft 0,0 – 1,2 statisztikai jel 1,2 – 1,5 1,5 – 2,0 számítás számszerű eredmény + mértékegység megfogalmazás a sokaságot jellemző számított középérték: a leggyakoribb biztosítási díj a rangsor középső tagjának biztosítási díját A szürke háttérrel és vastagabb kerettel kiemelt osztályközhöz tartozó adatok: osztályközép kumulált gyakoriság relatív gyakoriság kumulált relatív gyakoriság értékösszeg relatív értékösszeg kumulált relatív értékösszeg A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 70 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 71 ► 3. minta Az élveszületések (97301 fő) megoszlása az újszülöttek születési súlya alapján 1998-ban: Minden részadatnak csak az első két tizedesét másolja át a lapra. (Ne kerekítsen, csak másoljon!) születési súly az újszülöttek munkatábla megoszlása gramm % - 1.000 0,5 1.001 – 1500 0,7 1.501 – 2000 1,7 2.001 – 2500 5,4 2.501 – 3000 19,4 3.001 – 3500 37,7 3.501 – 4000 26,5 4.001 - 8,1 összesen 100,0 Számítsa ki a sokaságot jellemző számított középértéket! Írja ide a kiszámított középértéket! Csak az egész számok kellenek. Csak másoljon, kerekíteni nem kell. Számítsa ki a szóródás leggyakrabban használt abszolút és relatív mutatóját! Írja ide a kiszámított relatív szóródási mutatót! Csak az egész számok kellenek. Csak másoljon,
kerekíteni nem kell. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 71 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 72 ► Döntse el igazak (I) avagy hamisak (H)-e az alábbi állítások! sorszám megfogalmazás Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = megfigyelt 1. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a 1000 gramm alatti súllyal jött világra. Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított 2. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 század része 1000 gramm alatti súllyal jött világra. Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított 3, adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a átlagosan 500 gr súllyal jött világra. Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított 4. adat, jelentése: 1998-ban az
élveszületett csecsemők 0,5 %-a átlagosan 750 gr súllyal jött világra. 5. Az Ön által kiszámított adatok mértékegysége nem azonos. megoldás 1. 2. 3. 4. 5. Döntse el igazak (I) avagy hamisak (H)-e az alábbi állítások! sorszám 1. 2. 3. 4. megfogalmazás Az „újszülöttek megoszlása” oszlop (lásd: munkatábla) adatai relatív gyakoriságok. A „születési súly” oszlop (lásd: munkatábla) adatai jelentik az átlagolandó értékeket, s Ön szabadon döntheti el, hogy a két szám közül melyikkel dolgozik. A számított középérték és a szóródás abszolút mutatója súlyozott formában számítandó, hiszen az egyes osztályközökbe nem egy-egy csecsemő tartozik. Súlynak választható a megfigyelt gyakoriság ( f i ) , a megoszlási viszonyszám (g i ) , vagy a relatív gyakoriság (wi ) . Súlynak választható a megfigyelt gyakoriság ( f i ) , a megoszlási vi- 5. szonyszám (wi ) , vagy a relatív gyakoriság (g i ) . megoldás 1.
2. 3. A dokumentum használata | Tartalomjegyzék | Táblázatok 4. 5. Vissza ◄ 72 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 73 ► 4. minta Tekintettel arra, hogy a számtani átlag és a – következő fejezetben ismertetésre kerülő – szóródás legfontosabb mutatóinak kiszámítása – sok éves tapasztalat – a hallgatók egy jelentős részének nagy gondot okoz, további, a vizsgákon már sokszor szerepelt számpéldákat is közlünk megadva a számtani átlag és a szórás aktuális értékét. Természetesen a feladatokban szereplő adatokból minden egyéb mutatót – módusz, medián stb. kiszámíthat gyakorlásképpen A feladatokat előveheti a becslés témakörnél (Stat. II) is, elvégezheti az átlag, a szórás az értékösszeg (kitalálva egy kiválasztási arányt), valamint az egyes osztályközökbe tartozó elemek arányának intervallumbecslését is. 4.1 Egy
biztosító társaság új poggyászbiztosításának előkésítése során mintavételes technikával vizsgálja az utazók szokásait, többek között a poggyászok értékét. A megfigyelt adatok: a poggyász értéke Ft93 - 1.000 1.001 – 15000 15.001 – 20000 20.001 – 30000 az utasok száma fő 3 20 35 17 ♥ xa = 22.940 Ft a poggyász értéke Ft 30.001 – 40000 40.001 – 50000 50.001 – összesen az utasok száma fő 10 8 7 100 σ = 14.009 Ft 93 Gyakorlati tanácsok: Célszerű a zsebszámológépbe való billentyűzésnél a sok-sok nullát elhagyni, azaz ezerrel egyszerűsíteni, úgy is mondhatjuk: ezres nagyságrendben dolgozni. Jusson eszébe, az osztályközök alsó határainak utolsó számjegye (1) a megkülönböztetés miatt szükséges, az osztályközepek meghatározásánál nem vesszük figyelembe. Jusson eszébe, a nyitott osztályközök közepének megállapításakor olyan szélesnek feltételezzük azokat, amilyen széles a szomszédos
osztályköz. (Természetesen az első osztályköz nem kezdődhet negatív számmal) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 73 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 74 ► 4.2 Egy vállalkozás részmunkaidős dolgozóinak nettó átlagfizetés szerintimegoszlása: nettó átlagfizetés ezer Ft - 50 50 – 60 60 – 70 70 – 80 összesen dolgozók fő 20 50 100 30 200 ♥ xa = 62 ezer Ft σ ≅ 8,4 ezer Ft 4.3 Egy városban, az egyik évben a felépült lakások alapterület szerinti megoszlása a következő volt. alapterület lakások m2 % 35,0 – 45,0 10 45,1 – 55,0 20 55,1 – 65,0 35 65,1 – 75,0 25 75,1 – 85,0 10 összesen 100 ♥ xa = 60,5 m2 σ ≅ 11,2 m2 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 74 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄
75 ► 4.4 Egy magyarországi település vállalkozásainak megoszlása a foglalkoztatott létszám alapján: létszám fő – 20 21 – 50 51 – 100 101 – 300 301 – 500 501 – 1000 1001 – összesen vállalkozás db 20 12 9 12 3 3 1 60 ♥ xa ≅ 140 fő94 σ ≅ 228 fő 4.5 Egy település max. 5 főt foglalkoztató kereskedelmi egységeinek megoszlása havi bevételük alapján: bevétel millió Ft – 18,0 18,1 – 22,0 22,1 – 26,0 26,1 – 30,0 30,1 – 34,0 34,1 – összesen ♥ xa ≅ 23,9 millió Ft kereskedelmi egység db 6 10 10 8 5 1 40 σ ≅ 5,3 millió Ft 94 A létszámadatokból számított átlagokat, szórásokat a – megfogalmazások során – mindig kerekítse egészekre! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 75 ► Statisztika Középértékek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 76 ► 4.6 Egy nagykereskedelmi vállalat raktárában az ott tárolt 80.000 db
dobozos üdítőital töltési tömegének ellenőrzésére 300 elemű mintát vettek. A minta adatai: töltési tömeg doboz gramm db – 940 15 941 – 960 21 961 – 980 51 981 – 1.000 60 1.001 – 1020 63 1.021 – 1040 42 1.041 – 1060 30 1.061 – 18 összesen 300 ♥ xa ≅ 1001 gramm σ ≅ 35,8 gramm A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 76 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Szóródás Vissza ◄ 77 ► 4. Szóródás 4.1 A szóródás fogalma Ha az 1.5, a 31 vagy a 32 sz tábla ismérvváltozatait (= átlagolandó értékeit) szemügyre vesszük, különösebb vizsgálódás nélkül is láthatjuk, hogy azok eltérnek egymástól, és ugyanezt tapasztaljuk akkor is, ha adatainkat a saját számtani átlagukhoz (173 millió Ft; 60314 Ft; 2,975 ≅ 3 /közepes/) hasonlítjuk. Ezt a két jelenséget nevezzük szóródásnak A szóródás vizsgálatára azért van
szükségünk, mert így tájékozódhatunk arról, hogy az átlag (= x a ) mennyire jellemző arra a sokságra, melynek adataiból kiszámítottuk, ill. különböző sokaságokat összehasonlíthatunk ebből a szempontból is; továbbá a szóródási mutatókat újabb vizsgálatokhoz (pl: szimmetria) használhatjuk fel. 4.2 A szóródás legfontosabb mutatói Az átlagolandó értékek és az átlag közötti eltérés elemzésére több különféle mutató áll rendelkezésünkre • • • • • terjedelem, kvartilis eltérés, átlagos eltérés, szórás, relatív szórás. Az átlagolandó értékek egymástól való eltérésének elemzésére leggyakrabban az átlagos különbség (= az eltérések átlaga = G) nagyságát szokás meghatározni. A terjedelem a legkisebb és a legnagyobb átlagolandó érték különbsége (R = x min − x max ) , kijelöli azt az intervallumot, amiben az átlag elhelyezkedik. Gyakorlati haszna azonban nem túl nagy, mert a szélső
értékeket a véletlen szeszélyei erősen befolyásolják. A kvartilis eltérés a terjedelemhez hasonlóan különbség jellegű mutató (ITQ = Q3 − Q1 ) , nagyságát a szélső értékek már nem befolyásolják, s mert a rangsorba95 állított adatok középső 50 %-át határolja, alkalmas a kiugró értékek feltárására. 95 A megfigyelt adatok növekvő sorba rendezett halmaza. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 77 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 78 ► Az átlagos eltérés az egyes átlagolandó értékek és az azokból számított számtani átlag különbségeinek (d i = xi − x a ) számtani átlaga. A különbségek átlagolása során azok előjelétől eltekintünk96, vagyis a különbségek abszolút értékével dolgozunk. Az egyszerű számtani átlagok „párjaként” egyszerű, a súlyozott számtani átlagok „párjaként” pedig
súlyozott átlagos eltérést számítunk. k n egyszerű: δ = ∑ di i =1 n súlyozott: δ= ∑f di i i =1 k ∑f i i =1 A szóródás eddig taglalt mutatóinak képleteiben szereplő betűk jelentése: di = n = ∑ fi = fi = gi = = megfigyelt előfordulások relatív gyakoriság ITQ = x min = az átlagolandó érték és számtani átlag különbsége a megfigyelések darabszáma δ= R= átlagos eltérés terjedelem interkvartilis terje- a legkisebb átlagodelem landó érték Q 1 = Qa = Q 3= Q f = alsó kvartilis felső kvartilis i = 1,2,. a különböző átlagolandó értékek sorszáma x max = a legnagyobb átlagolandó érték Az átlagolandó értékek és az átlag eltérésének jellemzésére azonban leggyakrabban nem az eddig felsoroltakat, hanem a szórás és a relatív szórás mutatóját használjuk. A szórás mellett szól egyrészt a számtani átlag kvadratikus minimum tulajdonsága97, másrészt az a tény, hogy a továbbiakban
fontos mutatók98 képezhetők segítségével. 96 97 Az átlagtól való eltérések előjeles összeg = 0 (Lásd: a számtani átlag tulajdonságai.) ∑ (x − a ) = min., ha a = x a ill 2 i ∑ f (x i − a ) = min., ha a = x a Úgy is 2 i fogalmazhatunk, hogy a számtani átlag az a középérték, amelyik legközelebb áll az egyes átlagolandó értékekhez. 98 Lásd: aszimmetria, ismérvek közötti kapcsolatok. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 78 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 79 ► A szórás (= σ ) az átlagolandó értékek és az átlag eltérésének négyzetes átlaga, a szóródás abszolút mutatója, melynek mértékegysége mindig azonos az átlagolandó értékek és az átlag mértékegységével. Ha egyszerű számtani átlagot számítottunk, akkor a tapasztalati (1.) ill az elméleti (2.) szórás képlete: n ∑ d i2 1. σ = i =1
n n = n ∑ (xi − xa )2 ∑ d i2 2. s = i =1 n i =1 n −1 n = ∑ (x − xa ) 2 i i =1 99 n −1 Ha súlyozott számtani átlagot számítottunk, akkor a tapasztalati(1.) ill az elméleti (2.) szórás képlete: k 1. σ = ∑ k f i d i2 = i =1 k ∑ i =1 fi ∑ i =1 f i ( xi − x a ) k 2 k ∑ = ∑g d i ∑ f (x i k 2 i 2. s = i =1 i =1 fi i =1 − xa ) 2 i k ∑f i i =1 Fontos, figyelnünk a szórás átlag-voltára. Mint minden átlag esetén, itt is igaz, hogy az átlagnak (= itt a szórás) a legkisebb és a legnagyobb átlagolandó értékek (= itt az átlagtól való eltérések) között kell elhelyezkednie, azaz [d min 〈σ 〈 d max ] . A relatív szórás (= v ) a szórás és a számtani átlag hányadosa; melyet – elsősorban a megfogalmazás megkönnyítése érdekében, – százalékban is kifejezhetünk. Ez a mutató lehetővé teszi, hogy összehasonlítsuk különböző sokaságok (különböző
nagyságrendű és mértékegységű) szóródását. A relatív szórás képlete: v= σ xa 99 A nevezőben szereplő „-1”-re a Becslés c. fejezetben kapnak magyarázatot (A becslés témakörének tárgyalásáig számításainkat mindig az (1.) sz képletek szerint végezzük) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 79 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 80 ► A képletekben szereplő betűk jelentése: σ= xi = xa= szórás átlagolandó érték, számtani átlag d i = xi − x a = az átlagolandó értékek és a számtani átlag abszolút eltérése gi = fi ∑ fi fi = k az azonos ismérvértékű elemek száma összefüggés: i= k= az azonos ismérvértékű az azonos ismérv-értékű csoportok sorszáma (1elemek relatív gyakorisága től k-ig) ∑f i =n i =1 a különböző átlagolandó értékek (= az ismérvértékek) darabszáma v=
relatív szórás Az átlagos különbség értékének meghatározása rendkívül munkaigényes és ezért rendkívül hosszadalmas feladat. A számítások elvégzése előtt a megfigyelt adatokat egy olyan kombinációs táblába kell rendeznünk, melynek mind a fejlécében, mind az oldalrovatában az átlagolandó értékeket soroljuk fel, belső rovatai pedig a különbségek abszolút értékeit tartalmazzák. (Átlójában, melyre az adatok szimmetrikusak, pedig természetesen nullák sorakoznak, hiszen az értékek önmaguktól nem különböznek.) Ha az átlagolandó értékek mindegyike csak egyszer fordult elő, akkor a különbségek abszolút értékének képzése után azonnal azok összegzése és átlagolása következik. (Lásd: „egyszerű” képlet) Ha azonban az ismérvváltozatok többször fordultak elő, akkor ezt a lépést még a súlyozás is megelőzi. (Lásd: „súlyozott” képlet) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza
◄ 80 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok egyszerű: G = 1 n2 n n ∑∑ xi − x j ◄ Vissza súlyozott: G = i =1 j =1 1 n2 k k ∑∑ f i 81 ► f j xi − x j i =1 j =1 A képletekben szereplő betűk jelentése: G= xi = x j = átlagos különbség átlagolandó értékek k a megfigyelt elemek száma i =n i =1 k= fi = n= ∑f összefüggés: az azonos ismérvértékű elemek száma a különböző átlagolandó értékek (= az ismérvértékek) darabszáma i= j= az azonos ismérvértékű átlagolandó értékek (1-től n-ig) vagy a csoportok sorszáma (1-től k-ig) BEMUTATÓ FELADATOK I. 4.1 sz tábla (az 15 sz tábla adatai alapján) Külföldi érdekeltségű vállalkozások saját tőke szerint, Magyarországon 2003-ban szervezetek (millió Ft) ( fi ) átlagolandó érték – 150 22. 958 125 150,1 – 200 362 175 2.869 750 63.350 200,1– 250 283 225 250,1 – 500
718 500,1 – 750 saját tőke ( xi ) f i xi f i d i2 di -48 52.895232 +2 1 448 63.675 +52 765.232 375 269. 250 +202 29.297272 315 625 196. 875 +452 64.355760 750,1– 1128 875 987. 000 702 555.882912 összesen 25.764 – 4.449 900 – 703.197 856 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 81 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok i xa = i i =1 k ∑f ◄ 82 ► k k ∑fx Vissza 4.449900 = ≅ 173 millió Ft 25.764 σ= i ∑fd i 2 i i =1 k ∑f = 703.197856 = 165 millió Ft 25.764 i i =1 i =1 v= σ xa = 165 95,4% 173 ♥ 2003-ban a Magyarországon működő külföldi érdekeltségű vállalkozások átlagos saját tőkéje 173 millió Ft volt, 165 millió Ft-os, azaz 95,4 %os szórás mellett. ♥ Ha részletesebben akarunk fogalmazni, akkor elmondhatjuk, hogy az egyes vállalkozások saját tőkéje átlagosan 165 millió Ft-tal tér el
(azaz, 165 millió forinttal kisebb vagy nagyobb) a vállalkozások alkotta sokaságra kiszámított átlagos saját tőkeértéktől, a 173 millió forinttól; és ez az eltérés igen nagymértékű, ≅ 95 %-os A 4.1 sz tábla d i sorának adatai alapján megfigyelhetjük, hogy a szórás valóban a legkisebb 2 és a legnagyobb 702 eltérés között helyezkedik el. A vállalkozások saját tőkéje átlagosan ≅ 85,3 millió Ft-tal (= δ ) tér el az átlagos saját tőkeértéktől. (Számítása: 22.958 * − 48 + 362 2 + . + 1128 * 702 ). 25.764 Az átlagtól való átlagos eltérést ez a számítási mód lényegesen kisebbnek mutatja (δ 〈σ ) , mint az előző, az általában használt szórás elnevezésű mutató; és ez a nagyság- rendi reláció minden esetben (nemcsak ebben a számpéldában) igaz.100 100 Ha azonos átlagolandó értékekből valamennyi tanult számított átlagtípus értékét x 〈x 〈x 〈x kiszámítjuk, azok mindig a következő
nagyságrendi sort alkotják: h g a q . (A bizonyítást most mellőzzük, de próbálja meg, pl.: a 4, 5, 6, 7 értékekkel!) Az átlagos különbség pedig lényegében = számtani átlag, a szórás pedig = négyzetes átlag. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 82 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 83 ► BEMUTATÓ FELADATOK II. 4.2 sz tábla (a 31 sz tábla alapján) az ellátás havi összege Ft férfiak 1. fő ezer Ft fi – 9.999 xi relatív értékösszeg gyakoriság „helyettes” súlyozott eltérés négyzetek101 gi g i d i2 g i * xi 25 5 0,000154 0,769472 471.184 10.000 – 19 999 114 15 0,000702 10,526380 1.441458 20.000 – 29 999 759 25 0,004672 116,805900 1.631306 30.000 – 39 999 9.265 35 0,057033 1.996,16500 36.546666 40.000 – 49 999 41.515 45 0,255557 11.500,070000 59.932869 50.000 – 59 999 46.720 55 0,287598
15.817,890000 8.121364 60.000 – 69 999 25.938 65 0,159669 10.378,460000 3.506107 70.000 – 79 999 14.413 75 0,088723 6.654,242000 19.135652 80.000 – 89 999 8.969 85 0,055211 4.692,950000 33.645506 90.000 – 99 999 6.098 95 0,037538 3.566,104000 45.162665 100.000 – 8.633 105 0,053143 5.579,997000 106.117994 1 60.313,9755 315.712771 összesen 162.449 – 1. osztályközép k x a = ∑ g i x i ≅ 60314 Ft σ = 315712771 ≅ 17768 Ft i =1 v= σ xa = 17768 29,5% 60314 ♥ A korbetöltött rokkant nyugdíjas férfiak 2004. januárban átlagosan 60.314 Ft ellátásban részesültek Ettől az összegtől egy-egy nyugdíjas ellátása átlagosan 17768 Ft-tal, azaz 29,5 %-kal tér el Összehasonlítva az előző (saját tőkére) vonatkozó feladat eredményeit és ezen feladat (nyugdíjak) eredményeit, jól láthatjuk, hogy a nyugdíjak szó101 Az oszlop adatai az első tizedesről kerekített egész számok. A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 83 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 84 ► ródása lényegesen kisebb. A nyugdíjasok sokaságát a kiszámított átlag jobban jellemzi102 Nézze meg, hogy a saját tőkék alapján csoportosított vállalkozások sokaságának ábráját és a nyugdíjasoknak az ellátás összege alapján készített ábráját! Figyelje meg a jelentős különbségeket! A külföldi érdekeltségű magyar vállalkozások megoszlása a saját tőke nagysága alapján (2003) a vállalkozások száma (db) 25 000 20 000 15 000 10 000 5 000 0 0 200 400 600 800 1000 saját tőke (millió Ft) 4.1 sz ábra a nyugdíjasok száma (fő) A korbetöltött rokkantnyugdíjas férfiak megoszlása az elltása összege alapján (2004. jan) 50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 0 20000 40000 60000 80000 100000 az ellátás összege (Ft) 102
Eredményeinken kevésbé lepődnénk meg, ha részletesen foglalkoztunk volna a terjedelemmutatókkal. A nyugdíjak egy 100000 egység szélességű, a saját tőkék pedig egy 750.0000000 egység szélességű intervallumban helyezkednek el A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 84 ► Statisztika Szóródás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 85 ► 4.2 sz ábra 4.3 Gyakorló feladatok Gyakorló feladatokat a 7. fejezet végén talál, de dolgozhat a 3 fejezet feladataival is 4.4 Összefoglalás szóródás Az a jelenség, hogy az átlagolandó értékek eltérnek egymástól és az átlagtól. 1. terjedelem R = x max − x min 2. kvartilis terjedeITQ = Q3 − Q1 lem 3. átlagos eltérés = az átlagtól való átlagos δ = eltérés abszolút mutatója ∑f d ∑f i i (súlyozott) mutatók i az átlag és az átlagolandó értékek eltérésének kimutatáf i d i2 4. szórás σ= sára = az
átlagtól való átlagos fi eltérés abszolút mutatója (súlyozott) ∑ ∑ 5. relatív szórás σ = az átlagtól való átlagos v = xa eltérés relatív mutatója mutató az átlagolandó értékek egyátlagos különbség mástól való eltérésének kimutatására megjegyzések nem képezi a számkérendő tananyag részét a leggyakrabban használt mutatók: szórás + relatív szórás a szórás formailag = négyzetes átlag, tehát d min 〈σ 〈 d max a szóródás vizsgálatának célja 1. az átlag jellemző voltának vizsgálata 2. egyéb mutatók képzése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 85 ► Statisztika A gyakorisági görbék (eloszlások) alakjának vizsgálata A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 86 ► 5. A gyakorisági görbék (eloszlások) alakjának vizsgálata 5.1 Szimmetria – aszimmetria A gyakorisági görbék alakjának vizsgálata azt a cél szolgálja,
hogy megállapítsuk az egyes vizsgált sokaságok eloszlása milyen irányban és milyen mértékben tér el a normális eloszlás elméleti görbéjétől. A normális eloszlás elméleti görbéje103: Standard normális eloszlásfüggvény értékei a z-változóhoz tartozó függvényé. 0,6 0,5 0,4 0,3 0,2 0,1 0 -4 -2 0 2 4 z-változó 5.1sz ábra A normális eloszlás szimmetrikus eloszlás, jellemzője, hogy Mo = Me = x a . Ha a korábbi definíciókat végiggondoljuk – módusz a gyakorisági görbe csúcspontjához tartozó érték, a medián a középső érték, a számtani átlag nagyságát a súlyok relatív nagysága befolyásolja – a három középérték egyenlősége már természetesnek tűnik. A szimmetria következtében a z = 0 ponttól balra és jobbra elhelyezkedő elemek száma egyenlő, ill. a z = 0 ponttól balra és jobbra azonos „lépést megtéve”, mindig azonos nagyságú súlyt (= előfordulást vagy relatív gyakoriságot = előfordulási
valószínűséget = előfordulási esélyt) találunk. 103 z= xi − x a σ (Részletesebben a Becslés fejezetben) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 86 ► Statisztika A gyakorisági görbék (eloszlások) alakjának vizsgálata A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 87 ► Az aszimmetria mérése, tehát, ezeket az értékeket felhasználva történhet. Mutatói: A= x a − Mo σ P= 3( x a − Me ) σ A képletekben szereplő betűk jelentése: A= P= Pearson-féle aszimmetria mutató (1.) Pearson-féle aszimmetria mutató (2.) számtani átlag σ= Mo = Me = szórás módusz medián xa= A mutatók előjele az aszimmetria irányát jelzi. A pozitív előjel baloldali (= a gyakorisági görbe jobbra hosszan elhúzódik, az átlag a görbe csúcspontjától jobbra található; lásd: 4.1 sz ábra), a negatív előjel jobboldali (= a gyakorisági görbe balra hosszan elhúzódik, az
átlag a görbe csúcspontjától jobbra található) aszimmetriát jelez. Az A jelű mutató abszolút értékének elméleti felső határa nincs, de a gazdasági statisztika gyakorlatában előforduló, többé-kevésbé szabályos aszimmetrikus gyakorisági sorokra vonatkozólag igaz: A〈1 és a mutató 0,5-nél nagyobb abszolút értéket felvéve már erős aszimmetriát jelez. A P jelű mutató is – a látszat ellenére (a képletben a medián szerepel), – a módusz és a számtani átlag eltérésén alapszik. Mérsékelten aszimmetrikus sokaságokra ugyanis igaz, hogy a medián az átlag és a módusz, átlaghoz közelebbi harmadoló pontján helyezkedik el, azaz x a − Mo = 3(x a − Me ) . A mutató abszolút értékének elméleti felső határ három, de mérsékelten aszimmetrikus sokaságok esetén nem szokott egynél nagyobb értéket felvenni. Ha számításainkat osztályközös gyakorisági sorból végezzük, akkor a gyakorlatban célszerűbb ezt a mutatót
alkalmazni, mert a medián értékét pontosabban tudjuk meghatározni (= becsülni). Mind az A , mind a P , jelű mutató nevezőjében szerepel a szórás, azaz nem egyszerűen a középértékeknek az aszimmetriára utaló eltérését vesszük figyelembe. A szórással való osztásra azért van szükségünk, hogy a vizsgált jelenség mérésére egy az adatok nagyságrendjétől és mértékegységétől független mutatószám álljon rendelkezésünkre. Következtetéseket levonni, és összehasonlításokat végezni csak így áll módunkban. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 87 ► Statisztika A gyakorisági görbék (eloszlások) alakjának vizsgálata A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 88 ► Ismertek és használatosak még további mutatók is, pl.: F0 , 25 (a kvartilisek és a medián eltérésére alapozva) ill. F0 ,1 (decilisek és a medián eltérésére alapozva) A számí-
tógépes programok pedig egy α -jelű mutatóval dolgoznak (a momentumokra alapozva), de ennek nincs elméleti felső határa, így értékéből igen nehéz bármilyen következtetés levonni. (Ezek a mutatók nem képezik tananyagunk részét) Az szimmetria – aszimmetria kapcsán leírtak összefoglalása104: 5.2 sz ábra BEMUTATÓ FELADATOK I. 5.1 sz tábla (az 15 és a 41 sz táblák alapján) Külföldi érdekeltségű vállalkozások saját tőke szerint, Magyarországon 2003-ban saját tőke 150,1 – 200,1 – 250,1 – 500,1 – – 150 750,1 – összesen 200 250 500 750 (millió Ft) szervezetek 22.958 ( fi ) ( f i′) 22.958 362 283 718 315 1.128 25.764 23.320 23.603 24.321 24.636 25.764 – Korábbi számításainkból ismert, hogy x a = 173 millió Ft, és σ = 165 millió Ft. 104 Korpás Attiláné: Statisztika I. (Nemzeti Tankönyvkiadó, Budapest – 1996) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 88 ►
Statisztika A gyakorisági görbék (eloszlások) alakjának vizsgálata A dokumentum használata | Tartalomjegyzék | Táblázatok A medián sorszáma105 = 12882,5; 12.882,5 − 0 (150 − 0) ≅ 84,2 millió Ft. 0+ 22.958 Vissza értéke ◄ 89 pedig ► = 3(173 − 84,2 ) ≅ 1,61 , vagyis igen nagy mértékű. 165 Ha a sokaság ábrájára tekintünk (4.1 sz ábra), ezen nem is csodálkozhatunk106 Így az aszimmetria: P = BEMUTATÓ FELADATOK II. A korbetöltött rokkantnyugdíjas férfiak sokaságára vonatkozóan már meghatároztuk a számtani átlag: 60.314 Ft107, a módusz: 52000 Ft108 és a medián értékét: 56.00 Ft109, valamint a szórás nagyságát: 11768 Ft110 Ez a statisztikai sor azonos szélességű osztályközökbe rendezve tartalmazta az adatokat, így mindkét tanult aszimmetria mutató értékét meghatározhatjuk: A= 60.314 − 52000 3(60.314 − 56300) ≅ 0,47 és P = ≅ 0,68 17.768 17.768 ♥ A vizsgált sokaságra a meglehetősen erős
aszimmetria jellemző. (Ezt jelzi az is, hogy a korábbiakban ismertetett, és a mérsékelten aszimmetrikus sokaságokra igaz, összefüggés most nem teljesül, 60314 − 52000 ≠ 3(60314 − 56300) 8314 ≠ 3 * 4014 ) 105 Lásd: 3.7 sz fejezet A másik tanult mutató meghatározására most nem kerülhetett sor, mert nem egyenlő hosszúságú osztályközök esetére nem ismertük meg a módusz számítását. 107 Lásd: 3.2 fejezet 108 Lásd: 3.6 fejezet 109 Lásd: 3.7 fejezet 110 Lásd: 4.2 fejezet 106 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 89 ► Statisztika A gyakorisági görbék (eloszlások) alakjának vizsgálata A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 90 ► 5.2 Csúcsosság – lapultság A tapasztalati gyakorisági görbék nemcsak jobbra vagy balra elhúzódva térhetnek el a normális eloszlás elméleti görbéjétől, hanem abban is, hogy annál hegyesebbek vagy lapultabbak. A
csúcsosság (lapultság) mérésére leggyakrabban a szélső kvartilisek ill. a szélső decilisekre alapozó „K”-jelű mutatót (ennek értéke normális eloszlás esetén: 0,263) használják, ill. a számítógépes programok itt is egy α -jelű111 mutatóval operálnak Ha egy adott sokaságra kiszámítottuk „K” értékét és az az etalon-értéknél nagyobb, akkor a sokaság görbéje lapultabb a normális eloszlás görbéjénél, (és fordítva). K= Q3 − Q1 126 − 42 ≅ 0,255 = 2(D9 − D1 ) 2(182 − 17 ) ♥ A külföldi érdekeltségű magyar vállalkozások (2003) saját tőkéjük nagysága alapján felírt tapasztalati eloszlás görbéje (= gyakorisági görbéje) valamivel hegyesebb, mint a normális eloszlás elméleti görbéje. A mutatóban szereplő kvartilisek és decilisek értékét, – tekintettel arra, hogy ezek számítására csak utalást tettünk (a medián képletének értelemszerű alkalmazásával határozható meg nagyságuk) –
megadtuk. Jelentésük: ♥ Q3 = A vizsgált vállalkozások háromnegyed részének ≅126 millió Ft-nál kisebb, egynegyed részének pedig ennél nagyobb a saját tőkéje. ♥ Q1 =A vizsgált vállalkozások egynegyed részének ≅42 millió Ft-nál kisebb, háromnegyed részének pedig ennél nagyobb a saját tőkéje. ♥ D9 =A vizsgált vállalkozások kilenctized részének ≅182 millió Ft-nál kisebb, egytized részének pedig ennél nagyobb a saját tőkéje. ♥ D1 = A vizsgált vállalkozások egytized részének ≅17 millió Ft-nál kisebb, kilenctized részének pedig ennél nagyobb a saját tőkéje. (Mindegyik adat kiszámítása a sorszám meghatározásával kezdődött, az előbbi sorrendben: n +1 n +1 n +1 n +1 *3 , , *9 , . Majd megkerestük a kvartilisek ill decilisek helyét 4 10 4 10 a kumulált gyakorisági sorban. Végül alkalmaztuk a már többször hivatkozott képletet) 5.3 Gyakorló feladatok Gyakorló feladatokat a 7. fejezet végén talál, de
dolgozhat a 3 fejezet gyakorló feladatival is 111 Gond, hogy ennek sincsenek elméleti határai. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 90 ► Statisztika A gyakorisági görbék (eloszlások) alakjának vizsgálata A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 91 ► 5.4 Összefoglalás szimmetria a sokaság olyan eloszlása, amikor x a = Mo = Me aszimmetria a sokaság olyan eloszlása, amikor x a ≠ Mo ≠ Me fajtái A= mérőszámai (= mutatói) Mo〈 Me〈 x a 1. baloldali 2. jobboldali P= Mo〉 Me〉 x a x a Mo baloldali aszimmetria esetén előjelük: „+” σ 3 * ( x a − Me ) σ (Q − Me ) − (Me − Q1 ) F= 3 (Q3 − Me ) + (Me − Q1 ) 0〈 P 〈 3 jobboldali aszimmetria esetén előjelük: „–” a mutatók etalon-értékei 0〈 A 〈 0,5 0〈 F 〈 0,2 csúcsosság (lapultság) = a vizsgált sokaság eloszlás görbéjének eltérése a normális eloszlás görbéjétől
a függőleges tengely mentén mérőszáma K= a mérőszáma etalonértéke 0,263 Q3 − Q1 = 2(D9 − D1 ) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 91 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok A koncentráció Vissza ◄ 92 ► 6. A koncentráció 6.1 Fogalma, fajtái, kimutatása, mérése A koncentráció szó általában összevonást, összpontosítást, tömörítést jelent. Közgazdaságtanból ismert fogalom például a tőke-koncentrációja, az eredetileg felaprózott kis tőkék (kisvállalatok) nagy tőkévé (nagyvállalatokká) egyesülése; földrajzi, történelmi tanulmányainkból pedig tudjuk, hogy egyes országok lakossága – egészen régi időktől fogva (koronként és országonként ugyan eltérő intenzitással, de) napjainkra egyre inkább a nagyobb települések köré csoportosul, ahol az emberek védelemre, munkára, szolgáltatásokra és az élet legkülönbözőbb
területein több lehetőségre számíthatnak. Koncentrációról a statisztika akkor beszél, ha a sokasághoz tartozó teljes ⎛ n ⎞ értékösszeg ⎜ ∑ si ⎟ jelentős része (vagy egésze) a sokaság kevés egységére ⎝ i =1 ⎠ összpontosul. Ha egy vizsgált sokaság nagyon kicsi (= igen kevés elemből áll), akkor beszélünk abszolút koncentrációról. (pl a magyar autógyártás); ha viszont a sokaság nagy (= sok, igen sok eleme van), akkor a definícióban szereplő kevés kifejezés csak relatív módon (a teljes sokaság nagyságához viszonyítva) értelmezhető. Ha a sokaság egységei között az értékösszeg egyenletesen oszlik meg, akkor a koncentráció teljes hiányáról szokás beszélni A lehető legnagyobb fokú koncentráció pedig az, amikor a teljes értéköszszeg egyetlen egységre jut. A koncentráció fokát különböző mutatószámokkal jellemezhetjük. Ezek egyik része inkább az abszolút, másik része inkább a relatív
koncentráció számszerű kimutatására alkalmas. Léteznek azonban olyan mutatók is, melyek mindkét típus esetében jól használhatóak. A szakirodalomban fellelhető sok mutató közül most csak néhányat emelünk ki. Az abszolút koncentrációt legegyszerűbben az elemek (egységek) számával ( = n ) vagy átlagos nagyságával (= x a ) jellemezhetjük. Minél kisebb, pl egy iparágban a termelőegységek száma és nagyobb az azokban foglalkoztatott létszám átlagos nagysága, annál nagyobb az abszolút koncentráció. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 92 ► Statisztika A koncentráció A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 93 ► A relatív koncentráció mértékét legszemléletesebben az un. Lorenzgörbe mutatja be A Lorenz-görbe a kumulált relatív gyakoriságok (g i′ ) függvényében ábrázolja a kumulált relatív értékösszegeket (zi′ ) . A függvényt egy
négyzetben, melynek átlója (a zérus ponttól fut az k k ∑g = ∑z i i =1 i =1 i = 1 pontig) alatt szokás elhelyezni. Az átló (g i′ = zi′ ) fejezi ki a koncentráció teljes hiányát. Ha a görbe az átlóhoz közel helyezkedik el, akkor a koncentráció alacsony (minél közelebb, annál alacsonyabb); ha a görbe az átlótól távol helyezkedik el, akkor a koncentráció magas (minél távolabb, annál magasabb.) A Lorenz-görbe megszerkesztése előtt célszerű meggyőződni arról, hogy az éppen vizsgált sokaságban jelen van-e egyáltalán a koncentráció Erre a relatív gyakoriságok (g i ) és a relatív értékösszegek (zi ) összevetése alapján következtethetünk Ha az alacsony értékű ismérvértékek esetén g i 〉 zi , a magas értékűeknél pedig megfordul a nagyságrendi reláció, akkor a koncentráció egész biztosan jelen van, elemezhető. A Lorenz-görbe nevezetes pontja az átlagpont. Ennek abszcisszája112 az átlagnál kisebb
egységek sokaságon belüli arányát, ordinátája113 pedig az ezekhez tartozó értékösszeg arányát mutatja. Az átlagpont koordinátáit megállapíthatjuk, ha meghúzzuk a Lorenz-görbe átlóval párhuzamos érintőjét, és az érintési ponthoz tartozó értékeket leolvassuk mind a két tengelyről. A gyakorlatban ezt a pontot csak akkor tanácsos meghatározni, ha a görbét meglehetősen sok pontja alapján (= folytonosnak tekinthető) szerkesztettük meg. A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha ezt a területet az átló alatti egész területhez viszonyítjuk, akkor kapjuk meg az un koncentrációs együtthatót Ennek értéke egyszerűbben (a területek tényleges ismerete nélkül) is meghatározható114. L= G 2 xa 112 Abszcissza = a pont távolsága zérustól a vízszintes tengelyen mérve. Ordináta = a pont távolsága zérustól a függőleges tengelyen mérve. 114 A matematikai bizonyítást
mellőzzük. 113 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 93 ► Statisztika A koncentráció A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 94 ► A képletben szereplő betűk jelentése: L= koncentrációs együttható xa= számtani átlag G= átlagos különbség115 A koncentráció leggyakrabban használt általános mutatói (= mind az abszolút, mind a relatív koncentráció mértékét kifejezik) CR-arányszám és a HI-index (Herfindahl-index). A CR-arányszám megmutatja, hogy a sokaság néhány legnagyobb egysége, hogyan részesedik a teljes értékösszegből. Rendszerint a 3 – 20 legnagyobb egységet szokás használni a koncentráció jellemzésére. Különösen kedveltek a négy legnagyobb egységnek a teljes értékösszegből való részesedését mutató arányszámok. Ha például egy ország autógyártásának 70 %-a a négy legnagyobb gyár adja, akkor az ország autóipara erősen
koncentrált. A HI-index 1 és 1 határok között mozogva méri a koncentráció nagysán gát. A koncentráció hiánya esetén minden egység egyformán részesedik a teljes értékösszegből, ezt jelzi: 1 . Ez az index, pl öt gyár (HI = 0,2) létezése n esetén egy iparág koncentrációját feltétlenül nagyobbnak jelzi, mint nyolc gyár (HI = 0,125) működése esetén. A HI-index nagysága azonban nemcsak a sokaság egységeinek számától függ, hanem a megfigyelt értékek szóródásától is. Az eddigieket figyelembe véve számítása a következő képletekkel történik k HI = ∑ zi2 vagy HI = i =1 v2 +1 n A képletekben szereplő betűk jelentése: HI = Herfindahl-index = a koncentráció általános mutatója zi = si = k ∑s i i =1 v= σ xa = relatív szórás relatív értékösszeg116 n = az eltérő ismérvértékek (bemutató példáinkban az osztályközök) száma 115 Értékét – ha a példamegoldásokhoz szükséges – megadjuk.
Tulajdonképpen zi is egy relatív gyakorisági mutató. Az új jelölést azért alkalmazzuk, hogy jól elkülöníthető legyenek a Lorenz-görbe abszcisszái és ordinátái. 116 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 94 ► Statisztika A koncentráció A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 95 ► BEMUTATÓ FELADATOK I. A külföldi érdekeltségű magyar vállalkozások saját tőke szerinti koncentrációját vizsgáljuk. 6.1 sz tábla (43 sz tábla alapján) xi gi g i′ zi zi′ zi2 125 175 0,891088 0,014051 0,891088 0,905139 0,644902 0,014236 0,644902 0,659138 0,415899 0,000203 225 0,010984 0,916123 0,014309 0,673448 0,000205 375 0,027868 0,943992 0,060507 0,733955 0,003661 625 0,012226 0,956218 0,044243 0,778197 0,001957 875 0,043782 1 0,221803 1 0,049196 összesen 1 – 1 – 0,471121 ♥ A vizsgált 25.764 vállalkozás 1,5 %-a rendelkezik átlagosan 175
millió Ft értékű saját tőkével ♥ A vizsgált 25.764 vállalkozás 91,6 %-nak legfeljebb 250117 milliót Ft értékű a saját tőke állománya. ♥ A vizsgált 25.764 vállalkozás összes saját tőkéjének (≅ 4449,9 milliárd Ft) 6 %-ával azok a vállalatok rendelkeznek, melyek saját tőkéje 250 és 500 millió Ft között van. ♥ A vizsgált 25.764 vállalkozás összes saját tőkéjének (≅ 4449,9 milliárd Ft) 77,8 %-a olyan vállalkozások kezében van, melyeknek saját tőke állomány legfeljebb 750 millió Ft. 117 Lásd: 4.1 sz tábla A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 95 ► Statisztika A koncentráció A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 96 ► A külföldi érdekeltségű magyar vállalkozások saját tőke szerinti koncentrációja kumulált relatív értékösszeg 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 kumulált relatív gyakoriság 6.1 ábra A
Lorenz-görbét az 6.1 sz tábla vastagon bekeretezett oszlopainak adatai alapján szerkesztettük meg. A 0 pontból induló egyenes a négyzet átlója, a koncentráció hiányát jelzi. Az ugyanonnan induló görbe alapján alacsony mértékű koncentrációról beszélhetünk. Ennek az az oka, hogy bár az értékösszeg több mint fele egyetlen osztályközben (az elsőben) található, de igen nagymértékű (a széles terjedelem miatt) a sokaság szórása. A koncentráció számszerű mértéke: k HI = ∑ zi2 = 0,471121 vagy i =1 HI = v 2 + 1 0,956 2 + 1 = = 0,319 6 n 118 Mindkét számérték a mutató elméleti alsó határához ⎛⎜ 1 ≅ 0,17 ⎞⎟ van köze⎝6 ⎠ lebb, tehát a Lorenz-görbéhez hasonlóan alacsony koncentrációt jeleznek.119 118 A mutató számításához szükséges adatokat a 4.1 táblához tartozó számításokból vettük A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 96 ► Statisztika A koncentráció
A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 97 ► ◄ 97 ► BEMUTATÓ FELADATOK – II. A korbetöltött rokkantnyugdíjas férfiak koncentrációja havi ellátásuk alapján kumulált relatív értékösszeg 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 kumulált relatív gyakoriság 6.2 ábra 119 Számértékűk eltérésnek oka, hogy kevés osztályközzel dolgoztunk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza Statisztika A koncentráció A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 98 ► 6.2 sz tábla (a 42 sz tábla alapján) xi gi g i′ zi z i′ 5.000 0,00015 0,00015 1,3E-05 1,3E-05 15.000 0,0007 0,00086 0,00017 0,00019 25.000 0,00467 0,00553 0,00194 0,00212 35.000 0,05703 0,06256 0,0331 0,03522 3,75054E06 0,00109536 45.000 0,25556 0,31812 0,19067 0,22589 0,036355081 55.000 0,28760 0,60572 0,26226 0,48815 0,068779823 65.000 0,15967
0,76538 0,17207 0,66022 0,029609406 75.000 0,08872 0,85411 0,11033 0,77055 0,012171982 85.000 0,05521 0,90932 0,07781 0,84836 0,006054188 95.000 0,03754 0,94686 0,05913 0,90748 0,003495844 1 0,09252 1 0,008559179 – 1 – 0,166124644 105.000 0,05314 1 zi2 1,62761E10 3,04595E08 A Lorenz-görbét most is a vastagon bekeretezett oszlopok adatai alapján szerkesztettük meg. Az átló és a görbe elhelyezkedéséből a koncentráció igen csekély voltára, gyakorlatilag hiányára következtethetünk. Ugyanezt jelzi a Herfindahl-index is ≅ 0,17 6.2 Gyakorló feladatok Gyakorló feladatokat a 7. fejezet végén talál, de dolgozhat a 3 fejezet gyakorló feladatainak adataival is A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 98 ► Statisztika A koncentráció A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 99 ► 6.3 Összefoglalás koncentráció általánosságban: = összevonás,
összpontosítás, tömörítés statisztikában = ha a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul, azaz fajtái kimutatás Lorenz-görbe ha xi akkor kis értékű g i 〉 zi nagy értékű g i 〈 zi 1. 2. 1. 2. abszolút relatív Lorenz-görbe koncentrációs együtthatók = egy egységnyi oldalú négyzetben elhelyezett vonaldiagram vízszintes tengelyen: kumulált relatív gyakoriság (g ′)i függőleges tengelyen kumulált relatív értékösszeg (zi′ ) ha nagy a koncentráció a görbe messze van az átlótól ha kicsi a koncentráció a görbe közel van az átlóhoz = a koncentrációs terület és a az átló alatti terület hányadosa koncentrációs együtthatók =K = G 2 xa k HI = ∑ zi2 ≅ HI = i =1 az együtthatók határértékei 0〈 K 〈1 1 〈 HI 〈1 n v2 +1 n alsó = nincs koncentráció felső = erős (teljes) a koncentráció A dokumentum használata | Tartalomjegyzék
| Táblázatok Vissza ◄ 99 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 100 ► 7. Az ismérvek közötti kapcsolat A sokaságok egyszerre több ismérv szerinti vizsgálata Két egyetemi évfolyam hallgatóinak (90 – 90 kiválasztott személynek) tettük fel a kérdést, sportol-e rendszeresen, avagy sem. A kapott válaszokat a hallgatók nemét is figyelembe véve kombinációs táblákba rendeztük 7.11 sz tábla I. évfolyam nem férfiak nők sportol?↓ összesen igen nem 15 15 30 30 45 45 27 3 18 42 45 45 összesen 30 60 90 30 60 90 fő II. évfolyam férfiak nők fő összesen 7.12 sz tábla I. évfolyam nem férfiak nők sportol?↓ összesen igen 50 50 50 90 30 50 nem 50 50 50 10 70 50 100 100 100 100 100 % összesen 100 II. évfolyam férfiak nők % összesen 7.13 sz tábla I. évfolyam nem férfiak nők sportol?↓ összesen igen 50
50 100 60 40 100 nem 50 50 100 6,7 93,3 100 66,7 100 33,3 66,7 100 % összesen 33,3 II. évfolyam férfiak nők % összesen Hasonlítsuk össze a két évfolyamra vonatkozó adatokat! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 100 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az ismérvek közötti kapcsolat Vissza ◄ 101 ► Az I. évfolyamon mind a férfiaknak, mind a nőknek ugyanakkora hányada sportol ill. nem sportol A II évfolyam esetében viszont ezek az arányok nem azonosak. A férfiakra jellemező, hogy sportolnak, 90 százalékuk válaszolt igennel; míg a nőkre inkább az a jellemező, hogy nem sportolnak, 70 százalékuk válaszolt nemmel. A II évfolyam adatai alapján elmondható, hogy a „férfi” ismérvváltozat vonzza a „sportol, a „nő” ismérvváltozat pedig a „nem sportol” ismérvváltozatot. Ezeket az adatokat ismerve a II évfolyamon a 91 hallgató nemét
ismerve (férfi) nyugodtan gondolhatunk (asszociálhatunk) arra, hogy az illető sportol, és gondolatunk 90 %-os biztonsággal igaznak tűnik. Megfigyelhetjük továbbá, hogy az I. évfolyamra vonatkozó, az eredeti megfigyelt adatokat tartalmazó 7.11 sz tábla egyik ill másik oszlopának belső rovataiban (kettős vonallal kerítettük) azonos számok szerepelnek; a megoszlási viszonyszámokat tartalmazó 7.12sz (100 % = a férfiak ill a nők száma), valamint a 7.13sz (100 % = a sportolók ill a nem sportolók száma) táblákban pedig csupa azonos adatot láthatunk. Ezzel szemben a II évfolyamra vonatkozó táblák adatai nem egyformák, viszont mindhárom táblában a bal felső sarokból a jobb alsó sarokba tartó átlón (szürke háttérrel kiemeltük) helyezkednek el a nagyobb számok, az ezekhez tartozó ismérvváltozat-párokról írtuk az előbbiekben azt, hogy vonzzák egymást. Általánosítsuk tapasztalatainkat! A sokaságok elemei (mindig) több különféle
tulajdonsággal rendelkeznek, azaz a legkülönbözőbb ismérvek szerint rendezhetők, elemezhetőek. Ha a sokaságok elemeit tulajdonságaik alapján csoportosítjuk, azaz az ismérvváltozatok szerint rendezzük, akkor a különféle szempontok alapján megmutatkozó szerkezetük mutathat hasonlóságot, azonosságot, de lehet teljesen eltérő is. Ragadjunk ki az elméletileg lehetséges szempontok szerint most csak kettőt, melyekről azt gondoljuk, van köztük valamilyen kapcsolat! Tekintsük az egyik szempontot befolyásoló tényezőnek, a másikat befolyásolt tényezőnek, és végezzük el a sokaság csoportosítását egyszerre a két szempont szerint! Az adatok így egy kombinációs táblába rendezhetőek Ennek általános sémája: A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 101 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 102 ► 7.2 sz tábla az egyik
ismérv változatai a másik ismérv változatai↓ y1 y2 x1 f 11 f 12 x2 f 21 yj . yt f1 j összesen f 1. f 2. . xi f i1 f ij f i. f. j n . xs f is összesen f .1 f .2 A kombinációs tábla sémájában szereplő betűk jelentése: xi = yj = az egyik ismérv változatai a másik ismérv változatai f. j = f i. = f ij = megfigyelt gyakoriságok i = 1.s = a megfigyelt gyakoriságok az egyik ismérv vála megfigyelt gyakoriságok oszlop szerinti összesen adata sor szerinti összesen adata tozatainak száma j = 1.t = f . j és f i = a másik ismérv változatainak száma peremgyakoriságok s t i =1 j =1 s t n = ∑ f i . = ∑ f j = ∑∑ f ij = i =1 j =1 a megfigyelt sokaság elemeinek száma s〈t a Csuprov és a Cramer mutatónál Ha a megfigyelt előfordulások mindegyike a tábla főátlójában helyezkedik el (árnyékolással jeleztük), akkor azt mondhatjuk, hogy az egyik ismérvhez való tartozás egyértelműen
meghatározza a másik ismérvhez való tartozást. (Nagyon fontos szem előtt tartani, hogy az egyértelműen kifejezéssel nagyon óvatosan kell bánnunk. Statisztikai vizsgálataink ugyanis szinte mindig a sztochasztikus = közelítő jellegű kapcsolatokra terjednek ki, melyek erősségét befolyásolja a megfigyelés helye, ideje, köre stb. ill az a A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 102 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 103 ► tény, hogy az esetek többségében nem a teljes, hanem csak mintasokaságokkal dolgozunk.) Ha az előfordulási adatok a főátló körül tömörülnek, és attól távolodva egyre kisebbek, akkor az egyik ismérvhez való tartozás erősen befolyásolja a másik ismérvhez való tartozást. Ha pedig az előfordulási adatok a tábla majdnem minden rovatában azonos (megközelítően azonos) nagyságúak, akkor az
egyik ismérvhez való tartozás nem befolyásolja a másik ismérvhez való tartozást Az előfordulási adatok táblában való elhelyezkedése jelzi ugyan, hogy létezik-e az ismérvek között kapcsolat, sőt utal annak erősségére, de nem egzakt mutatója annak. A mutatószámok kapcsolattípusonként különbözőek. A következőkben ismérvek közötti kapcsolatok három típusát tárgyaljuk. 1. Asszociáció = a megfigyelt adatok csoportosításához két minőségi, két területi vagy egy minőségi és egy területi ismérvet használunk. 2. Vegyes kapcsolat = a megfigyelt adatok csoportosításához egy minőségi (= befolyásoló tényező) és egy mennyiségi (= befolyásolt tényező) ismérvet használunk. 3. Korreláció = a megfigyelt adatok csoportosításához kettő vagy több mennyiségi ismérvet használunk. Ebben az esetben a befolyásolt és a befolyásoló tényező szerepe – két ismérv esetén – általában felcserélhető. Több ismérv esetén
pedig a befolyásoló tényezők száma nő 7.1 Asszociáció Tekintettel arra, hogy ebben az esetben az ismérvváltozatok nem számokkal fejezhetők ki, a kapcsolat szorosságát kifejező mutatók a megfigyelt ( f ij ) és ( ) a függetlenséget kifejező f ij* előfordulásokra alapoznak. A független események egyszerre történő bekövetkezésének valószínűségéről tanultak120 felhasználásával tudjuk meghatározni az elméleti előfordulásokat, amelyek megmutatják, hogy xi , y j ismérvváltozat-pároshoz a sokaság hány eleme tartozna, ha az ismérvek között nem lenne kapcsolat. Összehasonlítva a kétféle előfordulást tudunk következtetni a kapcsolat szorosságára. Ha ( f ij ) ( ) és f ij* adatok rendre azonosak, akkor az ismérvek között nincs kapcsolat (= függetlenek egymástól), ha pedig eltérésük igen nagy, akkor a kapcsolat erős. Annak érdekében, hogy ezt az „igen nagy” kifejezést ne szubjektív módon értelmezzük, meg kell
határozni azt az elméleti értéket, amihez a 120 Két független esemény egyszerre történő bekövetkezésének valószínűsége egyenlő a két esemény bekövetkezési valószínűségének szorzatával. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 103 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 104 ► különbségeket hasonlítani lehet. Így egy mértékegység nélküli mutatószámhoz jutunk, ami a különböző időpontokban, helyeken, és a különböző sokaságokra vonatkozó számításaink összehasonlítását is lehetővé teszi Az asszociáció leggyakrabban használt mutatói: χ2 Csuprov-féle mutató: T = Cramer-féle mutató: C = n (s − 1)(t − 1) χ2 n (s − 1) Ha az ismérvváltozatok száma mindkét ismérvre vonatkozóan kettő121, akkor a mutató egyszerűsíthető: Yule-féle mutató: a = f 22 f11 − f12 f 21 g 22 g11 −
g12 g 21 ≅ f 22 f11 + f12 f 21 g 22 g11 + g12 g 21 Az asszociációra vonatkozó képletekben szereplő betűk jelentése: T = a Csuprov-féle asz- C = a Cramer-féle asszo- a = a Yule-féle asszociászociációs együttható ciós együttható ciációs együttható s = az egyik ismérv válto- t = a másik ismérv válto- n = a sokaság elemeinek zatainak száma (s 〈 t ) zatainak száma (s 〈 t ) száma122 s t χ 2 = ∑∑ i =1 j =1 (f − f ij* ) 2 ij f ij* f i . = sor szerinti peremgyakoriságok f ij = a megfigyel gyakoriságok f . j = oszlop szerinti peremgyakoriságok f ij* = f i. f j n = a függet- lenséget kifejező számított előfordulások123 g ij = a megfigyelt előfordulásokból számított relatív gyakoriságok 121 A csupán két ismérvváltozatú ismérveket nevezik alternatív ismérveknek. Lásd a kombinációs tábla általános sémájánál található betűjel-magyarázatot. 123 Az egyik ismérv szerinti előfordulás valószínűsége
= f i. , a másik ismérv szerinti 122 n f . j előfordulás valószínűsége = . Szorzatuk adja az egyszerre történő bekövetkezés valón színűségét, ezt kell az elemszámmal szorozni, hogy a megfigyelttel azonos mértékegységű adathoz jussunk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 104 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 105 ► A mutatók jelentésének megfogalmazásához ismernünk kell azok határértékeit, és a határértékek jelentését. mutató határok Csuprov-féle asszociációs együttható 0〈T 〈1 , ha s = t 0〈T 〈 4 (s − 1) , ha (t − 1) s〈t Cramer-féle asszociációs 0〈C 〈1 együttható Yule-féle asszociációs együttható jelentések mindhárom esetben 0〈a 〈1 (megoszlási viszonyszám jellegű mutató)124 0 = (alsó határ) = 1 = (felső határ) = szoros nincs kapcsolat a kapcsolat
BEMUTATÓ FELADAT A Magyar statisztikai évkönyv125 adatait felhasználva 1992 és 2003 évekre vonatkozóan a foglalkoztatottakat egyszerre két ismérv (ágazat = minőségi ismérv ill. nem = minőségi ismérv) szerint csoportosítottuk Egyrészt kíváncsiak voltunk arra, hogy van-e kapcsolat az ágazatok és a foglalkoztatottak neme között (Van-e olyan ágazat, amelyik „vonzza” férfiakat, ill. van-e olyan, amelyik „vonzza” a nőket?) Másrészt kíváncsiak voltunk rajta, hogy megváltozott-e a mutató értéke az eltelt évtized alatt? A 7.3 sz tábla első része (I) az 1992-re, a 74 sz tábla első része (I) pedig a 2003ra vonatkozó megfigyelt adatokat tartalmazza Ezekből megtudjuk pl, hogy 1992ben a mezőgazdaságban 316700 (= f 1;1 ) (68,8 %) férfi és 143400 ( f 1;2 ) (31,2 %) nő dolgozott. Az adott ágazatban foglalkoztatottak létszáma 2003-ra jelentősen (53,2 %) csökkent, és megváltozott a férfiak nők aránya is 2003-ban a mezőgazdaság 166.600
(= f 1;1 ) (77, 4 %) férfi és mindössze 48600 ( f 1;2 ) (22,6 %) nő számára biztosított munkahelyet. Vannak azonban olyan ágazatok is (építőipar, kereskedelem stb.), ahol éppen ellenkező előjelű változások történtek, azaz nőtt a dolgozók létszáma Ha a nemzetgazdaság egészére vonatkozó adatokat vesszük szemügyre (öszszesen sor), akkor szintén csökkenést figyelhetünk meg 2003-ban 1,6 %-kal keve124 Figyelje meg a mutató számlálója és nevezője ugyanazokat a szorzatokat tartalmazza, csak a szorzatok közötti előjel különböző! 125 Magyar Statisztikai évkönyv 2003 (KSH, 2004) http://portal.kshhu/pls/ksh/docs/hun/xftp/idoszaki/merofelm/merofelm A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 105 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 106 ► sebb férfi és 3,7 %-kal kevesebb női munkavállalóról tudott a statisztika. A
létszámváltozások mellett egy csekély mértékű arányváltozást is megfigyelhetünk A férfiak aránya 53,7 %-ról 54,2 %-ra (0,9 %-kal, azaz 0,5 százalékponttal) nőtt, a nőké pedig 46,3 %-ról 45,8 %-ra (-1,1 %, azaz -,5 százalékponttal) csökkent.126 A 7.3 sz és a 74 sz táblák második része (II) a függetlenséget feltételező adatokat tartalmazza Az építőipar sorában, a férfiak oszlopában található szám (116400 = f 5*; 2 ) azt jelenti, hogyha semmiféle kapcsolat nem lenne a foglalkoztatottak ágazat és a nem szerinti megoszlása között, akkor ebben a rovatban nem a megfigyelt 184.300 főnek, hanem ennél kevesebbnek (116400 fő = f 5; 2 ) kellene szerepelnie A táblák harmadik része (III.) a megfigyelt és a függetlenséget kifejező adatok összehasonlítását, a mutatók (Csuprov, Cramer) számlálójában szereplő χ 2 részszámításait tartalmazza. Így a Csuprov-féle mutató értéke 1992-ben ill 2003-ban: T= 452,3966 563,328 ≅
0,1766 T = ≅ 0,1996 4025,8 (2 − 1)(14 − 1) 3922 (2 − 1)(14 − 1) A Cramer-féle mutató értéke pedig 1992-ben ill. 2003-ban: C= 452,3966 ≅ 0,3352 4025,8 * (2 − 1) C= 563,328 ≅ 0,379 3922 * (2 − 1) A mutatók alsó (= 0) ill. felső (Cramer: 1, Csuprov: 0,5266) határait figyelembe véve levonhatjuk a következtetést, hogy ♥ a foglalkoztatottak gazdasági ágazat és nem szerinti megoszlása között van kapcsolat, s ez a kapcsolat az eltelt évtized alatt erősebbé vált. (A mutatók értéke nőtt.) Befejezésül fontos megjegyeznünk, hogy • A Cramer-féle mutató számértéke, ha s〈 t , akkor mindig nagyobb. (Csak a kisebbik ismérvváltozat darabszám szerepel a nevezőben.) • A tananyag második felében – hipotézisellenőrzés – megismerünk majd egy módszert annak kimutatására, hogy a mutatók által jelzett kapcsolat jelentős (= szignifikáns) mértékű-e avagy sem. 126 A 6.3 és a 64 sz táblák adatainak elemzése során
dinamikus és megoszlási viszonyszámokat számítottunk (Lásd: 21, 23 fejezetek) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 106 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 107 ► 7.3 sz tábla 1992 1992 megnevezés megfigyelt adatok f ij függetlenséget felté- a megfigyelt és a függettelező adatok lenséget feltételező adatok f ij* = I. 1992 összehasonlítása = χ öszszetevőinek számítása127 2 f i. * f . j n II. ágazat férfi nő össz. férfi mező-gazd. 316,7 143,4 460,1 bányászat 45,5 7,2 52,7 feldolgozó ipar 590,6 462,9 villamosenergiaipar 76,7 építőipar 184,3 III. nő férfi nő össz. 247,01 213,09 460,1 19,662 22,791 42,453 28,29 10,465 12,131 22,597 1.053,5 565,58 487,92 1053,5 1,106 1,283 2,389 31,4 108,1 58,03 6,003 6,959 12,962 32,5 216,8 116,39 100,41 216,8 39,621 45,928 85,549
kereskedelem 200,7 279,7 480,4 257,90 222,49 480,4 12,690 14,710 27,400 vendéglátás 48,7 66,9 115,6 62,06 2,877 3,334 6,211 szállítás 243 103,4 346,4 185,96 160,43 346,4 17,490 20,274 37,763 pénzügyi szolgáltatás 16,5 52,2 68,7 36,88 31,82 68,7 11,264 13,057 24,321 ingatlanügyek 68,4 71,9 140,3 75,32 64,98 140,3 0,636 0,737 1,373 közigazgatási 134,8 szolgáltatás 101,9 236,7 127,08 109,63 236,7 0,470 0,544 1,014 oktatás 75,4 236,4 311,8 167,39 144,41 311,8 50,556 58,604 109,161 egészségügy 58,9 177,4 236,3 126,86 109,44 236,3 36,407 42,203 78,610 egyéb szolg. 101,1 97,3 198,4 106,51 91,89 0,275 0,319 0,594 összesen 2.161,3 1864,5 4025,8 2161,3 1864,5 4025,8 209,522 242,875 452,3966 24,41 50,07 53,54 össz. 52,7 108,1 115,6 198,4 127 A számításokat az EXCEL programmal végeztük. Az adatokat a matematika szabályai szerint kerekítettük. Ha azonban soronként ill oszloponként
ellenőrizni kívánja az összeadásokat, akkor kis „hibát” találhat, mert a gép a háttérben a nem kerekített adatokkal dolgozik. Ez a megjegyzés minden további táblánkra igaz, ahol a terjedelem miatt nem tekinthettünk el a kerekítésektől. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 107 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 108 ► 7.4 sz tábla 2003 2003 a megfigyelt és a füg2003 függetlenséget feltételegetlenséget feltételező megnevezés megfigyelt adatok ző adatok adatok összehasonlítá- f ij f ij* = f i. * f . j sa = χ összetevőinek számítása128 2 n ágazat férfiak nők össz. férfiak nők mezőgazd. 166,6 48,6 215,2 116,686 98,5134 215,2 21,351 25,290 46,640 bánya 11 1,8 12,8 6,940 2,374 2,812 5,187 feldolgozó ipar 547,3 378,2 925,5 501,828 423,672 925,5 4,120 4,880 9,001 villamos energiaipar
50,2 18 68,2 36,980 5,598 10,324 építőipar 275,1 24,3 299,4 162,342 137,058 299,4 78,319 92,767 171,086 5,860 31,220 össz. férfiak nők 12,8 68,2 4,726 össz. kereskedelem 267,6 285,5 553,1 299,904 253,196 553,1 3,480 4,121 7,601 vendéglátás 59,7 79,7 139,4 75,586 3,955 7,293 szállítás 219,5 83,7 303,2 164,402 138,798 303,2 18,467 21,871 40,338 pénzügyi szolgáltatás 22,6 50,2 72,8 39,474 63,814 72,8 7,213 8,544 15,757 ingatlanügyek 143,7 122,3 266 144,231 121,769 266 0,002 0,002 0,004 közigazgatási 151,5 szolgáltatás 143,9 295,4 160,173 135,227 295,4 0,470 0,556 1,026 oktatás 71,4 257,6 329 178,391 150,609 329 egészségügy 62,5 204,7 267,2 144,882 122,318 267,2 46,844 55,485 102,329 egyéb szolgál77,9 tatás összesen 128 96,9 33,326 139,4 3,339 64,169 76,006 140,175 174,8 94,781 80,019 174,8 3,006 3,561 6,568 2126,6 1795,4 3922 2126,6 1795,4 3922 257,879 305,45 563,328 Lásd: a 7.3 sz táblához
csatolt lábjegyzet A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 108 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az ismérvek közötti kapcsolat Vissza ◄ 109 ► 7.2 Vegyes kapcsolat Vegyes kapcsolatról beszélünk, ha a megfigyelt adatok csoportosításához egy minőségi (= befolyásoló tényező, csoportképző ismérv) és egy mennyiségi (= befolyásolt tényező) ismérvet használunk, például, ha arra vagyunk kíváncsiak, hogy egy vállalkozás (nemzetgazdasági ág, vagy az egész nemzetgazdaság) férfi és női dolgozóinak keresete (bére, jövedelme) között van-e eltérés, azaz befolyásolja-e a fizetéseket a foglalkoztatottak neme. A kapcsolat erősségének kimutatására a szórásokat használjuk fel. Egy összetett sokaság esetén kétféle számtani átlag és háromféle szórást értékét határozhatjuk meg. • Az egyes részsokaságokra vonatkozóan a részátlagokat (= x j ) ,
• az egész sokaságra vonatkozóan pedig a főátlagot ( x ) számíthatunk. Majd ezek ismeretében vizsgálhatjuk: • az egyes részsokaságokban az átlagolandó értékek és az adott csoport részátlagának átlagos eltérését (= csoportszórás = σ j ), és a csoportszórásokat átlagolhatjuk is (= belső szórás = σ B ). • Vizsgálhatjuk az egyes átlagolandó értékek és a főátlag átlagos eltérését (= teljes szórás = σ T ). • Végül kiszámíthatjuk a részátlagok és a főátlag átlagos eltérését (= külső szórás = σ K ). A felsorolt átlagok és szórások számítása. Jelöléseink részben a 72 sz táblához igazodnak, ill. – egyes esetekben – egyszerűbb súly-jelölések is szerepelnek. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 109 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok részátlag = csoport átlag xj = ij az
átlagolandó értékekből: xi a részátlagokból: t s i =1 s ∑f ► 110 főátlag s ∑f ◄ Vissza x= .j i =1 ∑f x x= i. i i =1 s ∑f ∑ f. j x j j =1 t ∑f ∑ f (x s σj = ij ∑n x j = .j j =1 i. i =1 csoportszórás t i j =1 t ∑n j j =1 − xj) 2 i i =1 s ∑f .j i =1 t σB = belső szórás ∑ f . jσ 2j j =1 t ∑f t ∑n σ j = j =1 t ∑n .j j =1 σK = j j =1 ∑ f . j (x j − x ) t külső szórás 2 j j =1 t ∑f ∑ n (x t 2 j = − x) 2 j j =1 t ∑n .j j =1 j j =1 teljes szórás az alapadatokból: s σT = ∑ f (x i. − x) 2 i i =1 az összefüggés alapján: σ T = σ B2 + σ K2 s ∑f i. i =1 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 110 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 111 ► A képletekben szereplő betűk jelentése: xi = a
befolyásolt ismérv változatai f ij = megfigyelt gyakoriságok f . j = a megfigyelt gyakoriságok oszlop szerinti öszszesen adatai, ezeket gyakran így is jelölik: n j t t i =1 j =1 j =1 riságok sor szerinti összesen adata i = 1.s = az egyik ismérv változatainak száma j = 1.t = a másik is- f . j és f i = peremgyakoriságok s f i . = a megfigyelt gyako- mérv változatainak száma s t n = ∑ f i . = ∑ f j = ∑ n j = ∑∑ f ij = a megfii =1 j =1 gyelt sokaság elemeinek száma x j = részátlag = csoportátlag x = főátlag x j = részátlag σ j = csoport szórás σ B = belső szórás σ K = külső szórás σ T = teljes szórás A szórások (külső – belső – teljes) közötti összefüggés bizonyítása129 a következő elgondolásból indul: ( xi − x ) = (xi − x j ) − (x j − x ) . Számítsuk ki, hogy a teljes szórásnégyzet hányad részét (hány százalékát) teszi ki egyik ill. másik összetevője! 1= σ K2 σ B2
+ σ T2 σ T2 Az így kapott megoszlási viszonyszámok közül mutatóul a külső szórásnégyzet és a teljes szórásnégyzet hányadosát használjuk, tekintettel arra, hogy a belső szórás nagyságát nem a csoporthoz tartozás, hanem sok más tényező befolyásolja. (A bevezetőben említett dolgozói bérek példát folytatva, a férfiak (vagy a nők) csoportjában a bérek azért térnek el egymástól és az átlagtól, mert a dolgozók nem ugyanannyi ideje állnak alkalmazásban, nem ugyanolyan iskolai- ill. szakképzettséggel rendelkeznek, nem egyformán teljesítik a normát stb) 129 A teljes levezetést a matematika tankönyvekben keressék. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 111 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 112 ► A vegyes kapcsolat szorossági mutatója (= H ) ill. a befolyásolás mértékét kifejező mutató (= H 2 )
tehát: H= σK σ2 = 1 − B2 σT σT H2 = σ K2 σ B2 = 1 − % 130 σ T2 σ T2 A mutatók megoszlási viszonyszám-jellegéből következik, hogy alsó határuk 0, felső határuk pedig 1, ill. 100 % Ha külső szórás nulla (vagy ahhoz nagyon közeli érték), az azt jelenti, hogy a részátlagok nem (vagy csak nagyon kevéssé) térnek el a főátlagtól, azaz egy-egy sokasági elem számára teljesen mindegy, hogy melyik csoporthoz tartozik. A H ≅ 0 tehát a kapcsolat hiányát jelenti. Ha külső szórás a teljes szórás igen nagy részét teszi ki (esetleg egyenlő azzal), azaz a belső szórás igen kicsi (esetleg nulla), akkor épp ellenkező helyzettel találkozunk. A H ≅ 1 tehát az igen szoros kapcsolatot jelenti BEMUTATÓ FELADAT A Magyarországon kiadott szépirodalmi művek131 példányszám (= menynyiségi ismérv) és műfaj szerinti (= minőségi ismérv) megoszlására vonatkozóan az alábbi adatokat ismerjük. 7.5 sz tábla példányszám (db) – 500
500 – 1.000 1.000 – 2000 2.000 – 3000 3.000 – 5000 5.000 – 10000 verses mű (%) 65,5 13,8 7,2 5,5 7,2 0,8 regény és elbeszélés (%) 7,7 8,7 14,7 23,6 23,2 11,3 színmű (%) 30,5 22 16,9 6,8 8,5 11,9 egyéb széppróza (%) 15,8 23,0 21,9 21,3 13,1 4,9 130 A mutatókban szereplő betűk jelentését az átlagok és a szórások számítási képletei mellett megtalálják. 131 Magyar statisztikai évkönyv, 2003 (KSH, 2004; 255. old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 112 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok 10.000 – 20000 20.000 – 30000 30.000 – 40000 40.000 – összesen db – – – – 100 348 3,4 3,4 2,9 1,1 100 1.575 Vissza 3,4 – – – 100 59 ◄ 113 ► – – – – 100,0 183 A 7.5 sz tábla adatai alapján a következő statisztikai jellemzőket számítottuk ki 7.6 sz tábla részátlag132 (db) csoportszórás133 (db)
861 5.541 2.407 1.964 1.219 8.242 3.295 1.719 A részátlagok súlyozott számtani átlagaként meghatároztuk a főátlagot (4.401 db) A csoportszórások négyzetes átlaga adta a belső szórást (7085 db). A részátlagok és a főátlag átlagos eltérése jelenti a külső szórást (1889 db). A szórások között fennálló összefüggést felhasználva pedig megismertük a teljes szórást (7332 db) Végül kiszámítottuk a vegyes kapcsolat mutatóit (H = 0,26 ill H2 = 6,8 %) főátlag: t x= ∑f .j xj j =1 t ∑f = 348 * 861 + 1.575 * 5.541 + ≅ 4.401 db 348 + 1.575 .j j =1 132 A megoszlásokkal súlyozott számtani átlagokat számítottunk, az eredményeket egészekre kerekítettük. (Lásd: 32) 133 A csoportszórásokat a megoszlásokkal súlyozva számítottuk ki, az eredményeket egészekre kerekítettük. (Lásd: 42) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 113 ► Statisztika Az ismérvek közötti kapcsolat
A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 114 ► belső szórás: t σB = ∑f .j σ 2j 348 *1.219 2 + 1575 * 8.242 2 + = ≅ 7.085 db 348 + 1.575 j =1 t ∑f .j j =1 külső szórás: ∑ f (x t σK = j =1 .j − x) 2 j = t ∑f .j j =1 = 348 * (861 − 4.401) 2 + 1575 * (5.41 − 4401) 2 + ≅ 1.889 db 348 + 1.575 + teljes szórás: σ T = σ B2 + σ K2 = 7.0852 + 18892 = 7332 db H= σ K 1.889 = ≅ 0,26 σ T 7.332 H= σ 2 1.8892 = ≅ 0,262 ⇒ 6,6% 2 2 7.332 σ K T ♥ SZÖVEGES ELEMZÉS 2003-ban hazánkban 2.165 különféle szépirodalmi művet adtak ki átlagosan 4400 (4401) példányban, igen magas (167 %-os) szórás mellett A legnagyobb átlagos példányszámot (5541 db) a regények + elbeszélések kategóriában figyelhetjük meg, a legkisebbet pedig a verses művek csoportjában (861 db). A legnagyobb (8242 db) és a legkisebb csoportszórások (1219 db) is ugyanezekre a részsokaságokra jellemzőek. Az
egyes szépirodalmi kategóriákban megjelent átlagos példányszámok átlagosan 1889 darabbal térnek el (= kisebbek vagy nagyobbak) a teljes sokaságra számított átlagos példányszámtól. A különböző példányszámok (= átlagolandó értékek) pedig átlagosan 7332 darabbal térnek el a teljes sokaságra számított átlagos példányszámtól. A szépirodalmi művek jellege és a megjelenési példányszámok között gyenge (H = 0,26) kapcsolat figyelhető meg; a művek jellege mindössze 6,6 %-ban (= H2) befolyásolja azok megjelentetett mennyiségét. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 114 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 115 ► 7.3 Korrelációs kapcsolat Ha megfigyelt adatok csoportosításához kettő vagy több mennyiségi ismérvet használunk, akkor beszélünk korrelációs kapcsolatról. Ebben az esetben a befolyásolt és a
befolyásoló tényező szerepe – két ismérv esetén – általában felcserélhető. Több ismérv esetén mindig csak a befolyásoló tényezők száma nőhet. A továbbiakban csak a kétváltozós esetekre térünk ki röviden134. Ha a kapcsolat szorosságát két mennyiségi ismérv között akarjuk kimutatni, és az adatokat kombinációs táblába rendeztük (6.2 sz), akkor a vegyes kapcsolatnál megismert H-mutató és H2-mutatót használhatjuk, de mindkét mutatóból kettőt számíthatunk ki, tekintettel arra, hogy a csoportképző ismérv szerepe nem eleve adott. Ha az x-vel jelzett változó tölti be ezt a szerepet, akkor csak y változó adataival számolunk (y ismérvértékeit átlagoljuk, azok szórását határozzuk meg), ill. fordítva, ha az y-val jelzett változó tölti be a befolyásoló tényező szerepét, akkor csak x változó adataival számolunk (x ismérvértékeit átlagoljuk, azok szórását határozzuk meg). A mutatókat a futóindexben
alkalmazott jelölésekkel különböztetjük meg. H futóindexében a függőleges vonal előtt mindig a befolyásolt tényező (= eredményváltozó), a függőleges vonal után pedig a befolyásoló tényező (= magyarázó változó, csoportképző ismérv) betűjelét láthatjuk. A szórások futóindexében pedig annak a változónak a betűjele olvasható zárójelben, amelyik változó ismérvértékeivel számoltunk Ha x a befolyásoló tényező: H y x = σ K ( x) σ T ( x) Ha y a befolyásoló tényező: H x y = σ K ( y) σ T ( y) 134 A többváltozós esetekről tananyagunk későbbi fejezetében lesz szó. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 115 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 116 ► BEMUTATÓ FELADAT Egy hallgatói csoport két zárthelyi dolgozatot írt statisztikából. A hallgatók létszámadatait a két eredmény közötti
kapcsolat vizsgálata érdekében kombinációs táblába rendeztük. 7.6 sz tábla ZH I. - 30 ZH II.↓ - 30 7 31 – 40 41 – 50 51 – 60 61 – 70 71 – 80 81 – 90 91 100 együtt 1 – 3 – 1 – – 12 31 – 40 2 – 2 – – 1 – – 5 41 – 50 4 – 1 2 1 1 1 1 11 51 – 60 9 2 2 3 2 1 2 1 22 61 – 70 9 – – 2 1 2 3 – – 2 1 1 – – – – 2 – – – – 3 5 12 5 71 – 1 80 81 –90 – 90 100 – együtt 32 17 3 8 2 2 6 – 1 – 1 9 9 7 82 A létszámadatok főben, a zárthelyi dolgozatok eredményei %-ban (= elért pontszám / elérhető pontszám). Jelöljük az első ZH (ZH I.) eredményeit „x”-vel és a második ZH (ZH II) eredményeit „y”-val! Legyen először a magyarázó változó az első ZH eredménye (ennek a dolgozatnak az eredményadataival nem számolunk, ezek a csoportképző ismérv szerepét töltik be), majd másodszor a második ZH
eredménye (most pedig ennek a dolgozatnak az eredményadataival nem számolunk, ezek a csoportképző ismérv szerepét töltik be)! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 116 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 117 ► Munkánk mindkét esetben a részátlagok ill. a csoportszórások kiszámításával kezdődik Például azon hallgatók ZH II. átlag-eredménye, akik a ZH I dolgozatot átlagban 15 %-ra teljesítették (= első, nyitott osztályköz) ≅47,2% = 7 *15 + 2 35 + 4 45 + 9 55 + 9 65 + 1 75 32 Átlagolandó értékek az osztályközepek: 15, 35, 45, 55, 65, 75, 85, 95. A súlyok pedig az első oszlopban szereplő megfigyelt előfordulások. (Ugyanígy járunk el a további számítások során) A további részátlagok: 41,67 /45,0 / 48,33 / 59,0 / 58,33 / 68,33 / 70,7 Azoknak a hallgatóknak, akik a ZH I. dolgozatot átlagban 15 %-ra
teljesítették, az egyéni teljesítménye a csoport átlageredményétől (47,2%) átlagosan: 7 * (15 − 47,2) 2 + 2 (35 − 47,2) 2 + . + 1(75 − 47,2) 2 32 A további csoportszórások: 18,86 / 8,94 /21,34 /1,20 / 22,12 /15,63 /14,00. 19,16 %-ponttal = tér el. A fenti eredmények ismeretében kiszámíthatjuk a főátlagot (= a részátlagok súlyozott számtani átlaga), majd a külső szórást (= a részátlagok átlagos eltérése a főátlagtól) és az un. belső szórást (= a csoportszórások súlyozott négyzetes átlaga). Majd a szórások közötti összefüggést felhasználva meghatározhatjuk a teljes szórás (= az átlagolandó értékek és a főátlag átlagos eltérése) értékét főátlag: x= 32 * 47,19 + 3 41,67 + . + 7 * 70,71 ≅ 53,29% 82 külsőszórás: σK = 32 * (47,19 − 53,29) 2 + 3 ( 41,67 − 53,29) 2 + . + 7 * (70,71 − 53,29) 2 ≅ 9,1% 82 belső szórás: σB = 32 *19,16 2 + 3 18,86 2 + . + 7 *14,0 2 ≅ 18,03% 82 teljes
szórás: σ T = 9,12 + 18,032 ≅ 20,2% A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 117 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 118 ► A kapcsolat szorossági mutatója: H= 9,1 ≅ 0,45 . 20,2 A befolyásolás mértéke: H= 9,12 ≅ 0,45 2 ⇒ 20,3% 20,2 2 ♥A hallgatók a ZH II. dolgozat elérhető pontszámának átlagosan 53,29 %-át érték el, egyéni eredményeik átlagosan 20,2 %-ponttal térnek el ettől az átlagtól. ♥ A ZH I. dolgozat eredménye gyenge közepes kapcsolatban van a ZH II. eredményével ♥ A ZH I. eredménye mindössze 20,3 %-ban befolyásolja a ZH II eredményét. (Más tényezők, mint az egyéni képességek, a szorgalom, a feladatok nehézsége, a vizsgarutin stb együttesen jelentősebb szerepet játszottak) Ha a változók szerepét felcseréljük, ebben az esetben az átlagolandó értékek nem változnak, hiszen
ugyanolyan osztályközöket képeztünk az első és a második ZH eredményeiből. A súlyok viszont változnak, a sorokban szereplő előfordulásokkal kell dolgoznunk Így az első részátlag: x1 = 7 *15 + 1 35 + 3 55 = 31,67% , 12 azaz azok a hallgatók, akik a második ZH elérhető pontszámának maximum 30 %-át érték el, az első ZH elérhető pontszámának átlagosan 31,67 %-át érték el. A további részátlagok: 39,0 / 48,64 / 42,27 /42,06 / 68,75 /85,0 / 85,0. Az első részátlaghoz tartozó csoportszórás: σ1 = 7 * (15 − 31,67) 2 + 1 (35 − 31,67) 2 + 3 (55 − 31,67) 2 = 21,34% − pont , 12 vagyis egy-egy – a vizsgált részsokaságba tartozó – hallgató átlagosan 21,34 %-ponttal ért el jobb vagy rosszabb eredményt, mint az átlagos teljesítményszázalék (= 31,67). A további csoportszórások: 22,45 / 28,69 /26,83 /29,86 /25,95 /8,16 / 0,0. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 118 ► Statisztika
Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 119 ► A belső szórás értéke: 25,62, a külső szórásé: 14,79, a teljes szórás pedig: 29,58; így a kapcsolat szorossága (= H) 0,5, ebből következően a befolyásolás mértéke (= H2) 25 %. Összehasonlítva a két számítás eredményét azt tapasztaljuk, hogy a változók szerepének felcserélése befolyásolja H és H2 mutatók értékét. Tekintettel arra, hogy az egyik ill. a másik esetben nem azonos súlyokkal dolgoztunk (más példákban az átlagolandó értékek között is adódhat eltérés), természetesen nem azonos átlag- és szórás-adatokat kaptunk. Általánosságban, ha a változók szerepét felcseréljük, akkor H és H2 mutatók értéke csak a két szélső esetben („nincs kapcsolat” = H y x = H x y = 0 ill. „igen szoros a kapcsolat” = H y x = H x y = 1 ) azonos. A korrelációs kapcsolatra – amikor a megfigyelt adatokat
adat-párokba rendezve (= lista) adjuk meg – még visszatérünk135. 7.4 Gyakorló feladatok 1. feladat Halálozások a meghaltak neme és a halál oka szerint (Magyarország, 2003)136 a meghaltak neme férfi nő összesen a halál oka ↓ daganatos betegségek 19.063 14.999 34.062 táplálkozási és anyagcsere 1.101 1.650 2.751 keringési rendszer 31.841 37.210 69.051 légzőrendszer 3.210 2.229 5.439 emésztőrendszer 5.846 3.599 9.445 összesen 61.061 59.687 120.748 Vizsgálja meg, van-e kapcsolat a meghaltak neme és a halál oka között! 135 Lásd: Korreláció-és regressziószámítás fejezet Magyar statisztikai évkönyv, 2003 (KSH, 2004; 68. – 70 old) /A legfőbb halálokokat emeltük ki, a halálestek 88 %-át./ 136 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 119 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 120 ► 2.
feladat A Magyarországra bevándorló külföldiek száma (fő) életkoruk szerint 137 életkor (év) 1980 férfi 2002 nő összesen férfi nő összesen 0 – 14 165 145 310 652 611 1.273 15 – 19 205 157 362 608 707 1.315 20 – 24 241 475 716 1.568 1.536 3.103 25 – 29 182 330 512 1.773 1.406 3.179 30 – 39 221 199 420 2.119 1.296 3.415 40 – 49 73 81 154 1.213 671 1.884 50 – 59 32 47 79 569 384 953 60 – 19 40 59 229 294 523 1.138 1.474 2.612 8.741 6.905 15.646 összesen 1. Vizsgálja meg, volt-e kapcsolat a bevándorlók életkora és neme között 1980-ban ill. 2002-ben! 2. A kapott eredményeket hasonlítsa össze! 3. A részeredmények jelentését (pl: a bevándorló férfiak átlagéletkora stb.) is fogalmazza meg egy-egy mondattal! 4. Ábrázolja a megfigyelt adatokat! 5. Számolja ki a relatív gyakoriságokat! 6. Vizsgálja meg a koncentrációt, az aszimmetriát, a csúcsosságot mindkét év
adatai alapján együttesen és nemenként is! 7. Nevezze meg a tábla, a benne szereplő sorok és adatok típusát is! Figyelem! Egyes feladatok ismétlő jellegűek, ha szükséges, lapozzon vissza az előző fejezetekhez! 137 Demográfiai évkönyv, 2003 (KSH, 2004; 90. old) /Az ismeretlen korúak – számuk elenyésző– nélkül./ A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 120 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 121 ► 3. feladat Egyetemünk hallgatói körében néhány éve felmérést végeztünk, többek között arra voltunk kíváncsiak, mennyi családjukban az egy főre jutó jövedelem. A „bevallott” adatokat szakonként csoportosítva osztályközös gyakorisági sorba rendeztük. nettó jövedelem ezer FT – 30 31 – 50 51 – 70 71 – 100 101 – 200 201 – összesen hallgatók (fő) szakok szerint jogász közgazdász (egyetem)
közgazdász (főiskola) mérnök (közlekedés) együtt 1 5 13 22 42 17 100 2 6 23 26 33 10 100 5 12 14 37 22 10 100 3 9 32 29 24 3 100 11 32 82 114 121 40 400 1. Szakonként és a sokaság egészére is számítsa ki • • • • • • • • a számtani átlagot, a szórást a móduszt, a mediánt, az aszimmetria mutatóit, a koncentráció mutatóit, a csúcsosság mutatóját! Szerkessze meg a Lorenz-görbét! 2. Ábrázolja az adatokat! 3. Elemezze a kapcsolatot! 4. feladat 1. Gyűjtsön adatokat melyek alapján a megismert szorossági mutatók számítását be tudja mutatni! 2. A gyűjtött adatokkal végezze el a számításokat! 3. Írjon szöveges elemzéseket! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 121 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 122 ► 7.5 Összefoglalás ismérvek kö= ha a vizsgált sokaság különböző ismérvek
alapján feltáruló zötti kapcsolat szerkezete hasonlóságot, vagy azonosságot mutat 1. asszociáció fajtái 2. vegyes kapcsolat 3. korreláció 1. sztochasztikus (ezt vizsgáljuk) jellege 2. függvényszerű a= 1. Yule az asszociáció mutatói 2. Csuprov T= 3. Cramer C= f 11 f 22 − f 12 f 21 g11 g 22 − g12 g 21 ≅ f 11 f 22 + f 12 f 21 g11 g 22 + g12 g 21 χ2 n (s − 1)* (t − 1) χ2 n (s − 1) szorossági a vegyes kapcsolat mutatói H= σK σ2 = 1 − B2 σT σT szorossági a korrelációs kapcsolat mutatói σ K ( x) ill. σ T ( x) σ K ( y) = σ T ( y) befolyásolás H2 = σ K2 σ B2 = 1 − % σ T2 σ T2 befolyásolás Hy x = Hx y a kapcsolat muta- általában kivétel: Csuprov, ha s〈t tók határértékei a határértékek alsó = jelentése a kapcsolat teljes hiánya A dokumentum használata | Tartalomjegyzék | Táblázatok mint vegyes kapcsolat 0〈mutató〈1 0〈T 〈 4 s −1 t −1 felső = igen szoros kapcsolat Vissza ◄
122 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 123 ► 7.6 A 4, 5, 6, 7 fejezetek tartalmához kapcsolódó mintapéldák korábbi vizsgadolgozatokból 1. minta Egy 80 főt foglalkoztató vállalkozás adatai: havi nettó kereset fizikai dolgozók szellemi dolgozók férfi férfi ezer Ft fő – 60 – 1 – – 61 – 80 2 6 – 1 81 – 100 11 8 – 2 101 – 120 13 4 1 3 121 – 140 12 – 2 1 141 – 160 8 – 2 – 161 – – – 2 1 összesen 46 19 7 8 nő nő fő 1. Állapítsa meg, hogy a dolgozók jövedelmét nemük (férfi, nő) vagy foglalkoztatásuk jellege (fizikai, szellemi) befolyásolja-e nagyobb mértékben! 2. A szorossági mutató nevezőjében szereplő szórás kiszámítására a szórások közötti összefüggést használja! 3. Vegye észre, és használja a számolás gyorsításához beírt adatokat, továbbá az azonos
adatokat! 4. A szükséges számítások elvégzéshez az alábbi munkatáblát szokás összeállítani. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 123 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 124 ► 1. munkatábla férfiak nők férfiak nők havi netátlagotó kerelandó set (ezer fő értékösszeg érték Ft) férfiak nők súlyozott eltérés négyzet – 60 61 – 80 81 – 100 101 – 120 Nem kell kitölteni. 121 – 140 141 – 160 161 – összesen 6.330,00 2510,00 31683,18 14962,96 2. munkatábla szellemi havi net- átlago- fizikai szellemi fizikai szellemi fizikai tó kereset landó súlyozott eltérés értékösszeg fő érték (ezer Ft) négyzet – 60 61 – 80 81 – 100 101 – 120 Nem kell kitölteni. 121 – 140 141 – 160 161 – összesen 6.950,00 1890,00 40984,60 13760,00 A dokumentum használata | Tartalomjegyzék | Táblázatok
Vissza ◄ 124 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 125 ► 1. eredménytábla a mutatók megnevezés statisztikai jele számítása értéke, mértékegységgel a férfiak átlagbére a nők átlagbére a férfiak átlagbérének szórása a nők átlagbérének szórása a két csoport szórásának átlaga a kapcsolat szorossági mutatója 2. eredménytábla a mutatók megnevezés statisztikai jele számítása értéke, mértékegységgel a szellemi dolgozók átlagbére a fizikai dolgozók átlagbérének szórása a szellemi dolgozók átlagbérének szórása a két csoport szórásának átlaga a kapcsolat szorossági mutatója A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 125 ► Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 126 ► 2. minta Egy reprezentatív
felmérés során vizsgálták a magyarok szabadság-kivételi szokásainak és jövedelmi helyzetének kapcsolatát. A megfigyelés során 2.500, 14 évnél idősebb magyar állampolgárt kérdeztek meg megfigyelt adatok: a szabadságot jövedelem egyben 2 hetet egyszerre elaprózva összesen veszi igénybe alacsony 88 472 240 800 közepes 120 680 200 1000 magas 112 497 91 700 összesen 320 1649 531 2500 Állapítsa meg, van-e kapcsolat az állampolgárok jövedelmi helyzete és szabadság-kivételi szokásai között! számított adatok: a szabadságot 2 hetet egyszerre elaprózva 527,68 169,92 közepes 659,60 212,40 magas 461,72 148,68 jövedelem egyben összesen veszi igénybe alacsony 102,40 összesen Töltse ki a fenti tábla üres rovatait! Az adatokat zsebszámológépe kijelzőjéről két tizedes pontossággal másolja át! (Kerekíteni nem kell.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 126 ►
Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 127 ► mellékszámítás: A szabadságot jövedelem egyben 2 hetet egyszerre elaprózva összesen veszi igénybe alacsony közepes magas Nem kell kitölteni! 36,79 1,85 30,66 összesen 9,19 69,30 51,99 Töltse ki a fenti tábla üres rovatait! A zsebszámológép kijelzőjéről az egész számot és az első két tizedest másolja át, kerekíteni nem kell. eredménytábla megnevezés a mutatók statisztikai jele számítása értéke, mértékegységgel az egyik tanult mutató a másik tanult mutató 3. minta Egy hallgatói csoport megoszlása a tanulóbiztosítás féléves díjai szerint: biztosítási díjak ezer Ft 0,0 – 1,2 1,2 – 1,5 1,5 – 2,0 2,0 – 2,5 2,5 – 3,0 3,0 – 3,5 3,5 – 4,0 összesen hallgatók fő 30 25 20 15 15 10 5 60 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 127 ►
Statisztika Az ismérvek közötti kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 128 ► 1. 2. 3. 4. Számítsa ki a szóródás két leggyakrabban használt mutatóját! Számítsa ki az aszimmetria „A” és „P” jelű mutatóit! Készítse el a Lorenz-görbét! Fogalmazza meg a kiszámított mutatók jelentését, továbbá az újabb részeredmények jelentését! 5. A Lorenz-görbe alapján nyilatkozzon a sokaság koncentrációjáról! biztosítási díjak ezer Ft hallgatók 0,0 – 1,2 30 1,2 – 1,5 25 1,5 – 2,0 20 2,0 – 2,5 15 2,5 – 3,0 15 3,0 – 3,5 10 3,5 – 4,0 5 összesen 60 fő 1. eredmény-tábla Az első üres sorba a kiszámított mutató statisztikai jelét, a második üres sorba pedig számértékét és mértékegységét kell írni. a szórás abszolút mutatója az aszimmetria mutatója a megfigyelt gyakoriságokkal súlyozva a relatív a szórás gyakori- relatív ságokkal mutatója
súlyozva a számtani átlag és a módusz összehasonlításával a számtani átlag és a medián összehasonlításával 2. eredmény-tábla Írjon szöveges elemzést! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 128 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 129 ► 8. Standardizálás 8.1 Bevezetés Magyarországon az alkalmazásban álló fizikai foglalkozásúak bruttó átlagkeresete 2000-ben 61.930138Ft, 2003-ban pedig 91397 Ft volt Ugyanezen években az alkalmazásban álló szellemi foglalkozásúakra vonatkozó adatok: 121.779 Ft ill 143753 Ft A fizikai foglalkozásúak átlagkeresete tehát ≅ 48 %-kal139, a szellemi foglalkozásúaké pedig ≅ 18 %-kal emelkedett. A nemzetgazdaság egészére vonatkozó bruttó átlagkereset (= a fizikai és szellemi foglalkozásúak átlagkeresetének súlyozott számtani átlaga) a két megfigyelt évben 87.645 ill 137193 Ft, azaz
2003-ban 56,5 %-kal140 magasabb volt Hogyan lehetséges az, hogy a nemzetgazdasági átlagkereset növekedése mind a fizikai, mind a szellemi dolgozók átlagkeresetének növekedését meghaladta? A feltett kérdésre könnyebben tudunk válaszolni, ha végiggondoljuk a fentiekben felsorakoztatott átlagkereseti adatok számítását, ill. felírjuk számításukat statisztikai jelekkel, képletekkel. Az átlagkereseteket kétféleképpen is kiszámíthatjuk • Egy összegben ismerve a bérjellegű kifizetéseket ( A) és a foglalkozta(B ) , tottak létszámát intenzitási viszonyszámként (v ) .Képletszerűen: A rész-intenzitási viszonyszám (= részátlag): v = ill. B összetett intenzitási viszonyszám (főátlag): V = ∑A ∑B • A dolgozókat bérkategóriák szerint ( xi ) osztályközös gyakorisági ( f i ) sorba rendezhetjük, és súlyozott számtani átlagként határozhatjuk meg az átlagkereseti adatokat. Képletszerűen: 138 Adatforrás: Magyar
statisztikai évkönyv, 2003 (KSH – Budapest 2004, 96. – 97 old) if= 91.397 / 61930 = 1,4758 + 48 % ill isz = 143753 / 121779 = 1,18044 + 18 % 140 I = 137.193 / 87645 =1,5653 + 56,5 % 139 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 129 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza részátlag (=rész-intenzitási viszonyszám): x j = ∑fx ∑f i i ◄ 130 ► ill. i főátlag (=összetett intenzitási viszonyszám): x = ∑n x ∑n j j j A képletben szereplő súly adat ( f i ) a részsokaságra vonatkozó osztályközönkénti megfigyelt előfordulás, ezek összege egy-egy részsokaságra vonatkozóan = n j . A két számítás eredménye természetesen azonos, a téma további tárgyalásának egyszerűsítése érdekében pedig csak az intenzitási viszonyszámoknál megszokott jelöléseket alkalmazzuk. Írjuk fel a fősokaságra vonatkozó összetett intenzitási
viszonyszámok relatív változásának számítását a szokásos statisztikai jelöléseket alkalmazva141! ∑A ∑B v 1 1 V1 ∑ B1 = ∑ B1 = V0 ∑ A0 ∑ B0 v0 ∑ B0 ∑ B0 1 A részletezett képletből jól látható, hogy az átlagkeresetek csökkenése vagy növekedése nem egyetlen adat változásának a következménye. A két időpontban ugyanis eltérő szerkezetű142 létszám (B ) és eltérő abszolút értékű egyedi bér (v ) adatokat figyelhettünk meg E két tényező változásának hatását elkülönítve kaphatunk választ az első bekezdésben feltett kérdésünkre. A hatások elkülönítésére alkalmas módszer a standardizálás 141 Tulajdonképpen dinamikus viszonyszámot számítunk. A létszámadat a számítás során súlyként szerepel. A súlyokról pedig tudjuk, hogy nem abszolút, hanem relatív nagyságukkal befolyásolják a számítás eredményét. Természetesen lehetséges, hogy a B-jelű adatok abszolút értéke is megváltozik
(Erre a problémára még visszatérünk.) 142 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 130 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Standardizálás Vissza ◄ 131 ► 8.2 A standardizálás – elméleti összefoglalás A standardizálás olyan statisztikai módszer, mellyel főátlagokat, azaz öszszetett intenzitási viszonyszámokat143 hasonlíthatunk össze. S ahogy már említettük, lehetőségünk van az eltérést kialakító tényezők feltárására is. Az összehasonlítást elvégezhetjük indexek (i, I ) és különbségek (k, K ) formájában is, mind térbeli, mind időbeli adatokra vonatkozóan. A számítások eredményeként az alábbiakban felsorolt indexekhez és különbségekhez jutunk. • Egyedi indexek = a részviszonyszámok relatív változása (eltérése144). (A bevezetőben megadott a fizikai és szellemi dolgozók bruttó átlagbérének 48 ill. 18 %-os emelkedése szintén
egyedi index) • Egyedi különbségek = a részviszonyszámok abszolút változása. (A fizikai dolgozók bruttó átlagbére 29.467145, a szellemi dolgozóké pedig 21.974 Ft-tal magasabb volt 2003-ban) • Főátlagindex = az összetett intenzitási viszonyszámok relatív változása, a két befolyásoló tényező hatását együtt tartalmazza. (A bevezetőben megadott, a nemzetgazdaság valamennyi dolgozójára vonatkozó 56,5 %-os növekedés szintén főátlagindex.) • A főátlagok különbsége = az összetett intenzitási viszonyszámok abszolút változása, a két befolyásoló tényező hatását, akárcsak a főátlagindex, együtt tartalmazza. (A nemzetgazdaság valamennyi dolgozójára vonatkozó bruttó átlagbér 2003-ban 49548146 Ft-tal magasabb volt, mint 2000-ben) • Részátlagindex = az összetett intenzitási viszonyszámoknak a részviszonyszámok növekedése vagy csökkenése miatt bekövetkező relatív 143 A rész-intenzitási viszonyszámok és a
részátlagok, ill. az összetett intenzitási viszonyszámok és a főátlagok tartalmi és számértékének azonosságát belátva, a továbbiakban csak a viszonyszám elnevezést tüntetjük fel. 144 Változásról beszélünk, ha az összehasonlítás különböző időpontokra vonatkozó adatok alapján történik. Eltérésről szólunk, ha különböző területekre vonatkozó adatok összehasonlítását végezzük. A továbbiakban mindig csak a változás szót tüntetjük fel, mondataink egyszerűbbé tétele érdekében. 145 k = 91.397 – 61930 = + 29467 Ft ill k = 143753 – 121779 = + 21974 Ft f sz 146 K = 137.193 – 87645 = 49548 Ft A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 131 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 132 ► változás. Számításához147 a másik befolyásoló tényezőt – a súlyok szerkezetét – állandónak kell tekintetni • A
főátlagok különbsége (= abszolút változása) a részviszonyszámok eltérése miatt. Számításához a másik befolyásoló tényezőt – a súlyok szerkezetét – ahogy az indexnél is, állandónak kell tekintetni • Összetételindex = az összetett intenzitási viszonyszámoknak a B-jelű adatok (súlyok) szerkezetének módosulása miatt bekövetkező relatív változását fejezi ki. Számításához a másik befolyásoló tényezőt – a részviszonyszámokat –állandónak kell tekintetni. • a főátlagok különbsége a B-jelű adatok (súlyok) szerkezetének módosulása következtében (= abszolút változása). Számításához a másik befolyásoló tényezőt – a részviszonyszámokat – akárcsak az indexnél, állandónak kell tekintetni A felsorolt indexeket és különbségeket a következő képletekkel számíthatjuk ki: • egyedi indexek: i = v1 v0 • egyedi különbségek: k = v1 − v0 ∑A ∑B = ∑A ∑B 1 • főátlagindex: I = V1
V0 1 0 0 ∑Bv ∑B = ∑B v ∑B 1 1 1 0 0 = ∑g v ∑g v 1 1 0 0 0 • a főátlagok mindkét hatást tartalmazó különbsége: K = V1 − V1 • részátlagindex, ha állandónak tekintjük a régebbi időszak súly adatait: 147 Ennek az indexnek és a továbbiakban felsorolásra kerülő mutatóknak a számításához még további elméleti ismeretekre van szükségünk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 132 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok ∑B v ∑B = ∑B v ∑B 0 1 I′ = Vst (1) V0 0 = 0 0 ∑B v ∑B v 0 1 = 0 0 ∑g v ∑g v 0 1 Vissza = 0 0 ◄ 133 ► ∑ B v *i = ∑ B v ∑B v ∑ B v 0 0 0 1 0 0 0 1 i 0 ha állandónak tekintjük az újabb időszak súly adatait: ∑B v ∑B = ∑B v ∑B 1 1 I′ = V1 Vst ( 2 ) 1 = 1 0 ∑B v ∑B v 1 1 1 0 = ∑g v ∑g v 1 1 = 1 0 ∑ B v *i = ∑ B v ∑B v ∑ B v 1 0 1
1 1 0 1 1 i 1 főátlagoknak a részviszonyszámok eltérése miatti különbsége: K ′ = Vst (1) − V0 vagy K ′ = V1 − Vst ( 2 ) • összetételindex, ha állandónak tekintjük a régebbi időszak átlagolandó értékeit: ∑B v ∑B = ∑B v ∑B 1 0 I ′′ = Vst ( 2 ) V0 1 0 0 = ∑g v ∑g v 1 0 , ahol g 0 = 0 0 B0 B és g1 = 1 ∑ B0 ∑ B1 0 ha állandónak tekintjük az újabb időszak átlagolandó értékeit: ∑B v ∑B = ∑B v ∑B 1 1 I ′′ = V1 Vst (1) 1 0 1 = ∑g v ∑g v 1 1 0 1 0 a főátlagoknak a súly adatok szerkezeti változása miatt adódó különbsége: K ′′ = Vst ( 2 ) − V0 vagy K ′′ = V1 − Vst (1) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 133 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 134 ► A képletekben szereplő betűk jelentése: A= B= v= az intenzitási viszonyszám számlálójában
szereplő adat az intenzitási viszonyszám nevezőjében szereplő adat = súly egyedi intenzitási viszonyszám = részátlag = az összetett intenzitási viszonyszám számításánál az átlagolandó érték i= egyedi index I′= k= I= egyedi különbfőátlagindex ség K′= a főátlagok különbsége részátlagindex a részátlagok eltérése miatt K ′′ K a főátlagok különbsége V0 I ′′ összetett intenzitási összetételindex viszonyszám = főátlag (régebbi) Vst (1) V1 a főátlagok különbsége a összetett intenzitási súly adatok szerkezetéviszonyszám = főátlag nek eltérése miatt (újabb) Vst ( 2 ) standard (= állandó tényezőt tartalmazó) fiktív főátlagok g0 = g1 = a B0 adatok megoszlása = relatív gya- a B1 adatok megoszlása = relatív gyakoriság koriság A felsorakoztatott képleteket végigtekintve, láthatjuk, hogy a részátlagindex az egyedi indexek átlagaként is előállítható, azaz nemcsak nevében
átlag (mert két átlagot viszonyítva kapjuk meg értékét), hanem tartalmában is az. Tehát igaz rá, hogy [i min 〈 I ′〈i max ] A főátlagindexre és az összetételindexre ilyen nagyságrendi relációt nem tudunk megadni. Ezek lehetnek kisebbek a legkisebb egyedi indexnél, és nagyobbak a legnagyobb egyedi indexnél, de az egyik ismeretében (számítása után) már biztosak lehetünk a másik nagyságrendjében. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 134 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 135 ► • ha [i min 〈 I 〈i max ] és I 〈 I ′ , akkor I ′′〈100% • ha [i min 〈 I 〈i max ] és I 〉 I ′ , akkor I ′′〉100% • ha I 〈imin , akkor I ′′〉100% • ha I 〉 imax , akkor I ′′〈100% A három, a sokaság egészére vonatkozó index és a hozzájuk tartozó különbségek között nemcsak logikai (= a szétbontott hatások
egyesíthetőek), hanem számszaki összefüggés is felírható. I = I ′ * I ′′ ill. K = K ′ + K ′′ A tökéletes számszaki egyezőség azonban csak az un. keresztbe-súlyozással érvényesül, vagyis ha a részátlagindex számításánál a régebbi időszak súly adatait vettük állandónak, akkor az összetételindex számításánál az újabb időszak részviszonyszámait kell állandónak venni (és fordítva). Végezetül megjegyezzük, hogy tananyagunkban ugyan nem szerepel, de ismert a többszörös standardizálás módszere is, amikor nemcsak két, hanem több befolyásoló tényező hatását is ki tudjuk mutatni (természetesen egyszerre több másik tényezőt állandónak véve). 8.3 Gyakorlati alkalmazás BEMUTATÓ FELADAT I. – különböző időpontokra vonatkozó adatok összehasonlítása A 8.1 sz tábla a bevezetőben szereplő adatokat, valamint az ott nem közölt súlyadatokat tartalmazza 8.11sz tábla megnevezés állománycsoport fizikai
szellemi együtt statisztikai jelölés dolgozók megbruttó átlagbér oszlása Ft / fő / hó % 2000 2003 2000 2003 61.930 91397 0,57033 0,1253 121.779 143753 0,42967 0,8747 87.645 137193 1 1 fiktív adatok a hatások elkülönítéséhez 1. 2. 52.126 7.760 61.766 106.520 113.892 114280 v0 és V0 g 0 ∗ v1 = g1 ∗ v0 = v1 és V1 g 0 A dokumentum használata | Tartalomjegyzék | Táblázatok g1 Vst (1) Vissza Vst ( 2) ◄ 135 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 136 ► 8.12 sz tábla megnevezés a bruttó átlagbér változása állománycsoport % Ft / fő / hó fizikai 147,6 29.467 szellemi 118,0 21.974 együtt 156,5 i és I 49.548 k és K statisztikai jelölés A nemzetgazdasági bruttó átlagbér változásának összetevőit a következőkben mindkét megismert módon meghatározzuk. • Részátlagindexek és a hozzájuk tartozó különbségek: ha állandónak
tekintjük a régebbi időszak súly adatait I′ = Vst (1) V0 = ∑g v ∑g v 0 1 = 0 0 113.892 = 129,9% 87.645 K ′ = Vst (1) − V0 = 113.892 − 87645 = 26247 Ft ha állandónak tekintjük az újabb időszak súly adatait I′ = V1 ∑ g1v1 = 137.193 = 120,0% = Vst ( 2) ∑ g1v0 114.280 K ′ = V1 − Vst ( 2 ) = 137.193 − 114280 = 22913 Ft • Összetételindexek és a hozzájuk tartozó különbségek: ha állandónak tekintjük a régebbi időszak átlagolandó értékeit I ′′ = Vst ( 2 ) V0 = ∑g v ∑g v 1 0 0 0 = 114.280 = 130,4% 87.645 K ′′ = Vst ( 2) − V0 = 114.280 − 87645 = 26635 Ft A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 136 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 137 ► ha állandónak tekintjük az újabb időszak átlagolandó értékeit I ′′ = V1 ∑ g1v1 = 137.193 = 120,5% = Vst (1) ∑ g 0 v1 113.892 K ′′ = V1 −
Vst (1) = 137.193 − 113892 = 23301 Ft • Összefüggések az indexek és a különbségek között: I = I ′ ∗ I ′′ = Vst (1) V0 ∗ Vst ( 2 ) V1 V = 1,299 ∗1,205 = 1 ∗ = 1,200 ∗1,304 = 156,5% Vst (1) Vst ( 2 ) V0 K = K ′ + K ′′ = (Vst (1) − V0 ) + (V1 −V st (1) ) = 26.247 + 23301 = 49548 Ft ill. K = K ′ + K ′′ = (V1 − Vst ( 2 ) ) + (Vst ( 2) −V 0 ) = 22.913 + 26635 = 49548 Ft ♥ SZÖVEGES ELEMEZÉS148: Hazánkban az alkalmazásban állók nemzetgazdasági bruttó átlagbére 2003-ban 56,5 %-kal, azaz 49.548 Ft-tal magasabb volt, mint 2000-ben A növekedést két azonos előjelű tényező okozta. Egyrészt mind a fizikai (≅+48%,+29467 Ft), mind a szellemi (+18 %, +21974 Ft) dolgozók bruttó átlagbére növekedett; másrészt megváltozott a két alkalmazotti csoport egymáshoz viszonyított aránya. A magasabb átlagbérű szellemi dolgozók aránya jelentős mértében – 44,5 %-ponttal – megemelkedett. A nagyobb átlagolandó
érték így nagyobb súlyt kapott. A fizikai ill. szellemi dolgozók bruttó átlagbérének növekedése a nemzetgazdasági bruttó átlagbér növekedéséhez 20,0 %-kal (22913 Ft-tal); a dolgozó csoportok létszámarányának megváltozása pedig 30,4 %-kal (26.635 Ft-tal) járult hozzá 148 A szöveges elemzést csak az egyik – a részátlagindex számításánál az újabb időszak relatív gyakoriságait állandónak véve – írtuk le. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 137 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 138 ► BEMUTATÓ FELADAT II. – különböző időpontokra vonatkozó adatok összehasonlítása Magyarországi születési arányszámok149 összehasonlítása. 8.21 sz tábla élveszületés életkora (fő) (év) 1960 2003 az anya -14 a nők létszáma (fő) 1000 nőre jutó születés (fő / 1000 fő) = (‰) 1960 1960 2003 2003 79 118
386.877 300.605 0,20420 0,39254 15 – 19 19.562 6.483 375.000 316.852 52,16533 20,46067 20 – 24 55.929 20143 349.364 364.223 160,08800 55,30403 25 – 29 38.426 37089 367.770 413.333 104,48380 89,73152 30 – 34 20.343 22022 386.309 354.986 52,65992 62,03625 35 – 39 9.882 7.452 395.865 314.267 24,96306 23,71232 150 2.210 1.340 616.748 750.476 3,58331 1,78553 148.391 96650 2.879893 2.816745 51,52657 34,31266 40 – együtt statisztikai A0 jel A1 B0 B1 v0 és V0 v1 és V1 8.22 sz tábla az anya relatív életkora változás (év) abszolút fiktív adatok változás 1. 2. a nők megoszlása (%) 1960 2003 -14 1,922 0,188 151.865,4 61383,321 13,4 10,7 15 – 19 0,392 -31,705 7.672746 16528690 13,0 11,2 20 – 24 0,346 -104,784 19.321237 58307748 12,1 12,9 25 – 29 0,859 -14,752 33.000563 43186594 12,8 14,7 30 – 34 1,178 9,376 23.965161 18693533 13,4 12,6 149 adatforrás: Demográfiai évkönyv 2003 (KSH
– Budapest –2004, 11. old , 40 old) Az adatforrásként használt évkönyv 1960-ra ill. 2003-ra nem azonos bontásban tartalmazza az adatokat, a számítások érdekében a 40 év feletti nőket egy korcsoportba vontuk össze. 150 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 138 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 35 – 39 0,950 -1,251 9.386878 7845064,6 13,7 11,2 40 – 0,498 -1,798 1.101224 26,6 együtt 0,666 statisztikai i és I jel 2.689189 21,4 -17,214 94.599675 147312203 ≅1 k és K B0 v1 B1v0 139 ► ≅1 g0 g1 8.23/1 sz tábla megnevezés számítás eredmény számítás eredmény ‰-pont főátlagindex és a főátlagok különbsége I és K 34,3 51,5 66,6 % 94.599675 2.879893 32,8 ‰ 147.312203 2.816745 52,3 ‰ 34,3 − 51,5 -17,2 standard főátlagok Vst (1) , ahol (B0 v1 ) Vst ( 2) , ahol (B1v0 ) részátlagindex és a
hozzá tartozó különbség I ′ és K ′ standard: B0 32,8 51,5 63,7 % 32,8 − 51,5 -18,7 I ′ és K ′ standard: B1 34,3 52,3 65,4 % 34,3 − 52,3 -18,0 összetételindex és a hozzá tartozó különbség I ′′ és K ′′ standard: v0 52,3 51,5 101,6 % 52,3 − 51,5 +0,8 I ′′ és K ′′ standard: v1 34,3 32,8 104,6 % 34,3 − 32,8 +1,5 összefüggések 0,637*1,046 0,654*1,016 I = 66,6 -18,7+1,5 % -18,0+0,8 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza K=17,2 ◄ 139 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Standardizálás Vissza ◄ 140 ► ♥ SZÖVEGES ELEMEZÉS151: Magyarországon ezer szülőképeskorú nőre 1960-ban 51,5; 2003-ban pedig 34,3 születés jutott. A születési arányszám tehát 33,4 %-kal (= 100 – 66,6 %), azaz 17,2152 ezrelékponttal csökkent. A csökkenésnek két ellenkező előjelű összetevője van. Egyrészt a korosztályok majd mindegyikében
(a legtermékenyebbek mindegyikében) csökkent a születési arányszám; másrészt megváltozott a nők korosztályonkénti összetétele. A korosztályonkénti születési arányszámok változása következtében az országos adat 36,3 %-kal (= 100 – 63,7 %), vagyis 18,7 ezrelékponttal csökkent. A nők korosztályonkénti szerkezeti változása önmagában az országos adat növekedéséhez vezetett volna. (4,6 % relatív növekedés, ami 1,5 ezrelékpont abszolút növekedést jelent) A szerkezetváltozás növekedést eredményező hatása annak következménye, hogy éppen a két legtermékenyebb korosztályban (20 – 24 és 25 – 29 évesek) emelkedett a szülőképeskorú nők aránya (+0,8 ill. +1,9 százalékponttal), így a legmagasabb abszolútértékű részviszonyszámok kapták a legnagyobb súlyokat Fontos megfigyelni a szülőképeskorú nők létszámának alakulását. 1960-hoz képest 63.148 fővel kevesebben voltak 2003-ban Ennek ellenére az
összetételindex növekedést jelez Ez is jól mutatja azt, amire már többször felhívtuk a figyelmet, a súlyoknak nem az abszolút, hanem a relatív nagysága a befolyásoló tényező. 151 A szöveges elemzést csak az egyik – a részátlagindex számításánál a régebbi időszak relatív gyakoriságait állandónak véve – írjuk le. 152 17,2 ezrelékpont = minden 1000 nő tizenhéttel kevesebb gyereket szül. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 140 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 141 ► BEMUTATÓ FELADAT III. – területi153 összehasonlítás 8.31 sz tábla megnevezés bruttó átlagbér (2003) Ft / fő / hó ágazat ipar nem férfi 144.907 mezőgazdaság 89.940 nő 105.133 együtt statisztikai jelölés dolgozók megoszlása (2003) % ipar mezőgazdaság fiktív adatok a hatások elkülönítéséhez 1. 2. 0,60436 0,76177 54.356
110.386 78.510 0,39564 0,23823 31.062 25.046 129.171 87.217 1 1 85.418 135.432 v0 és V0 v1 és V0 g 0 ∗ v1 = g1 ∗ v 0 = Vst (1) Vst ( 2) g0 g1 8.32 sz tábla megnevezés részátlagindexek és összetételindex és a bruttó átlagbérek különbségek különbségek eltérése standard: v0 standard: B0 állománycso% port Ft / fő / hó 85.418 / 129171 = 66,1 % 135.432 / 129171 =104,8 fizikai 62,1 -54.967 85.418 - 129171 = 43753 Ft 135.432 / 129171 = +6.261 Ft szellemi 74,7 -26.623 standard: B1 standard: v1 együtt 67,5 -41.954 87.217 / 135432 = 64,4 % 87.217 / 85418 = 102,1 % statisztikai jelölés i és I k és K 87.217 - 135432 = 48215 Ft 87.217 - 85418 = +1.799 Ft 153 A területi összehasonlítás nem feltétlenül földrajzi ételemben használatos. A gazdasági szaknyelvben szokás a nemzetgazdaság különböző területeiről beszélni, miközben az egyes nemzetgazdasági ágakra, ágazatokra gondolunk. A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 141 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Standardizálás Vissza ◄ 142 ► ♥ SZÖVEGES ELEMEZÉS 2003-ban Magyarországon a mezőgazdasági alkalmazottak bruttó átlagbére 32,5 %-kal, azaz 41.954 Ft-tal alacsonyabb volt, mint az ipari alkalmazottaké Az eltérést két ellentétes előjelű hatás okozza. Egyrészt mind a két megfigyelt részsokaságban (férfiak, nők) alacsonyabb az alkalmazottak bruttó átlagbére. Ha a nemzetgazdaság két vizsgált ága között csak ebben lenne eltérés (vagyis a nemek aránya azonos lenne), akkor a mezőgazdasági és az ipari átlagbérek között még nagyobb különbség mutatkozna. A mezőgazdasági átlagbér 35,6 %-kal, azaz 48215 Ft-tal lenne alacsonyabb Az eltérés másik oka a dolgozók nemek szerinti összetételének különbözősége. A mezőgazdaságban a magasabb átlagbérű férfiak aránya majdnem 16 %-ponttal
nagyobb, tehát a magasabb átlagolandó érték nagyobb súlyt kap. Ezért, ha csak a nemenkénti szerkezet eltérésére figyelünk, azt tapasztaljuk, hogy a mezőgazdasági átlagbérek 4,8 %-kal, azaz 6.261 Ft-tal magasabbnak látszanak. Fontos megjegyezni, hogy területi adatok elemzése esetén nem adódik értelemszerűen, hogy melyik adatot jelöljük „0”-val és melyiket „1”-vel; ezt eldönteni a számítást végzők feladata. A döntéshez azonban az elemzés során végig ragaszkodnunk kell Ha a jelöléseket fordítva osztottuk volna ki, természetesen részben más számadatokat kapunk eredményül, de a következtetéseink a jelen megoldás következtéseivel azonosak lennének. Tekintsük viszonyítási alapnak (0) a mezőgazdaságra vonatkozó adatokat és viszonyítandó értéknek (1) az ipar adatait. A főátlagindex = 148,1 %, a főátlagok eltérése epdig +41954 Ft. A részátlagindex (standard az újabb időszak súly adata) = 151,2 %, az
összetételindex (a tanult számszaki összefüggésre figyelve) = 97,9 %. A két indexhez tartozó különbségek pedig (az eddigi sorrendnek megfelelően) +43.753 Ft / fő / hó ill -1799 Ft / fő / hó. (Az indexek reciprokai az előzőekben kiszámítottaknak, a különbségeknek pedig csak az előjele változott.) És most így fogalmazhatunk: az iparban dolgozók bruttó átlagbére 48,1 %-kal magasabb stb A standardizálás módszerét árak elemzésére is felhasználhatjuk, de csak homogén árucsoportok esetén. Erre az ár-, érték-, volumenindex számítás témakörben visszatérünk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 142 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 143 ► záró megjegyzések: Az intenzitási viszonyszámok és a számtani átlag szoros "rokonságot" mutat, ezért 1. V = ∑A ∑B ∑B v = g v = ∑ f x = g ∑ ∑ ∑B ∑f = v ,
∑ f = B , ∑ g = 1 és s = f * x = ij ij ij ij ahol: xi ij ij i ij ij ij i ij i i i i ij xij = ∑s ij f ij = ∑s n ij = xa i A képletekben két futóindexeket kellene alkalmaznunk (pl Bio ), az első a részeket (csoportokat) jelentené, a második az eltérő időpontokat ill. az eltérő területeket, a 2. képletek egyszerűbb írása érdekében azonban az első futóindex feltüntetésétől eltekintünk. A kapott számszerű eredmények szöveges megfogalmazásánál vigyáznunk kell a megfelelő kifejezések használatra. 3. Ha időbeli összehasonlítást végzünk, akkor növekedésről, csökkenésről, ha térbeli összehasonlítást végzünk, akkor eltérésről (azaz az egyik terület adata kisebb, kevesebb vagy nagyobb, több lehet a másik terület adatánál) beszélhetünk. Az indexeket ( I ) %-os formában használjuk, 100 % feletti részük jelenti a növekedést, ill. azt, hogy a számlálóban szereplő területre vonatkozó adat
nagyobb; a 100 4. %-ra kiegészítő adat pedig a csökkenést ill. azt, hogy a számlálóban szereplő területre vonatkozó adat kisebb 5. A különbségek ( K ) mértékegysége értelemszerűen megegyezik V mértékegységével 6. A standardizálás módszerét homogén árucsoportok esetében az árak elemzésére is felhasználhatjuk. Erre a 9 fejezetben tértünk ki Ahogy a bemutató példákból is jól látható, a részátlagindex és az összetételindex ill. az ezekhez tartozó különbségek nagysága, attól függően, hogy melyik adatokat 7. tekintettük állandónak, eltérő (egyes esetekben igen erősen) Az eltérés részletes vizsgálata nem képezi tananyagunk részét, de a módszer használatakor éppen ezért célszerű mindig mind a két súlyozást alkalmazva kiszámítani az adatokat. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 143 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 144 ► 8.4 Gyakorló feladatok 1. feladat A magyar lakosság és a meghaltak életkoronkénti és nemenkénti megoszlása, 2003154 meghaltak lakosság életkor nők férfiak nők férfiak fő –10 399 503 496.256 521.953 11 – 20 122 232 617.457 642.727 21 – 30 250 763 777.656 811.908 31 – 40 599 1.492 669.253 682.514 41 – 50 2.546 6.043 750.476 716.010 51 – 60 5.052 11.262 715.045 629.522 61 – 70 8.599 14.979 595.429 434.170 71 – 80 19.623 19.800 484.446 284.551 81 – 28.617 14.942 217.888 95.101 összesen 65.807 70.016 5.323906 4.818456 1. Mutassa ki az ezer lakosra jutó halálozási arányszámok nemenkénti eltérését, továbbá az eltérést okozó tényezőket indexek és különbségek formájában is! 2. Írjon szöveges elemzést! 3. Számítsa ki155 valamennyi részsokaságra vonatkozóan valamennyi eddig tanult és kiszámítható statisztikai adatot (középértékek,
szóródás stb.) 4. Készítsen ábrákat! 5. Hasonlítsa össze a rész és a fősokaságok megoszlását, koncentrációját! 154 Adatforrás: Demográfiai évkönyv (KSH, Budapest – 2004; 58. – 59 old ill 8 – 9 old ) 155 Az ismétlő feladatok megoldása érdekében, ha szükséges, lapozzon vissza az előző fejezetekhez! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 144 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 145 ► 2. feladat A 15 – 74 éves népesség gazdasági aktivitása nemek szerint Magyarországon156 a gazdaságilag aktív 15 – 74 éves megnevezés népesség ezer fő foglalkoztatott népesség a gazdaságilag nem aktív 15 – 74 éves népesség 2000 2003 2000 2003 2000 2003 férfi 2.264,7 2.265,0 2.105,8 2.126,5 1.441,0 1.426,4 nő 1.855,2 1.901,4 1.750,4 1.795,4 2.218,6 2.152,1 1. 2. 3. 4. Elemezze az aktivitási arány időbeli
változását! Elemezze a munkanélküliségi ráta időbeli változását! Mindkét esetben mutassa ki az eltérést okozó tényezők hatását! Írjon szöveges elemzést! 3. feladat Az alkalmazásban álló nők bruttó átlagkeresete (Ft / fő / hó) 1998-ban és 2003-ban • fizikaiak: 52.421 ill 98173 • szellemiek: 118.914 ill 246984 • együtt: 71.931 ill 147345 1. Elemezze a nők bruttó átlagkeresetének változását tényezőkre bontással indexek és különbségek formájában is! 2. Írjon szöveges elemzést! 156 Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004; 86. old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 145 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 146 ► 4. feladat Az alkalmazásban álló férfiak bruttó átlagkeresetének (Ft / fő / hó) változását vizsgálták 1998 és 2003 adatait összehasonlítva. A számítások során a
következő eredmények adódtak: I = 2,048421404 I ′′ = 1,038840633 K ′′ = 5509 standard: B0 1. Számítsa ki – a tanult indexösszefüggéseket szem előtt tartva – az elemzéshez hiányzó adatokat! 2. Írjon szöveges elemzést! 5. feladat Egy vállalkozás bér- és létszámadatai: bázis év tárgy év bérkategória nettó bér ezer Ft bérkategória nettó bér ezer Ft A 70 – 90 35 A 80 – 100 40 B 90 – 110 80 B 100 – 120 80 C 110 – 130 120 C 120 – 150 120 D 130 – 150 15 D 150 – 180 10 250 együtt együtt dolgozók fő dolgozók fő 250 stat. jelölés 1. Számítsa ki az egy főre jutó bér változását, továbbá a változást okozó tényezőket %-ban és Ft-ban is! (állandó: B1) 2. Írjon szöveges elemzést! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 146 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 147
► 6. feladat foglalkozási csoport létszám megoszlás (%) egy főre jutó bér (2004) e Ft egy főre jutó bér (2005) e Ft szellemi 68,8 200 220 adminisztratív 25,0 150 160 fizikai 6,2 100 115 összesen 100,0 203 2004. jan 1. Elemezze az egy főre jutó bér alakulását! 2. Mutassa ki befolyásoló tényezők hatását! A relatív és az abszolút változást is számolja ki! 3. Írjon szöveges elemzést! 7. feladat Egy termék gyártását egy vállalkozás budapesti és vidéki gyáregysége egyaránt rendszeresen végzi. A termék gyártásával kapcsolatban a következő adatok állnak rendelkezésünkre: 2005. jan gyáregység 2006. jan Ft / db a termelés megoszlása % az önköltség változása Ft / db 5 000 2 500 60 + 400 5 000 2 000 40 + 400 termelés önköltség db Budapest vidék együtt 1. Elemzze az önköltség változását, mutassa ki a befolyásoló tényezők hatását külön-külön, Ft-ban és %-ban is! 2. Írjon
szöveges elemzést! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 147 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 148 ► 8. feladat Két bánya 2005 évi termelési adatait hasonlítjuk össze. „Z” bánya termelése a külszíni és a földalatti termelési mód között 75 – 25 %-ban oszlik meg. A két bánya termelékenységét (= termelés létszámra vetítve) összehasonlítva („Y” hasonlítva „Z”-hez) a következő indexeket kapjuk: külszíni: 0,93 földalatti:1,00 együttesen: 1,10. 1. Számítsa ki a két bánya termelékenységének eltérését okozó tényezők hatását indexek formájában! 2. Írjon szöveges elemzést! 8.5 Összefoglalás = olyan statisztikai módszer, mellyel főátlagokat vagy összetett intenzitási viszonyszámokat hasonlíthatunk össze úgy, hogy nemcsak azok standareltérésének relatív (I = index) vagy abszolút (K =
különbség) nagysádizálás gát tudjuk megállapítani, hanem lehetőségünk nyílik az eltérést kialakító tényezők (= összetétel, egyedi indexek) hatásának kimutatására is. az összehasonlítás elvégezhető: – térben – időben alkalmazott képletek I = V1 , ahol V0 I′ ∑B v ∑B V0 = 1 1 1 = V1 = V1 , Vst ( 2 ) átlagfor- ahol mában Vst (1) is szá= , mít-ható V 0 ahol Vst ( 2 ) = ∑B v ∑B 0 0 = V1 − V0 K 0 ∑B v ∑B = V1 − Vst ( 2 ) 1 0 1 Vst (1) = ∑B v ∑B 0 1 K′ = Vst (1) − V0 0 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 148 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok = I ′′ Vissza ◄ 149 ► = Vst − V0 Vst ( 2 ) V0 K ′′ V = 1 Vst (1) = V1 − Vst (1) Összefüggések: (lásd: 6. sz megjegyzés) I st′ :B1 * I st′′:v0 vagy I st′ :B0 * I st′′:v1 I K Kst′ :B1 + Kst′′:v0 vagy Kst′
:B0 + Kst′′:v1 8.6 Mintafeladatok korábbi vizsgadolgozatokból 1. minta Egy kereskedelmi vállalkozás két részlegének adatai: a forgalom megoszlása az egy eladóra jutó forgalom 2005 2003 % ezer Ft / fő / hó 58 2.960 4.000 rövidáru 2.467 3.360 együtt 2.592 részlegek konfekció 1. 2. 3. 4. 2005 Elemezze az egy eladóra jutó forgalom nagyságát! Mutassa ki a változásban szerepet játszó tényezők hatását! Írjon szöveges elemzést! A számításokat kétféleképpen is végezze el! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 149 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Standardizálás Vissza ◄ 150 ► eredménytábla A dolgozat-lapon természetesen több helye lesz az adatok beírására. megfogalmazás számadat mértékegység stat. jelölés a konfekció osztályon történt abszolút változás a konfekció osztályon történt relatív változás a rövidárú
osztályon történt abszolút változás a konfekció osztályon történt relatív változás az együttes abszolút változás az együttes relatív változás a termelékenység változásának hatása – abszolút változás (standard: a 2003-as létszámmegoszlás) a termelékenység változásának hatása – relatív változás (standard: a 2003-as létszámmegoszlás) a szerkezetváltozás hatása – abszolút változás a szerkezetváltozás hatása – relatív változás a termelékenység változásának hatása – abszolút változás (standard: a 2005-ös létszámmegoszlás) a termelékenység változásának hatása – relatív változás (standard: a 2005-ös létszámmegoszlás) a szerkezetváltozás hatása – abszolút változás a szerkezetváltozás hatása – relatív változás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 150 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok
Vissza ◄ 151 ► 2. minta Egy mezőgazdasági termelő háromféle szőlőt termeszt. A tárgyidőszaki termésátlagok a következők: „A”: 5,0 tonna/ha, „B”: 6,5 tonna/ha, „C”: 7,0 tonna/ha. Az együttes termésátlag pedig 6,6 tonna/ha Az egyes fajták termésátlagainak változása a bázisidőszakról a tárgyidőszakra: – 0,5; -0,7; -1,0 tonna/ha (adatok az előző sorrend szerint). Az átlagos termésátlagok változása: + 0,3 tonna/ha. A termőterületi arányok megváltozása miatt az együttes termésátlag a vizsgált időszakban 0,9 tonna/ha-ral növekedett. Elemezze az átlagos szőlőtermés változását indexek és különbségek formájában is! Standard: B1. A főátlagok abszolút változása a részátlagok változása miatt. Előjel is kell. A zsebszámológép kijelzőjéről csak az egésze számokat és az első tizedest másolja át! . A főátlagok relatív változása. Előjel is kell A zsebszámológép kijelzőjéről csak az egésze
számokat és az első tizedest másolja át! . A főátlagok relatív változása az összetétel változása miatt. Előjel is kell A zsebszámológép kijelzőjéről csak az egésze számokat és az első tizedest másolja át! . Döntse el az alábbi kijelentésekről, hogy igazak-e! Az üres cellákba I (= igaz) vagy H (= hamis) betűt kell írni. Az Ön által megoldott feladatban a fiktív főátlag az összetételindex nevezőjében szerepelt, így tudtuk a másik összetevő állandóságát biztosítani. Az Ön által megoldott feladatra vonatkozóan igaz, hogy a termőterületi arányok a magasabb átlaghozamú fajták javára módosultak. Az Ön által megoldott feladatra vonatkozóan igaz, hogy a termésátlagok átlagosan csökkentek. Ha a standardizálásnál az állandónak vett tényezőt megváltoztatjuk, lehetséges, hogy más előjelű eredményeket (K’ és K”-re) kapunk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza igaz / hamis ◄
151 ► Statisztika Standardizálás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 152 ► 3. minta Két ország (K, L) halálozási arányszámait (=halálozási ráta, ezrelékben) hasonlítottuk össze (a viszonyítási alap = K ország) az alábbi adatok ismeretében: életkor év népesség halálozási ráta millió fő ezrelék K L K L 0 – 14 6 3 2,0 1,5 15 – 59 12 15 3,5 2,5 60 - 2 12 50,0 45,0 együtt 20 30 Miután elvégezte a szükséges számításokat (ahol standard: B0 ), írja be az alábbi elemző szövegbe a hiányzó számadatokat, illetve fogalmakat! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 152 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Standardizálás Vissza ◄ 153 ► szöveges elemzés a színnel nem jelzett keretekbe szöveget, a kék színűbe számokat, a zöld színűbe mértékegységeket kell írni. Két ország . (=
meghaltak / lakosság) hasonlítottuk össze korcsoportonként és együttesen; abszolút és relatív módon is. Az öszszehasonlítás során adatait tekintettük . A korcsoportonkénti halálozási ráták rendre .-ban ., ennek ellenére az együttes halálozási ráta .-ban a ,kerekítve , azaz . Ha két országban . lenne a lakosság és csak a korcsoportonkénti halálozási ráták térnének el, akkor természetesen ugyanarra az eredményre jutnánk, mint a korcsoportonkénti összehasonlításnál; vagyis .-ban az együttes halálozási ráta , azaz lenne. Az eltérő következtetés oka, hogy a lakosság korszerinti összetétele jelentősen . -ban a lakosság , mint -ban. A életkorban pedig természetesen . a (Azaz átlagolandó értékhez . = súlyok tartoznak és fordítva Ez pedig lefelé viszi a főátlagot /./ Ha tehát a lakosság . lenne azonos a két országban és csak a korszerinti összetétel térne el, akkor .ban az együttes halálozási ráta ,
azaz . lenne A standardizálással kapcsolatos számítások elvégzéshez szükségünk volt egy . kiszámítására Jelen esetben létszám adataival súlyoztuk halálozási ráta adatait. Az így kapott standard főátlag: Ennek jelentését kétféleképpen is megfogalmazhatjuk. 1000 lakosra . halálozás jutna , ha ott is az . halálozási ráták lennének érvényesek 1000 lakosra halálozás jutna ., ha ott is a . létszámarányok lennének érvényesek A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 153 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Ár-, érték-, volumenindex-számítás Vissza ◄ 154 ► 9. Ár-, érték-, volumenindex-számítás 9.1 Bevezetés Egy család fogyasztásának, egy vállalat vagy egy nemzetgazdasági ág termelésének, egy kereskedő forgalmának – és folytathatnánk a sort – összesítése a fogyasztási javak, az előállított ill. az értékesített termékek
sokszor igen különböző természetes mértékegységei157 miatt gyakorlatilag egyetlen módon lehetséges, ha ismerjük a megfigyelt javak, szolgáltatások stb. árait Ha ugyanis ezek mennyiségét (qi ) beszorozzuk egységárukkal ( pi ) már összesíthető adatokhoz – a fogyasztás, a termelés, az értékesítés – értékéhez (vi = qi ∗ pi ) jutunk. Ebben a fejezetben egy olyan statisztikai módszerrel ismerkedünk meg, melynek segítségével az árakat, a mennyiségeket és az értéket egyedileg és együttesen is elemezhetjük; változásukat, eltérésüket és összefüggéseiket különbségek (k , K ) ill. indexek (i, I ) formájában kimutatva 9.2 Egyedi elemzések Egy-egy termék árát (i p ) , önköltségét; eladott vagy megtermelt mennyiségét (i ) két időszak vagy két földrajzi terület adatai alapján is összehasonlíthatjuk. q A két változás (eltérés) együtt a vizsgált termékek értékének (iv ) , összköltségének változását
mutatja meg. Természetesen a statisztikai megfigyelés nem terjed ki mindenegyes hazánkban előállított vagy forgalmazott termékre. A teljes körű megfigyelés megoldhatatlan feladat (pénz, idő stb.) és tulajdonképpen felesleges is A tapasztalatok ugyanis azt mutatják, hogy egyes termékcsoportokra vonatkozóan mindig kiválasztható egy-egy un vezértermék, és elég ennek változásait megfigyelni. (A vezértermék „húzza maga után” a termékcsoport többi termékét) Ilyen vezértermék pl a tej-féleségek esetén a 2,8 %-os literes kiszerelésű zacskós tej, vagy a kenyérféleségek esetén az 1 kg-os félbarna kenyér. A vezértermékek közös jellemzője, hogy igen nagy mennyiségben 157 Gondoljuk meg, pl. az élelmiszerboltokban kilogrammban mérik a kenyeret, a húst, literben a tejet, tubusban árulják a fogkrémet, különböző méretű flakonokban az üdítőt, dobozokban a konzervet stb. A dokumentum használata | Tartalomjegyzék | Táblázatok
Vissza ◄ 154 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 155 ► állítják elő, és nagyon sokan vásárolják az alacsonyabb jövedelmű lakossági rétegek számára is elérhető áruk miatt. Az egyedi vizsgálatok során számíthatunk: • indexeket (= relatív változás, relatív eltérés158) és • különbségeket (= abszolút változás) az árakra, az értékekre és a volumenre (= mennyiségre) vonatkozóan is. A felsorolt indexek és különbségek képletei: ip = p i1 pi 0 árindex iq = qi1 qi 0 mennyiségi index iv = vi1 qi1 pi1 = vi 0 qi 0 pi 0 értékindex k p = pi1 − pio k q = qi1 − qi 0 az árak változása a mennyiségek változása k v = vi1 − vi 0 az érték változása A képletekben szereplő betűk jelentése: pi = az i-edik termék ára ip = egyedi árindex kp = az egyedi árak abszolút változása qi = vi = i= az i-edik termék
mennyisége az i-edik termék értéke a vizsgált termékek sorszáma iq = iv = 0= egyedi mennyiségi index egyedi értékindex a bázisul választott időszak jelölése kq = kv = 1= az egyedi mennyiségek abszolút változása egy-egy termék értékének abszolút változása a bázishoz hasonlítandó időszak adata Egyedi indexek esetén a számítás közvetlen eredménye mértékegység nélküli szám, ezt százalékszámmá alakítjuk, majd a 100 %-hoz hasonlítva 158 A továbbiakban mindig csak változásról fogunk beszélni (= időbeli összehasonlítás), ahogy a standardizálás témakörénél is tettük. A bemutató feladatok között azonban találnak területi összehasonlításra vonatkozót is. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 155 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 156 ► (= változatlanság) megkapjuk a
relatív változásokat kifejező adatokat. (A megfogalmazásokban rendszerint ez utóbbiak szerepelnek.) A három egyedi indexek között – ahogy azt a képletek felírásából is láthatjuk – összefüggés van, az értékváltozás két részre bontható, azaz nemcsak a megadott formában, hanem a két másik index szorzataként159 is felírható. iv = i p ∗ i q Az egyedi különbségek mindegyikének van mértékegysége, az árak és az értékek esetén ez valamilyen pénznem, a mennyiségek esetében pedig db, kg, l stb. lehet, a termék jellegétől függően Az eltérő mértékegységek azonban nem teszik lehetetlenné, hogy az értékek változását pénzben kifejezve is szétbontsuk összetevőire. A standardizálásnál megismert „állandó tényező” gondolatát kell itt is követnünk. Ha az árak okozta értékváltozást akarjuk felírni, akkor a mennyiségeket kell állandónak tekinteni, így: q1 p1 − q1 p0 vagy q0 p1 − q0 p0 . Ha pedig a
mennyiségek változásának az értékre gyakorolt hatását akarjuk kimutatni, akkor az egységárakat kell állandónak tekinteni, így: q1 p1 − q0 p1 vagy q1 p0 − q0 p0 . Ezekből a különbségekből azután „összerakható” a teljes értékváltozás, így: k v = (q1 p1 − q1 p0 ) + (q1 p0 − q0 p0 ) vagy k v = (q0 p1 − q0 p0 ) + (q1 p1 − q0 p1 ) Az értékváltozás az árváltozásból és a mennyiségváltozásból adódó része forintban kifejezve, ha az egyik ill. a másik számítást alkalmazzuk, eltérő adatokat eredményez, ezért mindig alaposan meg kell gondolni160, melyik képletet alkalmazzuk, ill. célszerű mindkét számítást elvégezni (Számottevő különbség a két számítás részeredményei között azonban csak akkor 159 160 Az indexek szorzása mindig együtthatós formájukkal történik. Az összevont indexeknél visszatérünk a problémára. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 156 ►
Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 157 ► van, ha olyan jelentős mértékű árváltozás történt, ami erősen befolyásolta a mennyiségek alakulását.) BEMUTATÓ FELADAT 9.11 tábla A magyar mezőgazdaság adatai161 (kiemelés) 2000 2003 felvásármegneve- termésmennyitermésmennyilási átzés ség ség lagár ezer tonna ezer tonna Ft / tonna búza 3.692 27.778 2.941 statisztikai q0 p0 q1 jelölés felvásárlási átlagár Ft / tonna 30.195 p1 9.12 tábla 1. munkatábla megnevezés a felvásárolt búza értéke milliárd Ft búza 2000 102,6 2003 88,8 a felvásárolt búza értéke, fiktív adatok milliárd Ft 1. 2. 111,5 81,7 statisztikai jelölés q0 p0 q1 p1 q0 p1 161 q1 p0 Magyar statisztikai évkönyv 2003 (KSH – Budapest, 2004. 339, 393 old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 157 ► Statisztika Ár-, érték-,
volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 158 ► 9.13 tábla 2. munkatábla indexek megnevezés búza statisztikai jelölés különbségek mennyiérték ár mennyiség érték ár ség milliárd % Ft ezer tonna Ft 88,8 = 30.195 30195 = 2941 = 2.941 – 88,8 102,6 27.778 3.692 3.692 = 102,6= 27.778 = =108,70 = 79,66 = 86,60 =2.417 =(-751) =(-13,8) ip iq iv kp kq kv 9.14 tábla 3. munkatábla értékváltozás (milliárd Ft) az árak válto- a mennyiség zása változása állandó következtében 111,5 - 102,6= 81,7 - 102,6= a 2000 évi adat =8,9 =(-20,9) statisztikai q0 p1 − q0 p0 q1 p0 − q0 p0 jelölés 88,8 - 81,7= 88,8 - 111,5= a 2003 évi adat =7,1 =(-22,7) statisztikai q1 p1 − q1 p0 q1 p1 − q0 p1 jelölés megnevezés A dokumentum használata | Tartalomjegyzék | Táblázatok az értékváltozás öszszetevőkből milliárd Ft 8,9 + (- 22,7) = (-13,8) 7,1 + (- 20,9) = (-13,8) Vissza ◄ 158 ►
Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 159 ► ♥ SZÖVEGES ELEMEZÉS A magyar búzatermelés 2000 és 2003 évi mennyiségi adatait (ezer tonna) és felvásárlási árait (Ft/tonna) hasonlítottuk össze. Megállapítottuk, hogy a felvásárlási ár 8,7 %-kal (i p ) emelkedett, a termelt mennyiség viszont ≅20 %kal (iq ) csökkent A két ellentétes hatás következtében a megtermelt búza értéke is – 1≅3,4 %-kal (iv ) –– csökkent. Végezetül elkülönítettük az értékváltozás összetevőinek hatását pénzmértékegységben is Ha csak az árak változtak volna, akkor az érték is növekedett volna 8,9 milliárd Ft-tal. Ha csak a mennyiség változott volna a ténylegesnél nagyobb 22,7 milliárd Ftos lett volna az értékcsökkenés. (És ez a csökkenés az erősebb hatás) 9.3 Összevont (együttes, átlagos) elemzések Tekintettel arra, hogy az egyes termékek,
szolgáltatások ára és mennyisége nem egyforma mértékben és nem azonos irányban változik, még akkor sem tudjuk biztosan megmondani, hogy például egy család helyzete javulte vagy éppen romlott, azaz jövedelméért a korábbinál nagyobb vagy kisebb mennyiségű terméket ill. szolgáltatást tudott-e megvásárolni, ha fogyasztói kosarának igen sok vagy majdnem minden összetevőjére meghatározzuk az egyedi indexeket Hasonló a helyzet, ha a vállalatok akarják megtudni, helyzetük hogyan alakult, akár mint vevőknek a beruházási javak vagy a munkaerő piacán, akár mint eladóknak értékesítési piacaikon. Ezért van szükség az összevont indexek és különbségek számítására is. Ezek a termékek egy-egy csoportját vagy akár teljes sokaságát együtt vizsgálják, és az átlagos ár-, mennyiség- és értékváltozást mutatják. Továbbá szükség van ezen együttes változások pénzben (abszolút változás) történő kifejezésére is. Az
együttes változások számítása legkönnyebb az értékváltozások kimutatása esetében. Az értékadatok ugyanis összesíthetőek, összegüknek van jelentése. Megmutatják egy család teljes fogyasztását, egy áruház teljes forgalmát stb. Ezek az összesített adatok pedig oszthatóak egymással ill kivonhatóak egymásból. Képletszerűen: Iv = ∑q p ∑q p 1 1 0 K v = ∑ q1 p1 − ∑ q0 p0 0 aggregát értékindex aggregát értékváltozás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 159 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 160 ► A különböző termékek árainak és mennyiségi adatainak összesítése azonban értelmetlen. Sőt – ahogy erről a bevezetőben már írtunk – a mennyiségek összesítése sokszor lehetetlen is Az árak összesítése pedig, ha azt feltételezzük, hogy van olyan vásárló, aki minden
megfigyelt áruból egyetegyet vesz, akkor sem lehetséges, hiszen az egy itt q-jelű, mennyiségi adat, amivel szorozni kellett az árat (természetesen ez a számadaton nem változtatott), így az eggyel szorzott áradatok összege, már értékadat. Az öszszesítési nehézséget úgy oldjuk meg, ahogy azt az egyedi értékváltozás összetevőkre bontásánál is tettük, értékeket összesítünk, majd ezeket osztjuk egymással, ill. vonjuk ki egymásból Ezek az értékadatok azonban mindig csak egyik tényezőjükben különböznek. Ennek az a következménye, hogy a kiszámított ár- és mennyiségi index mindig kétféle jelentést hordoz. Egyrészt átlagos átváltozást ill átlagos mennyiségváltozást fejeznek ki, másrészt az árváltozások ill. a mennyiségváltozások következtében kialakult értékváltozást, vagyis az értékváltozás összetevőit mutatják Képletszerűen: I p0 = ∑q p ∑q p 0 1 0 0 I 1p = ∑q p ∑q p 1 1 1 0 I q0 = ∑q p
∑q p 1 0 0 0 I q1 = ∑q p ∑q p 1 1 0 1 Laspeyres féle Paasche féle Laspeyres féle Paasche féle árindex árindex mennyiségi- mennyiségi index index Ha felsorolt indexek számlálójában szereplő adatból kivonjuk a nevezőjében szereplő adatokat, akkor jutunk a már említett abszolút változást kifejező különbségekhez. Ezek az indexek felsorolási rendjének megfelelően: • Az árváltozásokból bekövetkező értékváltozások: K p0 = ∑ q0 p1 − ∑ q0 p0 K 1p = ∑ q1 p1 − ∑ q1 p0 • A mennyiségváltozásokból bekövetkező értékváltozások: K q0 = ∑ q1 p0 − ∑ q0 p0 K q1 = ∑ q1 p1 − ∑ q0 p1 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 160 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 161 ► A gyakorlati tapasztalatok azt mutatták, hogy a különböző szemléletű (bázis- = Laspeyres, tárgyidőszaki
= Paasche) indexek esetenként nemcsak kisebb-nagyobb mértékben eltérőnek mutatták az árak vagy a mennyiségek változását, hanem még előjelükben sem egyeztek meg. Ezért célszerűnek látszott átlagformulákat kidolgozni Ezek közül a legismertebbek a Fisher-féle ár- és mennyiségi index, a Laspeyres- és a Paasche-féle indexek mértani átlaga. (Ezekhez azonban nem tudunk különbségeket rendelni) I pF = I p0 * I 1p I qF = I q0 * I q1 árindex mennyiségi index Az eddig felsorolt összevont (aggregát) képletekben szereplő betűk jelentése: (Azokat a betűjeleket, melyek már az egyedi index-képletekben előfordultak, nem ismételjük.) Ip = Iq = összevont árindex összevont mennyiségi index összevont értékindex Kp = Kq = az árváltozások miatt bekövetkezett értékváltozás pénzben kifejezett nagysága Iv = a mennyiségváltozások mi- K v = att bekövetkezett értékvál- az értékváltozás pénzben kifejezett nagysága tozás
pénzben kifejezett nagysága 0 = L = Laspeyres-féle = 1 = P = Paasche-féle = a a bázisszemléletű indexek tárgyidőszaki szemléletű jelölése indexek jelölése F = a Fisher-féle átlagformula jelölése Az eltérő szemléletű árindexekkel kapcsolatban igen sok vita volt és folyik napjainkban is. A bázisidőszaki súlyozás azt jelenti, hogy az árváltozás indukálta mennyiségváltozásokat a számítások során nem vesszük figyelembe. Ezzel szemben a tárgyidőszaki súlyozás alkalmazása során már, az esetleg nagyon nagy mértékű áremelés következtében erősen megváltozott fogyasztási szerkezettel dolgozunk. A lehetséges árindexek közül való választás tehát alkalmas egy jelentős áremelés „elfedésére” is A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 161 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 162 ► Az
elemzéshez felsorolt indexekkel kapcsolatban leírtuk, átlagjelentéssel bírnak. Ha számításuk további lehetséges képleteit felírjuk, és alaposan áttekintjük, ennek részletes magyarázatára már nincs is szükség. • értékindex: I v = ∑ q p *i ∑q p 0 0 0 = v 0 ∑q p qp ∑ i 1 1 1 1 v • árindexek: I p0 = ∑q p *i ∑q p 0 0 0 = p ∑q p qp ∑ i ill. I 1p = ∑q p qp ∑ i ill. I q1 = 0 1 0 1 0 ∑q p *i ∑q p 1 0 1 p = 0 p ∑q p qp ∑ i 1 1 1 1 p • mennyiségi indexek: I q0 = ∑q p *i ∑q p 0 0 0 = q 1 0 1 0 0 ∑ q p *i ∑q p 0 1 0 1 q q = ∑q p qp ∑ i 1 1 1 1 q Általános szabály, hogy ha az aggregát képlet nevezőjében szereplő értékadatot alkalmazzuk súlynak, akkor a számtani átlagformát; ha pedig a számlálójában szereplő értékadatot alkalmazzuk súlynak, akkor a harmonikus átlagformát kell használnunk. Ezekben a formákban az értékadatok helyett természetesen azok
megoszlása is szerepelhet.162 Például: Iv = ∑q p *i ∑q p 0 v 0 0 0 = ∑ g 0iv = ∑q p qp ∑ i 1 1 1 1 v ahol g 0 = = 1 , g1 ∑i v q0 p0 q p és g1 = 1 1 ∑ q0 p0 ∑ q1 p1 Végezetül az összefüggésekre kell figyelmünket fordítani! Ahogy az egyedi vizsgálatnál láttuk, az ár- és a mennyiségváltozás az értékváltozás 162 Lásd: a számtani átlaggal kapcsolatban tanultakat! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 162 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 163 ► két tényezője, így az értékindex az ár- és a mennyiségi index szorzataként előállítható, és az értékváltozás forintban kifejezett nagysága is felosztható a két tényező elkülönített hatására. Ez a lehetőség az aggregát indexek és különbségek esetében is fennáll, de a különböző szemléletmódok miatt nem minden
esetben, számszakilag pontos csak az un. keresztbesúlyozással lesz I v = I p0 * I q1 = I 1p I q0 = I pF I qF K v = K 1p + Kq0 = K p0 + Kq1 BEMUTATÓ FELADAT I. 9.21sz tábla A magyar mezőgazdaság adatai163: fontosabb zöldségfélék 2000 2003 termésmennyiség ezer tonna piaci átlagár Ft / kg termésmennyiség ezer tonna piaci átlagár Ft / kg fejeskáposzta 120 65,8 153 90,7 paradicsom 203 197,1 281 232,8 34 372,4 30 393,3 89 154,7 81 180,1 uborka 103 192,1 94 184,5 vöröshagyma 117 95,2 94 129,1 zöldbab 27 296,0 26 278,3 zöldpaprika 98 276,5 84 267,3 statisztikai jelölés q0 p0 q1 megnevezés petrezselyemgyökér sárgarépa 163 p1 Magyar statisztikai évkönyv 2003 (KSH – Budapest, 2004. 339, 393 old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 163 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza
164 ► 9.22sz tábla 1. munkatábla megnevezés a zöldségfélék piaci értéke (millió Ft) 2000 2003 a zöldségfélék piaci értéke, fiktív adatok (millió Ft) 1. 2. fejeskáposzta 7.896,0 paradicsom 40.011,3 petrezselyemgyökér 12.661,6 sárgarépa 13.768,3 uborka 19.786,3 vöröshagyma 11.138,4 zöldbab 7.992,0 zöldpaprika 27.097,0 együtt 140.350,9 13.877,1 65.416,8 11.799,0 14.588,1 17.343,0 12.135,4 7.235,8 22.453,2 164.848,4 10.884,0 47.258,4 13.372,2 16.028,9 19.003,5 15.104,7 7.514,1 26.195,4 155.361,2 10.067,4 55.385,1 11.172,0 12.530,7 18.057,4 8.948,8 7.696,0 23.226,0 147.083,4 statisztikai jelölés q1 p1 q0 p1 q1 p0 q0 p0 9.23 sz tábla 2. munkatábla indexek megnevezés ár mennyiség % fejeskáposzta 137,8 127,5 paradicsom 118,1 138,4 petrezselyemgyökér 105,6 88,2 sárgarépa 116,4 91,0 uborka 96,0 91,2 vöröshagyma 135,6 80,3 zöldbab 94,0 96,2 zöldpaprika 96,7 85,7 együtt – – statisztikai jelölés ip iq 175,7 163,5 93,2 105,9 87,7
109,0 90,5 82,9 117,5 különbségek ár mennyiség Ft / kg ezer tonna 24,9 33 35,7 78 20,9 -4 25,4 -8 -7,6 -9 33,9 -23 -17,7 -1 -9,2 -14 – – érték millió Ft +5.981,1 +25.405,5 -862,6 +819,8 -2.443,3 +997,0 -756,2 -4.643,8 +24.497,5 iv kp kv érték A dokumentum használata | Tartalomjegyzék | Táblázatok kq Vissza ◄ 164 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 165 ► 9.24 sz tábla értékkülönbségek (millió Ft) indexek (%) ár mennyiség érték I p0 = I q0 = 110,7 104,8 I 1p = I q1 = 112,1 106,1 I pF = 111,4 I v = 117,5 I p0 ∗ I q1 mennyiségárváltozás együtt változás miatt miatt K p0 = K q0 = Kv = +15.010,3 +6.732,5 +24.497,5 K 1p = K q1 = ≅ +17.765,0 1,107*1,061 +9.487,2 K p0 + K q1 = +15.010,3+9487,2 I 1p ∗ I q0 K 1p + K q0 1,121*1,048 = +17.765,0+6732,5 I qF = 105,4 ≅ I pF ∗ I qF ≅ 1,114*1,054 ♥ SZÖVEGES
ELEMEZÉS A Magyar statisztikai évkönyv (2003) adatai alapján a legfontosabb zöldségfélék piaci értékének változását vizsgáltuk. A zöldségfélék ára átlagban 10,7 %-kal (I p0 ), termelt mennyisége pedig 6,1 %-kal I q1 emelkedett. E két változás következtében a piaci érték 17,5 %-kal magasabb volt 2003ban, mint 2000-ben. Ha csak az árak változtak volna, akkor 15.010,3 millió Ft-tal, ha pedig csak a termelt mennyiségek változtak volna, akkor 9.487,2 a millió Ft-tal, és így együtt 24.497,5 millió Ft-tal emelkedett a kiemelt termékek együttes piaci értéke. A termékeket egyedileg vizsgálva megállapíthatjuk, hogy a legnagyobb árnövekedés a fejeskáposztát jellemzi (+37,8%), a legnagyobb árcsökkenés pedig a zöldbabot (-6%). A termelt mennyiségek általában csökkentek, kivéve a fejeskáposztát (+27,5%) és a paradicsomot (+38,4%). A mennyiségek átlagos növekedése annak köszönhető, hogy ezen, növekvő mennyi- ( ) A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 165 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 166 ► ségű termékek aránya a megfigyelt sokaságon belül elég jelentős. A vizsgált termékek közül négynek emelkedett a piaci értéke, legnagyobb mértékben – és ez az előzőek figyelembevételével nem meglepő – a fejeskáposzta esetén (+75,7%); négy termék esetében pedig csökkenést tapasztaltunk, s ez a zöldpaprikára vonatkozóan a legnagyobb, ≅17 %. Fontos megjegyeznünk, hogy mezőgazdasági termékekről lévén szó a termelt mennyiségeket nagymértékben befolyásolhatta az időjárás, és ez természetesen jelentős hatást gyakorolt a piaci árakra is. Az ár-, és a mennyiségi indexek jelentésének megfogalmazása így is helyes lenne, azaz a szöveges elemzés első bekezdésében ez is szerepelhetett volna: A zöldségfélék piaci ( ) 0
árának átlagos növekedése következtében 10,7 %-kal I p , termelt mennyiségének változása miatt ( ) 1 pedig 6,1 %-kal I q emelkedett piaci értékük. 9.4 Az ár-, érték-, volumenindexek felhasználási lehetőségei Az eddigiekben bemutatott indexeket nemcsak az árak, a mennyiségek és az értékek időbeli változásának elemzésére használhatjuk. A módszert felhasználhatjuk: 1. 2. 3. 4. 5. 6. 7. területi és nemzetközi elemzésekhez, a jövedelmek értékének vizsgálatára, indexsorok képzésére és az un. árollók számítására is, valamint a tőzsdei árfolyamok jellemzésére, továbbá piacelemzésre, az egyedi ár- és mennyiségi indexek közötti korrelációs kapcsolatot megfigyelve. 1. A területi összehasonlítás során két különböző földrajzi hely piacán vizsgálunk azonos termékeket A számítások megkezdése előtt mindig el kell döntenünk, hogy melyik terület adatát használjuk viszonyítási alapnak (= bázisnak), és
melyik területét viszonyítandó értéknek. Döntésünkhöz a számítások során végig ragaszkodnunk kell A szöveges elemzés készítése közben pedig vigyáznunk kell a helyes szóhasználatra, nem írhatunk növekedésről, csökkenésről, változásról. Egyik terület árai csak alacsonyabbak (kisebbek) vagy magasabbak (nagyobbak) lehetnek a másik területen jellemző áraknál, azaz eltérhetnek egymástól, ill lehetnek azonosak A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 166 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Ár-, érték-, volumenindex-számítás Vissza ◄ 167 ► 2. A területi összehasonlítás speciális esete a nemzetközi összehasonlítás, amikor is két országban figyeljük meg valamely termékek árait, termelt vagy fogyasztott mennyiségeit, majd elvégzzük a számításokat. Fontos, hogy az elemzés során nem váltjuk át egyik ország valutáját sem a másikéra.
Ennek következtében az értékindex értelmezhetetlenné válik, az árindex jelentése megváltozik, egyedül a mennyiségi index őrzi meg eredeti jelentését, és csak az ehhez tartozó különbség értelmezhető. A számítások során kötelező a Fisher-féle indexek használata, ugyanis az egyes országok esetleg igen eltérő árarányai ill. termelési, fogyasztási szerkezete miatt gyakran tapasztaljuk, hogy a különböző szemléletű indexek más előjelű eredményt mutatnak, ezért elengedhetetlen az átlagolás. Milyen új jelentést kap az árindex? Akármelyik szemléletű árindexet is számítjuk ki, mindegyik azt fogja megmutatni, hogy az egyik országban hányszor több (vagy kevesebb) saját valutát kell kiadni azonos mennyiségű terméktömeg megvásárlása esetén. Ebből következik, hogy az árindex ebben az esetben a valutákat (és nem az árakat) hasonlítja össze. Ha például a számlálóban szereplő értékadat a nagyobb, vagyis az osztás
eredménye egy egész fölötti, akkor annak az országnak a valutája a roszszabb, amelyiknek adatai éppen a számlálóban szerepeltek. (Gondoljunk egy egyszerű, és nagyon sokunk által személyesen is ismert tényre! Ausztriában egy kg banánt 1 euró körüli áron, itthon pedig 300 Ft körüli áron tudunk megvásárolni – 2006. március –, és mindannyian tudjuk azt is, hogy nem a forint az erősebb valuta) A vizsgálat további érdekessége – és tulajdonképpen ez adja az elemzés igazi értelmét – az, hogy a különböző termékcsoportok vizsgálata gyakran igen eltérő eredményre vezet. Tehát a forint / euró arány más lesz az élelmiszerek, más a szolgáltatások (fodrász, fogász, optikus stb) és megint más a vendéglátás stb. megfigyelése esetén Ennek oka, hogy az egyes termékek és szolgáltatások árainak arányai és a termelt vagy fogyasztott mennyiségek arányai sem azonosak az egyes országokban. (Ezek a vizsgálatok egyébként
magyarázatot adhatnak az un. bevásároló turizmusra is) Néhány gyakran vásárolt élelmiszerre vonatkozóan gyűjtöttünk adatokat. Az egységárakat a Billa-lánc (Ausztria) ill a TESCO-lánc (Magyarország) húsvéti katalógusából vettük, a mennyiségeket pedig egyéni kikérdezés (két négytagú család) alapján jegyeztük föl A megfigyelt adatokat a 9.31 sz tábla, a mutatók értékének meghatározásához szükséges számításokat pedig a 932 sz tábla tartalmazza (Az indexekben a 932 sz tábla összesen adatai szerepelnek.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 167 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 168 ► BEMUTATÓ FELADAT 9.31 sz tábla megnevemértékzés egység egységár mennyiség / hó alma kg Ausztria Magyarország Ausztria Magyarország euró/kg Ft / kg 2,25 296 30 20 banán kg 1,69 349 30 10
ementáli sajt kg 11,9 1.850 2 1 húsvéti sonka kg 3,99 1.450 2 2 Zippfer sör 0,5 liter 0,67 280 60 30 ásványvíz liter 0,29 119 120 30 Fanta üdítő liter 0,66 260 30 12 statisztikai jelölés p1 p0 q1 q0 9.32 sz tábla megnevezés q0p0 q1p1 q0p1 alma 5.920 67,5 45 banán 3.490 50,7 16,9 10.470 ementáli sajt 1.850 23,8 11,9 3.700 húsvéti sonka Zippfer sör 2.900 8.400 7,98 40,2 7,98 20,1 2.900 16.800 ásványvíz 3.570 34,8 8,7 14.280 Fanta üdítő 3.120 19,8 7,92 7.800 együtt 29.250 244,78 118,5 A dokumentum használata | Tartalomjegyzék | Táblázatok q1p0 8.880 64.830 Vissza ◄ 168 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 169 ► 9.33 sz tábla indexek Laspeyres Paasche Fisher ár 0,00405 0,003776 0,003911 mennyiség 2,21641 2,065654 2,139705 ♥ A két család közül a vizsgált
élelmiszerekből az Ausztriában élő család átlagosan ≅ 114 %-kal többet vásárolt, és azonos mennyiségű termékért saját valutájából kevesebbet kellett kiadnia (I pF 〈1) . A vizsgált termé- kek körében 1Ft = 0,003911Euró , ill. 1Euró = 255,689 Ft Ez azt jelenti, hogy az osztrák családnak akkor érdemes hazánkban beszereznie a vizsgált termékeket (eltekintve most az utazás költségeitől), ha 1Euróért legalább egy bank többet ad ≅ 256 Ft-nál. Ebben az esetben a többlet pénzt a 9.31 sz táblában szereplő termékekből még nagyobb mennyiségek megvásárlására fordíthatja, vagy más termékeket is megvehet. 3. Mindennapi tapasztalataink mutatják, hogy egyes esetekben hiába emelkedik keresetünk, családunk összes jövedelme (= nominálértéke), nem tudunk több terméket fogyasztani, több szolgáltatást igénybe venni, sőt esetenként vissza kell fogni fogyasztásunkat (= reálérték). Az értékindex alkalmas arra, hogy kimutassuk
a jövedelmek nominálértékének változását, a mennyiségi index pedig a reálérték változását mutatja meg A két index közötti kapcsolatot az árszínvonal változása (= átlagos árváltozás) teremti meg. A KSH 2002-es és 2003-as bruttó ill. nettó átlagkereseti adatai alapján vizsgáltuk a nomináljövedelmek (értékindex) és a reáljövedelmek (mennyiségi index) alakulását külön a férfiakra és a nőkre, ill. a szellemi és fizikai foglalkozásúakra. Számításainkhoz a hivatalos fogyasztói árindexet (104,7 % = I p ) használtuk164. 164 adatforrás: Magyar statisztikai évkönyv 2003 (KSH – 2004, 99., 101 és 348 old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 169 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 170 ► BEMUTATÓ FELADAT 9.41 sz tábla nettó bruttó átlagkeátlagkereset megne- reset Ft / fő / hó Ft / fő /
hó vezés 2002 férfiak 2003 2002 2003 a nettó átlaga bruttó átlagkereset kereset változása változása 2003 / 2002 (%) I v 147.345/131243=1,124 +13,1 +12,4 111.725 128931 72036 84199 +15,4 +16,9 131.143 147345 82745 93604 nők fizikai alkalma- 84.751 91397 58472 66716 +7,8 zottak szellemi alkalma- 169.826 193275 101615 115739 +13,8 zottak +14,1 +13,9 9.42 sz tábla megnevezés a fogyasztói árindexszel korrigált átlagkereset változások bruttó nettó 2003 / 2002 (%) I q 1,124/1,047= 1,0735 +7,4 nők +10,2 fizikai alkalmazottak +3,0 szellemi alkalmazottak +8,7 férfiak +8,0 +11,7 +9,0 +8,8 ♥ A 9.4 sz táblák adatiból kiolvashatjuk, hogy 2002-ről 2003-ra a mind a bruttó, mind a nettó átlagkereset a nők esetében emelkedett legnagyobb mértékben (+15,4 ill. +16,9%), így természetesen a reáljövedelem is a foglalkoztatottak ezen csoportjában nőtt a leginkább (+10,2 ill +11,7 %) A A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza
◄ 170 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 171 ► felsorakoztatott indexek körül a lakosság helyzetének javulását legpontosabban a fogyasztói árindexszel korrigált nettó jövedelem-változás adatai fejezik ki. 4. Abban az esetben, ha a vizsgált termékek körére nemcsak két év adatai állnak rendelkezésünkre, lehetőségünk van indexsorokat összeállítani. Az indexsorok165 egyes elemei lehetnek bázisviszonyszámok166 és láncviszonyszámok167. Vonatkozhatnak mind az árakra, mind a mennyiségekre és az értékekre is Képezhetünk indexsorokat állandó- és változó súlyozással; ill. Laspeyres vagy Paasche szemléletben is Az eddigiekben felsorolt indexsorok mindegyikének vannak előnyei és hátrányai. Például az igen hosszú indexsorok esetén az állandó súlyozás a valóságtól való nagymértékű elszakadást eredményezheti. (Ilyen esetekben
megoldás lehet a szakaszosan változó – pl.: 5 évente – súlyozás alkalmazása) A változó súlyozás viszont a számszaki összefüggéseket nem biztosítja, azaz két indexsor tagjainak ismeretében nem tudjuk pontosan meghatározni a harmadik indexsor egyes elemeit. (Egyébként, ha nincs más lehetőségünk, akkor a számítások során csak a logikai összefüggésre alapozunk.) • a bázis érték-indexsor (%): 100,0 ; ∑q ∑q i1 pi1 i 0 pi 0 ; ∑q ∑q pi 2 i2 i 0 pi 0 ;∑ qi 3 p i 3 ∑q i 0 pi 0 ; stb. • lánc érték-indexsor (%): ∑q ∑q i2 pi 2 i1 pi1 ; ∑q ∑q i3 pi 3 i 2 pi 2 ; stb. • bázis ár-indexsor változó súlyokkal, Paasche-szemléletben (%): 100,0; ∑q ∑q i1 pi1 i1 p i 0 ; ∑q ∑q i2 pi 2 i 2 pi 0 ; ∑q ∑q i3 pi 3 i 3 pi 0 ; stb. 5. A gazdaságstatisztikai elemzésekben gyakori, hogy két egymással valamilyen kapcsolatban álló termékcsoport indexeit hasonlítják össze, és az
összehasonlítás eredményét ugyancsak hányados (%-os) formában adják meg. Az ilyen jellegű összehasonlítás az árindexekre vonatkozóan a leg165 Az indexsorok részletesebb tárgyalása nem képezi tananyagunk részét. Mindig a legelső év adatai képezik a viszonyítási alapot. 167 Mindig az előző év adatai képezik az összehasonlítás alapját. 166 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 171 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 172 ► gyakoribb. Az eredményül kapott adatot pedig árollónak nevezik A két legismertebb árolló a cserearányindex és az agrárolló. Az agrárolló a mezőgazdasági termeléshez felhasznált különböző termékekre és szolgáltatásokra vonatkozó árindex és a mezőgazdaság által előállított, értékesített termékek árindexének hányadosa. (A két termékhalmaz közti kapcsolat
mibenléte különösebb magyarázatra sem szorul A mezőgazdasági termékek értékesítése feltétele annak, hogy a termelők beszerezhessék azokat az ipari termékeket – gépeket, növényvédő-szereket stb. –, melyek nélkül nem tudják folytatni tevékenységüket) A cserearányindex, a kivitel (export) és a behozatal (import) közötti hasonló kapcsolatra alapozva, hasonlítja össze az export- és az importárindexeket. Az árolló azt mutatja meg, hogy valamely bevételt biztosító termékek bázisidőszakival azonos, illetve egységnyi volumenéért mennyivel nagyobb vagy kisebb volumenű másféle termék kapható cserébe a tárgyidőszakban. árolló = I bp I pk I bp = a bevételt biztosító termék árindexe (kivitel) I pk = a vásárolni kívánt termék árindexe (behozatal) Például, hazánkban 1993-ban az importált termékek ára 9,4 %-kal volt magasabb, mint az előző évben, az exportált cikkek ára pedig 11,9 %-kal. Ugyanezek az adatok 1999/2000
viszonylatában +12,9 % ill. +9,9 %, végül a 2003-as és a 2002-es adatokat összehasonlítva: +0,1 ill -0,4 % ♥ Így 1993-ban a cserearány javulását mutatott az előző évhez képest (1,119 / 1,094 = 102,3 %). Ez azt jelenti, hogyha az egész exportból származó bevételt importra fordítottuk volna, akkor az import mennyiségét 2,3 %-kal emelhettük volna. 2000-re vonatkozóan viszont a cserearány romlását figyelhettük meg (1,099 / 1,129 = 97,3 %), vagyis ha az egész exportból származó bevételt importra fordítottuk volna, akkor is csak kisebb (2,7 %kal) mennyiségű árut importálhattunk volna. Az utolsó megfigyelés szintén cserearány-romlást jelez (0,996 / 1,001 = 0,995 -0,5 %). A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 172 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 173 ► 6. A tőzsdeindex elnevezést kétféle értelemben is
használják, egyrészt a részvények átlagos árszintjének, másrészt a részvények átlagos árfolyamának megjelölésére is. A legnevezetesebb tőzsdeindex az 1884 óta számított Dow-Jones ipari index (USA) Értékét 30 különböző iparágban működő, vezető iparvállalat részvényeinek árfolyamát átlagolva határozzák meg, folyamatosan követve a napi árfolyammozgásokat. (1991-től a Budapesti Értéktőzsde indexe – BUX168 – is meghatározásra kerül Értéke: 1992-ben = 988,4; 2003-ban = 9.914,1 Bázis = 1991 jan 2) 7. Az egyedi ár- és mennyiségi indexeket a koordináta rendszerben ábrázolva (a vízszintes tengelyen az árindexek, a függőleges tengelyen pedig a mennyiségi indexek értékeit felvéve) általában (ha nem un. sznobtermékekről stb van szó) a megfigyelt (számított) adatok pontjai közé egy negatív lejtésű egyenes (görbe) illeszthető. Ennek alapján azt feltételezhetjük, hogy a két index között negatív korrelációs
kapcsolat van Ilyen ábra elkészítése a bemutató példáinkban szereplő igen kevés adat miatt nem lehetséges, de gondoljunk elméleti közgazdaságtani tanulmányainkra, a keresleti görbe ereszkedő jellegére. 9.5 Kiegészítés A standardizálás tárgyalása során megemlítettük, hogy egyes esetekben – homogén árucsoportok – a megfigyelt adatok mind a standardizálás módszerével, mind az ár-, érték-, volumenindexekkel elemezhetők. Az alábbiakban egy bemutató példával szemléltetjük az ilyen eseteket. Megfigyeléseink két magyarországi üdülőkörzetre vonatkoznak, és az egy éjszakára jutó szállásdíj elemzését végezzük el. Legfontosabb megfigyelésünket előre bocsátjuk: I ′ = I p0 , ha standard: B0 és I ′ = I 1p , ha standard: B1 Az elemzés lényeges különbsége, hogy a standardizálás során az átlagár változását, az ár-, érték-, volumenindex-kör mutatóinak kiszámításával pedig az átlagos árváltozást lehet
vizsgálni. 168 Az indexkosárban szereplő részvénytársaságok piaci értékének (= piaci ár szorozva a törzsrészvények mennyiségével) változását tükrözi. Az index ezen értékpapírcsomag bázisidőponthoz viszonyított értékváltozását mutatja. (Magyar statisztikai évkönyv 2003, KSH-2004 349. old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 173 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 174 ► 9.51 sz tábla Az egy vendégéjszakára jutó szállásdíjak, és a vendégéjszakák két kiemelt üdülőkörzet adatai, 2003169 szállásdíj (Ft) / éjszaka vendégéjszaka (ezer db) SopronSopronmegnevezés BalatonBalatonKőszeg hegyKőszeg hegypart part alja alja szálloda 5.048 4.124 642 2.608 panzió 3.303 3.185 119 240 turistaszállás 1.284 1.254 44 86 ifjúsági szálló 1.273 1.403 8 265 üdülőház 988 3.136 89 299 kemping 1.599
1.531 218 893 p0 p1 q0 q1 statisztikai jelölés v0 v1 B0 B1 9.52 sz tábla 1. munkatábla: részszámítások170 A1= A0= B0*v1 stat.jel B0*v0 B1v1 megnev. q0*p0 q1p1 q0*p1 B1*v0 q1*p0 i= v1/v0 ip = p1/p0 i= B1/B0 iq= q1/q0 i= A1/A0 iv=v1/v0= iq*ip szálloda panzió az adatok ezer Ft-ban 3.240,8 10755,3 2647,6 13165,2 0,8170 4,0623 393,1 764,4 379,0 792,7 0,9643 2,0168 3,3187 1,9448 turistaszállás 56,5 107,8 55,2 110,4 0,9766 1,9545 1,9089 ifjúsági szálló 10,2 371,8 11,2 337,3 1,1021 33,1250 36,5078 üdülőház kemping 87,9 348,6 937,7 1.367,2 279,1 333,8 295,4 1.427,9 3,1741 3,3596 0,9574 4,0963 összesen 4.137,1 14304,2 3705,9 16128,9 – 169 170 – 10,6635 3,9221 – Adatforrás: Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004; 479. old) Lásd: a 7.3 táblához írt lábjegyzetet A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 174 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 175 ► 9.53 sz tábla 2. munkatábla: az indexek és a különbségek számítása főátlagok (= összetett intenzitási ár-, érték-, volumenindexek viszonyszámok) standardizálás stat. stat. eredmények számítás eredmények számítás jelölés jelölés 14.304278 / 14.304278 / Iv 3.257,636 3,4576 V1 4.391 4.137067 14.304278 – 4.137067 / Kv 10.167211 3.693,81 V0 4.137067 1.120 3.705885 / I p0 Vst:B0 3308,826 0,8958 3705885 / 1120 4.137067 K p0 -431.182 I 1p 0,8869 K 1p -1.824714 I q0 3,8987 K q0 11.991925 I q1 3,8599 K q1 10.598393 3,4576 összefüggés 3,4576 10.167211 10.167211 3.705885 – 4.137068 14.304278 / 16.128992 14.304278 – 16.128993 16.128992 / 4.137067 16.128992 – 4.137068 14.304278 / 3.705885 14.304278 – 3.705886 0,895776 * 3,859882 0,886867 * 3,898654 -431.182 + 10.598393 -1.824714 + 11.991925 Vst:B1 3.673,193 I 0,881918 K -436,174 I st′ :B0 0,895776 K st′ :B0
-384,984 I st′ :B1 0,886867 K st′ :B1 -415,558 I st′′:v0 0,994419 K st′′:v0 -20,6165 I st′′:v1 0,984529 K st′′:v1 -51,1903 A dokumentum használata | Tartalomjegyzék | Táblázatok 16.128992 / 4.391 3257,636 / 3693,81 3.257,636 – 3.693,82 3.308,826 / 3.693,81 3.308,826 – 3.693,82 3.257,636 / 3.673,193 3.257,636 – 3.673,194 3.673,193 / 3.693,81 3.673,193 – 3.693,82 3.257,636 / 3.308,826 3.257,636 – 3.308,827 Vissza ◄ 175 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 176 ► 2. munkatábla: az indexek és a különbségek számítása (folytatás) főátlagok (= összetett intenzitási ár-, érték-, volumenindexek viszonyszámok) standardizálás stat. stat. eredmények számítás eredmények számítás jelölés jelölés 0,895776 * 0,881918 0,984529 0,886867 * 0,881918 0,994419 összefüggés (-384,174) + -436,174 (-51,1903) (-415,558) +
-436,174 (-20,665) 9.54 sz tábla Üdülőkörzet Sopron-Kőszeg hegyalja Balaton-part ⎛ Bi szálláshely típus megoszlás ⎜ ⎜ B ↓ i ⎝ ∑ ⎞ ⎟% ⎟ ⎠ szálloda 57,32 59,39 panzió 10,63 5,47 turistaszállás 3,93 1,96 ifjúsági szálló 0,71 6,04 üdülőház 7,95 6,81 kemping 19,46 20,34 összesen 100 100 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 176 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Ár-, érték-, volumenindex-számítás Vissza ◄ 177 ► ♥ SZÖVEGES ELEMZÉS A Sopron-Kőszeg hegyalja és a Balaton-part üdülőkörzetekre vonatkozó adatok – eltöltött vendégéjszakák (ezer db) és az egy éjszakára jutó szállásdíj (Ft), 2003-ban – összehasonlítását végeztük el kétféle módszerrel. 1. Kimutattuk az egy vendégéjszakára jutó szállásdíj eltérését és az eltérést okozó tényezők hatását (= standardizálás) 2. Elemeztük
a szálláshelyek bevételeinek változását kimutatva az átlagos ár- és mennyiségváltozásokat is. (ár-, érték-, volumenindex-kör) Az összehasonlítás során viszonyítási alapnak a Sopron-Kőszeg hegyalja üdülőkörzetet tekintettük. A számításokat pedig mindkét súlyozási rendszerrel (Laspeyres, Paasche ill. standard: B0 és standard: B1) elvégeztük, a szöveges elemzésben azonban csak az egyik rendszer ( I v = I p0 ∗ I q0 és az ezzel ekvivalens standardizálás: I st′ :B0 ) számadatai szerepelnek (A kétféle súlyozással számított eredmények egyébként az eltéréseket minden esetben azonos előjelűnek mutatják) Az azonos számértékű indexeket vastagabb számokkal írtuk, és szürke háttérrel, valamint erősebb kerettel is kiemeltük. (953 sz tábla) A Balaton-part üdülőkörzetben a szállásdíjakból származó bevételek a vizsgált évben 246 %-kal, azaz 10.167211 ezer Ft-tal magasabbak voltak, mint a Sopron-Kőszeg hegyalja
üdülőkörzetben. Az eltérésnek két ellentétes előjelű összetevője van A Balaton-parton az árak (= szállásdíjak / éjszaka) átlagosan 10,4 %-kal alacsonyabbak, viszont az eltöltött vendégéjszakák száma átlagosan 289,9 %-kal több Az árak eltérése a Balatonpart bevételi előnyét 431182 ezer Ft-tal csökkentette A vendégéjszakák eltérő nagyságára figyelve (azonos árakat feltételezve) viszont még nagyobb tóparti többletet figyelhetünk meg (+ 10.598393 ezer Ft) A Balaton-part üdülőkörzetben egy vendégéjszakára átlagosan ≅ 3.258 Ft jutott 2003-ban, a Sopron-Kőszeg hegyalja üdülőkörzetben pedig ≅ 3.694 Ft, azaz a tóparton ≅ 12 %-kal, ≅ 436 Ft-tal kevesebbet kellett fizetni a felsorolt szálláshelyeken egy éjszakáért. Az eltérésnek két azonos előjelű oka van. Egyrészt majdnem minden szálláshely típus esetén a Balaton-part üdülőkörzetben kisebbek az egy vendégéjszakára jutó bevételek (= részintenzitási
viszonyszámok), így átlagosan is alacsonyabbak 10,4 %-kal, azaz ≅ 385 Ft-tal. Másrészt eltérő volt a két üdülőkörzetben a vendégéjszakák szálláshely típusonként való megoszlása, (9.54sz tábla) bár ez csak igen csekély mértékű ≅ 1,5 %-os, azaz mindössze ≅ 51 Ft-os különbséget jelez a főátlagokra vonatkozóan. (Ennyivel alacsonyabbak azonos egy éjszakára jutó betételeket feltételezve a Balaton-part üdülőkörzet szállásdíjai.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 177 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Ár-, érték-, volumenindex-számítás Vissza ◄ 178 ► 9.6 Gyakorló feladatok 1. feladat a vizsgált kereskedelmi vállalko- változások a bázis évzás bevételei (millió Ft) hez viszonyítva (%) mennyimegnevezés a bázis évben érték ár ség a tárgybázis tárgyidőszaki évben áron áron 111. bolt 200 +15 -2 112. bolt 400 450 +20 „A”
város 211. bolt 150 300 +25 212. bolt 500 -5 „B” báros 500 +20 vállalkozás 1. Számítsa ki a hiányzó adatokat! 2. A vállalkozás egészére vonatkozóan írjon szöveges elemzést! A szöveges elemzésben szerepeljenek az abszolút változások is! 2. feladat Egy mezőgazdasági őstermelő öt különféle zöldséget vitt ki szombaton és vasárnap is a piacra. A szombati bevétele 15000 Ft-tal, azaz 30 %-kal volt nagyobb, mint a vasárnapi. Vasárnap a zöldségeket átlagosan 25 %-kal drágábban árulta (bázis szemléletű index). 1. Számítsa ki az őstermelő szombati ill vasárnapi bevételét, valamint a bevétel változásának tényezőit abszolút és relatív módon is! 2. Írjon szöveges elemzést! Az összehasonlítás alapja: szombat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 178 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 179 ►
3. feladat 2005. április171 egy győri kiskereskedő adatai egy budapesti kiskereskedő adatai eladott mennyiség egységár eladott mennyiség egységár kg Ft / kg kg Ft / kg idared 250 250 800 230 jonagold 200 220 400 200 starking 120 190 100 190 jonatán 200 150 150 140 zöld 100 310 200 280 összesen 870 – 1650 – alma féleségek 1. Hasonlítsa össze az alma átlagárát (viszonyítási alap = budapesti kiskereskedő) ill. mutassa ki az átlagos árváltozást! 2. Írjon szöveges elemzést! 4. feladat Egy áruház-lánc árbevétele egyik évről a másikra 30 %-kal, azaz 3 milliárd Ft-tal emelkedett, az árak pedig átlagosan 20 %kal nőttek. 1. Számítsa ki a tanult indexeket és különbségeket mindkét súlyozási módszerrel. 2. Írjon szöveges elemzést! 171 Adatforrás: saját gyűjtés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 179 ► Statisztika Ár-, érték-,
volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 180 ► 9.7 összefoglalás érték mennyiség ár indexek, indexösszefüggések p i p = i1 egyedi pi 0 együttes = átlagos I p0 = ∑q ∑q egyedi iq = qi 1 qi 0 együttes = átlagos I q0 = ∑q ∑q egyedi iv = vi1 = iv = i p * iq vi 0 együttes = átlagos Iv = ∑q ∑q i0 pi1 i 0 pi 0 i1 pi 0 i 0 pi 0 i1 p i1 i0 pi 0 I 1p = ∑q ∑q I q1 = ∑q ∑q i1 p i1 I pF = I 0p I 1p i1 p i 0 i1 p i1 I qF = I q0 I q1 i 0 p i1 = I v = I 0p * I q1 = I 1p I q0 = I pF I qF különbségek, különbség összefüggések k p = pi1 − pi 0 ár mennyiségi k q = qi1 − qi 0 egyedi k v = vi1 − vi 0 = (qi1 pi1 − qi1 pi 0 ) + (qi1 pi 0 − qi 0 pi 0 ) = (qi 0 pi1 − qi 0 pi 0 ) + (qi1 pi1 − qi 0 pi1 ) érték érték K v = ∑ qi1 pi1 − ∑ qi 0 p i 0 = K p0 + K q1 = K 1p + K q0 együttes átlagformák ár I 1p = ∑ q p *i ∑q p 1 0
1 0 p = ∑q p qp ∑ i 1 1 1 1 vagy I p0 = ∑ q p *i ∑q p p A dokumentum használata | Tartalomjegyzék | Táblázatok 0 0 0 0 p = ∑q p qp ∑ i 0 1 0 1 p Vissza ◄ 180 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok átlagformák mennyiségi I q0 = ∑ q p *i = ∑ q p ∑q p ∑ q p i 0 0 0 q 1 0 vagy I q1 = 1 0 0 ∑ q p *i ∑q p 0 1 q 0 1 q érték Iv = ∑ q p *i ∑q p 0 0 0 v 0 = ◄ Vissza = 181 ► ∑q p qp ∑ i 1 1 1 1 q ∑q p qp ∑ i 1 1 1 1 v együttes = átlagos egyedi az indexek jelentései (általánosságban) Megmutatja, hogy valamely termék (szolgáltatás) ár ára hányszorosára (hány százalékkal) változott. Megmutatja, hogy valamely termék (szolgáltamennyiségi tás) mennyisége hányszorosára (hány százalékkal) változott. Megmutatja, hogy valamely termék (szolgáltaérték tás stb.) értéke hányszorosára
(hány százalékkal) változott Megmutatja, hogy a vizsgált termékek (szolgáltatások) ára átlagosan hányszorosára (hány százalékkal) változott. ár vagy A mennyiségeket állandónak tekintjük. Megmutatja, hogy a vizsgált termékek értéke az árak változása következtében hányszorosára (hány százalékkal) változott. Megmutatja, hogy a vizsgált termékek (szolgáltatások) mennyisége (= volumene) átlagosan hányszorosára (hány százalékkal) változott. mennyiségi Az árakat állandónak vagy tekintjük. Megmutatja, hogy a vizsgált termékek értéke a mennyiségek változása következtében hányszorosára (hány százalékkal) változott. Megmutatja, hogy a vizsgált termékek (szolgálérték tatások stb.) értéke hányszorosára (hány százalékkal) változott A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 181 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék |
Táblázatok érték Vissza ◄ 182 ► vagy Megmutatja, hogy a vizsgált termékek (szolgáltatások stb.) értéke átlagosan hányszorosára (hány százalékkal) változott. együttes = átlagos egyedi a különbségek jelentései (általánosságban) Megmutatja, hány forinttal változott valamely terár mék ára. Megmutatja, hány kilogrammal (darabbal stb.) válmennyiségi tozott valamely termék eladott (gyártott stb.) menynyisége Megmutatja, hány forinttal változott valamely termék érték eladott (gyártott stb.) mennyiségének értéke ár Megmutatja, hány forinttal változott a vizsgált termékek (szolgáltatások stb.) forgalma (termelési értéke A mennyiségestb.) annak következtében, hogy a bázis- és a tárgyket állandónak időszakban nem ugyanazon árak voltak érvényesek. tekintjük. Megmutatja, hány forinttal változott a vizsgált termennyiségi mékek (szolgáltatások stb.) forgalma (termelési érAz árakat állan- téke stb) annak
következtében, hogy a bázis- és a dónak tekintjük. tárgyidőszakban nem ugyanazokat a mennyiségeket értékesítették (gyártották stb.) Megmutatja, hány forinttal változott a vizsgált terérték mékek (szolgáltatások stb.) forgalma (termelési értéke stb) a módszer felhasználható 9.4 fejezet A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 182 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 183 ► 9.8 Mintafeladatok korábbi vizsgadolgozatokból 1. minta Egy sportcikkeket árusító bolt forgalmát figyeltük meg két egymást követő évben. A vizsgálatba bevont kiemelt áruféleségek, ill a már megkezdett számítások adatait tartalmazza az alábbi tábla. a vizsgálatba bevont termékek sportruha sportcipő egyéb termékek statisztikai jelölés forgalom a bázis évben millió Ft 20 15 30 árváltozás forgalomváltozás % +15 +10 +20
+20 +10 +65 1. Az alábbi 1 sz segédtáblából válassza ki azokat a betű-jeleket, melyek a fenti táblában szereplő adatokat jelölik, majd sorszámukat írja be a fenti tábla utolsó sorába. Írja be a fenti tábla utolsó sorába a kiválasztott betűjelek sorszámát! 1. segédtábla (statisztikai betűjelek) 1. 2. 3. 4. 5. 6. p0 p1 q0 q1 v0 v1 7. 8. 9. 10. 11. 12. ip iq iv kp kq kv 13. 14. 15. 16. 17. 18. Iv Kv 23. 24. 1 p K 1p 29. 30. ∑q 19. 0 p0 ∑q p ∑q 20. 21. 1 1 0 p Iv Kv I 25. 26. 27. I 0 q K 0 q I 1 q 0 p1 ∑q p 1 0 22. K 0 p 28. K 1 q A dokumentum használata | Tartalomjegyzék | Táblázatok I I F p I qF Vissza ◄ 183 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok 31. 32. 33. 34. Vissza 35. ◄ 184 ► 36. i q * 100 − 100 i p 100 − 100 iv 100 − 100 I 100 − 100 I v 100 − 100 I p0 100
− 100 1 p 37. 38. 39. 40. 41. 42. I * 100 − 100 I * 100 − 100 I * 100 − 100 I * 100 − 100 q 0 p1 q1 p 0 0 q 1 q F p F q 2. Számítsa ki azokat az adatokat, melyeket az alábbi eredménytábla oldalrovatában szövegesen megfogalmaztunk! Majd válassza ki az 1sz segédtáblából ezek statisztikai betűjeleit, és azok sorszámait szintén írja be az eredménytáblába! 1. eredménytábla : egyedi számítások statisztikai sporta kiszámítandó adat megnevezése ruha jelölés forgalom tárgyidőszak (millió Ft) mennyiségi változás (egyedi) % forgalom millió Ft , azt feltételezve, hogy csak az értékesítési árak változtak forgalom millió Ft , azt feltételezve, hogy csak az értékesítés menynyisége változott forgalomváltozás (egyedi) millió Ft sportcipő egyéb termékek 3. Számítsa ki a 2 sz eredménytáblában szövegesen megadott indexeket és különbségeket! A számítások eredményeit írja be az üres rovatokba! 2.
eredmény-tábla: együttes számítások számadat megfogalmazás átlagos árváltozás Laspeyres-szemléletben (Előjel is kell!) átlagos mennyiségváltozás (%) Paasche-szemléletben (Előjel is kell!) forgalomváltozás (%) az árak miatt Paasche-szemléletben (Előjel is kell!) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 184 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 185 ► forgalomváltozás (%)a mennyiségek változása miatt Laspeyresszemléletben (Előjel is kell!) a különböző szemléletű árváltozások átlaga (%)(Előjel is kell!) a különböző szemléletű mennyiségváltozások átlaga (%) a forgalom értékének abszolút változása (egész boltra) (Előjel is kell!) a forgalom értékének abszolút változása az árak változása következtében Paasche-szemléletben (Előjel is kell!) a forgalom értékének abszolút változása a
mennyiségek változása következtében Paasche-szemléletben (Előjel is kell!) 4. Döntse el, igazak-e az alábbi kijelentések! A 3 sz eredménytábla utolsó, üres oszlopába írjon „I” (= igaz) vagy „H” (= hamis) betűt! 3. eredménytábla: igaz – hamis kijelentések I/H A vizsgált bolt forgalmának növekedése elsősorban az árak nagymértékű növekedésének köszönhető. A bolt forgalma 138 %-kal növekedett annak köszönhetően, hogy a második évben magasabb áron adták el a termékeket. A bolt forgalma 10500000 Ft-tal növekedett annak köszönhetően, hogy a termékeket a második évben magasabb áron tudta értékesíteni. (súly: tárgyidőszaki) A sportcipők kivételével a bolt termékei iránti kereslet az áremelkedések ellenére nem csökkent. A bolt által értékesített termékek az áremelkedésre úgy reagáltak, ahogy ez általánosságban történik, visszaesett az eladás mennyisége. A bázis- és a tárgyidőszaki súlyozású
indexek nem azonos irányúnak mutatják az átlagos ár- és az átlagos mennyiségváltozást. A 6.4 eredmény-tábla utolsó két adatának szorzataként kiszámítható a forgalom értékének változása, hiszen az ár- és a mennyiségváltozás együtt az értékek változását jelenti. A vizsgált bolt forgalmának növekedése elsősorban az értékesített mennyiségek kb. 20 % -os növekedésének köszönhető Ebben a feladatban tulajdonképpen felesleges volt az „F” jelű indexek kiszámítása, olyan csekély az eltérés a kétféle súlyozás eredményei között. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 185 ► Statisztika Ár-, érték-, volumenindex-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 186 ► A 2.sz eredmény-tábla utolsó két adatának szorzataként nem kiszámítható ki a forgalom értékének változása, bár az ár- és a mennyiségváltozás együtt az értékek
változását jelenti, de „keresztbe” kellett volna súlyoznunk. A bolt forgalma 10500 eFt-tal növekedett annak köszönhetően, hogy a termékeket a második évben magasabb áron tudta értékesíteni. (súly: bázisidőszaki) A bolt forgalma 38 %-kal növekedett annak köszönhetően, hogy a második évben magasabb áron adták el a termékeket. A sportcipők kivételével a bolt termékei iránti kereslet az áremelkedések ellenére növekedett. 2. minta Két kisebb magánvállalkozás („A” és „B”; viszonyítási alap = „B”) bevételi adatai alapján a következő indexeket és különbségeket számoltuk ki: Iv I q1 K p0 0,95 0,864 +50 mFt Számítsa ki hiányzó indexeket, különbségeket, valamint a két vállalkozás forgalmi forgalmának adatait! A számítások eredményeit írja be az alábbi eredménytáblába! eredménytábla szöveges megfogalmazás statisztikai jel adat „A” vállalkozás forgalma „B” vállalkozás forgalma a két
vállalkozás forgalmának különbsége a mennyiségek eltérése miatt forgalom különbség az árak eltérését mutató index A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 186 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 187 ► 10. Becslés 10.1 Bevezetés A társadalmi-, gazdasági jelenségekre vonatkozó adatokat a megfigyelést végzők egyes esetekben a vizsgált sokaságok minden egyes tagjára (= elemére) vonatkozóan összegyűjtik ekkor teljeskörű felvételről beszélünk; más esetekben viszont csak a vizsgált sokaság elemeinek egy részére terjed ki az adatgyűjtés, ezt részleges felvételnek nevezzük. Teljeskörű felvétel pl.: népszámlálások, a népmozgalmi jelenségek megfigyelése (születés, halálozás stb), vetésterület összeírása; részleges felvétel pl: a különböző termékek árainak megfigyelése, közvéleménykutatások. A részleges
adatfelvétel eredményeként kiszámított sokasági jellemzők (átlag, szórás stb.) sajátossága, hogy kisebb – nagyobb hibával tükrözik a valóságot, ennek ellenére nem lehet célunk minden esetben a teljeskörű felvétel. Ennek egyrészt technikai okai vannak, másrészt az idő és a pénz szűkössége. A mezőgazdaság várható terméseredményeinek megállapításához nem szedhetjük le még a beérés előtt az összes gyümölcsöt. A termékek megsemmisüléssel, használhatatlanná válással járó minőségellenőrzése során (pl villanyégők) nem vizsgálhatunk meg minden elkészült darabot. A gazdasági élet valamennyi szereplője a folytonosan változó feltételekre a lehető leggyorsabban akar reagálni, vagyis rövid idő alatt szükséges döntéseket hoznia, és ez nem engedi meg a hosszas adatgyűjtési-elemzési munkát. A pénz pedig még a leggazdagabb államokban is mindig kevesebb mint, amennyit az egyes célok megvalósítása igényel.
Kevesebb sokasági egyedre adatot gyűjteni és kevesebb adatot feldolgozni, elemezni pedig természetesen kevesebb idő és kevesebb pénz. A részeleges adatfelvétel fajtái172 közül jegyzetünkben kizárólag a reprezentatív adatgyűjtéssel foglalkozunk. Reprezentatív felvétel esetén a megismerni kívánt teljes sokaságból (= alapsokaságból; elemeinek száma = N ) szigorú szabályok szerint kiválasztunk egy részsokaságot (= mintasokaságot = mintát; elemeinek 172További részleges adatfelvételi fajták: - a monográfia. Ez leginkább segédeszköznek tekinthető a vizsgált sokaság egyedeinek megismerésében. - a kísérleti eredmények gyűjtése. Ebben az esetben az azonos feltételek biztosításával érjük el, hogy megfigyelési eredményeinket egy végtelen sokaság egy-egy ismertté vált elemének tekintsük. - egyéb (nem reprezentatív) részleges megfigyelések, lásd: 10.14 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄
187 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 188 ► száma = n ), és csak ennek elemire vonatkozóan gyűjtünk adatokat. A minta adatainak feldolgozása után a kapott eredményeket viszont a teljes sokaságra vonatkoztatjuk. Tulajdonképpen tudományos indukciót173 végzünk, vagyis az egyesből következtetünk az általánosra. A reprezentatív adatgyűjtéssel kapcsolatban felmerülő legfontosabb kérdések: 1. Milyen elméleti alapokon nyugszik az eljárás? 2. Milyen szabályok szerint kell elvégeznünk a mintába kerülő elemek kiválasztását, továbbá: hány elem kerüljön a mintába? 3. Hogyan értékelhetjük eredményeinket, figyelembe véve, hogy nem a teljes sokságra vonatkozó adatokkal dolgozunk, azaz hogyan következtessünk a mintából a teljes sokaságra? 1. A reprezentatív adatfelvételi módszer elmélete a valószínűségszámítás törvényein, más szóval a véletlen
tömegjelenségek törvényein nyugszik. Ezért követelmény, hogy az alapsokaság a szó szoros értelmében sokaság legyen, azaz nagytömegű egységet foglaljon magában Elméletileg adott alsó korlát a nagy tömegre nincs, a gyakorlatban azonban az alapsokaság174 több ezer, esetleg több millió egyedből áll. 2. Az alapsokasági elemek közül a mintasokaságba kerülő elemeket a következő alapvető módszerekkel választhatjuk ki: 2.1 véletlenen alapuló kiválasztás: • • • • egyszerű véletlen, egylépcsős (csoportos), többlépcsős rétegzett mintavétel. 2.2 nem véletlenen alapuló kiválasztási eljárások175 173Az indukció "párja", "ellentettje" a dedukció, amikor az általános ismeretek segítenek az egyes megismerésében. 174Elméletileg természetesen az alapsokaság elemeinek száma lehet végtelen is, de mert a közgazdasági gyakorlatban véges sokaságokkal dolgozunk, jegyzetünkben is csak az ezekre vonatkozó
számításokkal foglalkozunk. 175 Ezekkel jegyzetünkben nem foglalkozunk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 188 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 189 ► 2.3 szisztematikus kiválasztás176 A minta elemeinek kiválasztása matematikai szempontból lehet ismétléses (= visszatevéses) vagy ismétlés nélküli (= visszatevés nélküli). Ismétléses kiválasztásnál az alapsokaság bármelyik elemének 1 N esélye (= valószínűsége) van a mintába bekerülni. Ez az esély a kiválasztás során végig meg is marad, hiszen minden húzás N elem közül történik. Az ismétlés nélküli mintavétel során a kihúzható elemek száma egyre csökken. Az első kiválasztás után már csak (N-1) elem közül választhatjuk ki a második elemet, majd (N-2) elem közül a harmadikat és így tovább. Így 1 1 ⎞ ⎛1 elméletileg egyre nagyobb esélye ⎜ 〈 〈
〈.⎟ van a maradék ⎝ N N −1 N − 2 ⎠ elemek közül egynek – egynek a mintába kerülni, de gyakorlatilag a kiválasztási valószínűség ebben az esetben is 1 N , vagyis az előzővel azonos, 1 1 1 ≅ ≅ ≅., úgy is N N −1 N − 2 1 fogalmazhatunk: a kiválasztási valószínűség határértéke = . N 2.1 A mintavétel véletlensége azt jelenti – ahogy erről már volt szó –, hogy az alapsokaság minden elemének egyenlő esélye van arra, hogy a mintasokaság eleme legyen, azaz a mintába kerüljön. Így a minta elfogulatlanul, minden emberi szubjektivitást kizárva tükrözi a valóságot 2.1 a) Az egyszerű véletlen kiválasztás végrehajtásának alapvető feltétele, hogy a homogén alapsokaság elemeiről teljes körű nyilvántartással rendelkezzünk A szükséges nyilvántartás az alapsokaság minden elemét kell hogy tartalmazza, de valamennyit bizonyosan csak egyszer hiszen N igen nagy számot jelent177 és így A nyilvántartás lehet
egy névjegyzék (pl.: a SZE beiratkozott hallgatóinak névsora), egy térkép (pl.: Magyarország valamennyi települését feltüntető térkép), valamilyen lista (pl.: egy termelővállalat által előállított valamennyi termékféleség tételes felsorolása) 176 Például egy főiskola hallgatói (= N ) közül úgy választunk ki egy n-elemű mintát, hogy N -dik hallgató a mintába kerül. Jegyzetünkben ezzel a módszerrel sem foglaln kozunk, de megjegyezzük, hogy az ilyen speciális eljárások nagy körültekintést igényelnek, illetve az így nyert eredmények pontossága nagyban függ az alkalmazási feltételek szakszerű kezelésétől. 177 Lásd: 10.13 minden A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 189 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 190 ► Fontos megjegyeznünk, hogy napjainkban tömegesen alkalmazzák a "találomra" való kiválasztást, –
véletlen mintának feltüntetve! – például a közvélemény-kutatások, az internetes szavazások alkalmával. Ezek a módszerek sokszor jóval olcsóbban és gyorsabban adnak eredményt, mint egy szabályosan megvalósított mintavételes eljárás, de ezekben az esetekben le kell mondanunk arról, hogy a hiba nagyságáról objektív ismereteink legyenek178. A rendelkezésre álló teljes körű nyilvántartásból technikai szempontból sokféleképpen választhatunk egyszerű véletlen mintát, például: • sorsolással, • a véletlenszám-tábla felhasználásával, • a számítógép véletlenszám-generátora segítségével. A sorsolás lebonyolításához a fentiekben említett teljes körű nyilvántartáson kívül egy sorsolási gömbre (= "nagy kalapra") és benne az alapsokaság elemeit képviselő kis cédulákra (ezeken van az elemek neve vagy sorszáma) van szükség. A kiválasztás a cédulák újra és újra történő összekeverése után
azok kihúzogatásával történik. Ha a kiválasztás ismétléses, akkor a kihúzott cédula, a rajta szereplő adatok feljegyzése után, visszakerül a sorsolási gömbbe; ha pedig ismétlés nélküli, akkor természetesen nem kerül vissza. A véletlenszám-táblás kiválasztás segédeszköze majd minden statisztika könyvben megtalálható. Íme egy részlet: 10.1sz tábla sor-szám oszlopszám 1. 2. 3. 8. 9. 10. sor-szám 16. 01 47 69 71 21 02 15 78 24 38 32 13 16. 17. 17 71 98 82 87 19 22 62 78 63 37 25 17. 18. 14 40 28 22 68 48 68 16 03 89 52 54 18. 19. 61 71 92 22 42 33 45 43 48 76 93 08 19. 20. 25 91 04 91 31 66 51 72 37 09 57 06 20. 178Például interneten csak az szavazhat, akinek van hozzáférési lehetősége és azok közül is csak az, akinek kedve is van az adott kérdéssel kapcsolatban véleményt nyilvánítani, vagyis a véletlen törvényszerűségein alapuló matematikai módszerekről le kell mondanunk. A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 190 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 191 ► Használatához elengedhetetlen az alapsokaság elemeinek sorszámozása. A mintavétel a tábla véletlenszerűen kiválasztott pontjától kezdődik. Az egymás mellett szintén véletlenszerűen (innen a tábla neve) sorakozó négy (vagy több) jegyű számok közül azokat jegyezzük fel, melyek sorszámként179 szerepelnek nyilvántartásunkban, a sorszámként nem szereplő számokat pedig "átugorjuk". Ezt mindaddig folytatjuk, amíg annyi sorszámot nem jegyeztünk fel, ahány elemű mintára szükségünk van. Számításainkat pedig a feljegyzett sorszámokhoz tartozó elemek adataival végezzük. A véletlenszám-táblát ismétléses kiválasztással állították össze, ha mégis ismétlés nélküli kiválasztáshoz akarjuk segédeszközként használni, akkor azokat a számokat, melyeket egyszer
már feljegyeztünk, át kell „ugranunk”. A legkorszerűbb módszer a számítógép alkalmazása, ehhez azonban meg kell vásárolnunk a megfelelő szoftvereket, és az alapsokaságról készült nyilvántartásunk adatait gépre kell vinnünk. A mintavétel ebben az esetben a program leírásában szereplő parancsok megfelelő végrehajtásával történik. 2.1 b) Egylépcsős (= csoportos) mintavételt akkor alkalmazunk, ha a vizsgálni kívánt alapsokaságról nem rendelkezünk (és nem is lehet könynyen, gyorsan beszerezni) teljes körű nyilvántartással. Ebben az esetben egy közbülső, úgy is mondhatjuk, közvetítő, azaz elsődleges sokaságot kell keresnünk. Ha például az általános iskolát befejező tanulók olvasási színvonalát akarjuk felmérni, akkor hiába keresünk olyan nyilvántartást, amelyik hazánk összes nyolcadik osztályos tanulójának legfontosabb – a megkülönböztetéshez és a felleléshez szükséges – adatait tartalmazná.
Találunk viszont nyilvántartást az Oktatási Minisztériumban az általános iskolákról. Az általános iskolák sokasága lesz az elsőleges, a közvetítő sokaság A minta elemeinek megismerése a közvetítő sokaság ismeretében két lépésben történik. Első lépcsőben – innen az elnevezés – a közvetítő sokaság elemei közül választunk (például egyszerű véletlen módszerrel), majd a mintába került közvetítő sokaságbeli elemek valamennyi elemét "megvizsgáljuk". Az általános iskolák közül választunk, de a kiválasztott iskola valamennyi nyolcadikos tanulóját kikérdezzük. Ennél az adatfelvételi módnál – általában – azonos költségek mellett az egyszerű véletlen kiválasztásnál nagyobb mintát képezhetünk. A nagyobb elemszám pedig a sokaság jobb megismerését teszi lehetővé. 179Az alapsokaság elemeinek sorszámozása, ha a táblánk négyjegyű, természetesen nem egyessel kezdődik, hanem
"0001"-vel. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 191 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 192 ► 2.1 c) A többlépcsős kiválasztást is a vizsgálni kívánt alapsokság nyilvántartásának hiányában kell esetenként alkalmaznunk Az egylépcsős (= csoportos) mintavételtől ez a módszer annyiban különbözik, hogy nem egyszer, hanem többször alkalmazzuk a mintavételt. Előző példánkat folytatva, a kiválasztott iskolákban nem minden tanuló olvasás-tudását vizsgáljuk meg; vagyis újabb, általában EV, mintavételt hajtunk végre. Ennél a mintavételi módnál – homogén (=egynemű) elsődleges mintavételi egységek esetén – lehetőségünk van kisebb elemszámú mintával dolgozni ( = költségkimélő megoldás). Ha pedig mégis azonos elemszámú mintát veszünk, az a hiba nagyságának csökkenését eredményezi. 2.1 d) A rétegzett
kiválasztás során a heterogén (= összetett) alapsokaság elemeit valamely kiegészítő információ (= megkülönböztető ismérv) alapján csoportosítjuk, arra törekedve, hogy minél egyneműbb részsokaságokat nyerjünk. A mintavétel ebben az esetben nem a bontatlan alapsokaságból történik (amikor is előfordulhat, hogy lesz olyan réteg, amelyiknek egyetlen eleme sem kerül be a mintába), hanem az egyes rétegekből külön-külön, azokon belül pedig az egyszerű véletlen mintavétel szabályai szerint. A nyolcadikosokra vonatkozó példánkat folytatjuk. Ha korábbi tapasztalataink azt mutatják, hogy a családi háttér – például a szülők iskolai végzettsége – befolyásolja a tanulók olvasási színvonalát, akkor célszerű újabb mintavételünket is a tanulók családi háttér szerinti megoszlását ismerve elvégezni. Természetesen előzetes ismeretek hiányában is feltehetjük a kérdést, befolyásoló tényező-e a szülők végzettsége,
ill utólagos rétegzést is végezhetünk. A rétegzett mintavétel óriási előnye180, hogy egyetlen adatgyűjtés eredményeként az egyszerű véletlen mintavételhez képest sokkal több és pontosabb (= kisebb a hiba) eredményhez jutunk. Példánkban nemcsak néhány szám, az olvasásra kapott érdemjegyek átlaga, módusza, mediánja, szórása stb., fogja jellemezni a sokaságot, hanem annyiszor több szám, ahány rétegre tudtuk bontani a tanulókat, sőt az ismérvek közti kapcsolatok számítására is sor kerülhet A rétegzett mintavétellel kapcsolatban két nehéz kérdést kell megoldanunk. 180A rétegzett mintavételnek más előnyei is vannak. Ezeket részben már említettük részben később említjük meg. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 192 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 193 ► 1. Megtalálni azt a rétegképző ismérvet, amely alapján
– a vizsgált probléma szempontjából – valóban homogén részsokságokhoz jutunk. 2. A minta elemeit fel kell osztani az egyes rétegek között Ez történhet: 1. egyenletesen, 2. arányosan, 3. optimálisan: – szórás alapján – költségek alapján. 2.1 Egyenletes rétegzés esetén az alapsokaság minden egyes rétegéből azonos számú (n1 = n2 = n j ) elemet választunk ki, függetlenül attól, hogy az egyes rétegek az alapsokaságon belül azonos vagy éppen igen eltérő súlyt képviselnek-e. Előnye, hogy egyszerű végrehajtani; hátránya, hogy nagyfokú torzítást okozhat. 2.2 Arányos rétegzés esetén az alapsokaság nagyobb elemszámú rétegéből több (ha N1 〉 N 2 akkor n1 〉 n2 ), a kisebb elemszámú rétegéből kevesebb elemet (ha N1 〈 N 2 akkor n1 〈 n2 ) választunk, arra ügyelve, hogy az egyes rétegekből olyan arányban kerüljenek elemek a mintába, amilyen arányt az adott réteg az alapsokaságban képvisel. 2.3 Az optimális
rétegzés összefoglaló elnevezés, a nem arányos rétegzés egyik fajtája. Az eljárásnak az optimalizálási kritériumtól függően több változata is ismert. Ha például célunk (= kritériumunk) a hibanagyság minimalizálása, akkor az elemszámot az egyes rétegek között úgy kell elosztani, hogy a standardhiba181 a lehető legkisebb legyen, ezért figyelembe kell vennünk az egyes rétegek eltérő szórását is. Amelyik réteg szórása kisebb, abból kevesebb (ha σ 1 〈σ 2 akkor n1 〈 n2 ), amelyik réteg szórása nagyobb, abból több elem (ha σ 1 〉σ 2 akkor n1 〉 n2 ) kerül a mintába Egy kevéssé szóródó sokaságot kevesebb eleme segítségével is megismerhetünk, míg egy nagyon szóródó sokaság megismerése csak több különböző eleme révén lehetséges. Ha célunk (= kritériumunk) a költségek csökkentése, akkor pedig figyelembe vesszük azt is, hogy az egyes rétegek adatainak beszerzése eltérő költségigényű. Ha igen
szűkösek az anyagi lehetőségeink, akkor a magas adatgyűjtési költségű réteg elemei közül kevesebb, az alacsonyabb költségű 181Lásd: 10.17 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 193 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 194 ► réteg elemei közül több kerül a mintába. (A kétféle szempontot – szórás és költség – természetesen együtt is figyelembe vehetjük.) Ha például az adatgyűjtést, feldolgozást végző szervezetek székhelyétől távoli településen élők adatainak felmérése több pénzbe kerül /utazás, szállás, posta stb./, mint az adatgyűjtővel azonos helyen élőké, akkor a székhelyen kérdeznek ki több és a székhelytől távolabb kevesebb embert. Az egyes rétegekbe kerülő mintaelemszám meghatározása egyenletes rétegzés nj = arányos rétegzés Nj n m N szórás optimális rétegzés nj = n∗ j nj n Nj
⇒ nj = N ∗n szórás- és költség-optimális rétegzés − w j ∗σ j ∑w = nj = n∗ ∗σ j 1 w j ∗ σ jπ j 2 − 1 ∑ w j ∗ σ jπ j 2 Az elemszám meghatározására szolgáló képletekben szereplő betűk jelentése nj = Nj = n= a j-edik réteg elemszáma a a minta teljes elemszáma, mintában wj = Nj N = a j-edik réteg aránya a teljes sokaságban N = az alapsokaság elemeinek száma a j-edik réteg elemeinek száma az alapsokaságban σj = a j-edik réteg szórása πj = az egyes rétegekből történő adatgyűjtés költsége egy elemre vetítve A véletlenen alapuló kiválasztás eddig leírt bármelyik formáját is alkalmazzuk, előre el kell döntenünk, hogy hány elem (n) kerüljön a mintába. Az erről való döntést megnehezíti, hogy két ellentétes igénynek kell eleget tennünk. Nyilvánvaló, hogy a vizsgált sokaságról minél pontosabb képet akarunk kapni, ez pedig főleg a minta elemszámának növelésével érhető
el. Ugyanakkor gyorsan és a lehető legkisebb költség mellett akarunk eredményhez jutni, ez pedig a minta elemszámának csökkentésével valósítható meg. A gyakorlatban a megoldást az ésszerű kompromisszumok jelentik A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 194 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 195 ► A felvázolt ellentét élét tompítja, hogy a statisztikai vizsgálatok tárgyát képező sokaságok általábann igen magas elemszámúak (N ) , így egy vi⎛ ⎞ szonylag csekély arányú ⎜ ⎟ kiválasztás esetén is elég nagy elemszámú ⎝ N ⎠ ami a jól kiválasztott mintavételi módszer (n) minta áll rendelkezésünkre, mellett lehetővé teszi a sokaság alapos megismerését. A minta elemszámának mind abszolút (= hány elemű a minta), mind relatív (= kiválasztási arány) nagysága befolyásolja a számítások gyakorlati menetét. A minta
elemszám abszolút nagyságát figyelve, ha n〈100 , akkor kismintáról beszélünk. n A kiválasztási arányt figyelve pedig akkor beszélünk kismintáról, ha 〈 0,1 . N 10.2 Becsült sokasági jellemzők A mintavételből származó adatokból kiszámítható statisztikai jellemzők közül • • • • az átlag (10.21), az értékösszeg (10.23), a szórás (10.22) és az arány (10.24) 182 számítási módszerét, becslését ismertetjük egyszerű véletlen kiválasztást (= EV) illetve arányos rétegzést (= AR) feltételezve. A megkezdett témakör részletes kifejtése előtt fontosnak tartjuk felhívni figyelmet arra, hogy amikor a következőkben az idősorok elemzésével – trendszámítás stb. – és a regresszió-számítással fogunk foglakoztunk, akkor is becslésről van szó. Hiszen a számításokhoz felhasznált idősoraink nem végtelen hosszúak, a 10 – 15 év kiválasztásával mintegy mintát veszünk a végtelen időből. Amikor pedig
például a lakosság jövedelme és fogyasztása között keressük a kapcsolatot, akkor sem ismerjük ezeket az adatokat – hiszen mintát veszünk – a lakosság minden egyedére vonatkozóan. 10.21 Számtani átlag becslése egyszerű véletlen (EV) mintából Ha egy soksági jellemző becslését akarjuk elvégezni először is ki kell választanunk a megfelelő becslőfüggvényt. A becslőfüggvény egy olyan n-változós függvény, amely valamely sokasági jellemző értékének mintából történő meghatározására szolgál. 182Lásd: viszonyszámok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 195 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 196 ► Egy becslőfüggvényt akkor tartunk megfelelőnek, ha torzítatlan183, konzisztens184 és hatásos185. Jegyzetünkben a becslőfüggvények közötti választással nem foglalkozunk, egy-egy sokasági jellemző (= paraméter)
meghatározására általában egyetlen becslőfüggvényt adunk meg Bármely sokasági jellemző becslését, így a számtani átlagét is, elvégezhetjük pontbecslésként (= egyetlen szám az eredmény), ekkor a számításokban szinte semmi különbség nincs ahhoz képest, amit már a középértékek taglalásakor leírtunk, de amit eddig a számtani átlag képletének hívtunk, azt a továbbiakban a számtani átlag becslőfüggvényének nevezzük. Egyszerű számtani átlag186 esetén: Súlyozott számtani átlag esetén: xa = ∑x xa = i n ∑fx = gx ∑ ∑f i i i i i A számtani átlag becslőfüggvényeiben szereplő betűk jelentése: xa = xi = n = a számtani átlag az átlagolandó értékek a minta elemeinek száma fi = gi = fi ∑f = i fi = n az egyes értékek előfordu- az egyes értékek előfordulási aránya a mintában (= lása (db, fő) a mintában relatív gyakoriság, %-os formában pedig megoszlási viszonyszám) A megadott
becslőfüggvény alapján meghatározott átlagról tudjuk, hogy az nem a sokaság minden tagjára vonatkozó adatok ismeretében számítódott ki, és így bizonytalanságot rejt magában (= mintavételi hiba). De a bizonytalanság nagyságáról, vagy a másik oldalról közelítve a problémá183Torzítatlan, ha várható értéke megegyezik a becsülni kívánt sokasági jellemző értékével. 184Konzisztens, ha n minden határon túl való növelése esetén annak valószínűsége, hogy a becsülni kívánt sokasági jellemző értékének és a becslőfüggvény értékének eltérése kisebb egy ε számnál = 1 (azaz biztos esemény) 185Két (vagy több) becslőfüggvény közül az a hatásosabb, amelyiknél kisebb becsült sokasági jellemző szórása. 186 Egyes, főleg az újabb tankönyvek „x” helyett „y” jelölést alkalmaznak. Javasoljuk, ne a betűjeleket rögzítse memóriájában! Így jobb: számtani átlag = az átlagolandó értékek összege osztva az
elemek darabszámával. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 196 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 197 ► hoz, a becslés pontosságának nagyságáról semmit sem tudunk. Ezekhez az ismeretekhez az intervallumbecslés segítségével juthatunk el. Az intervallumbecslés során valamely előre meghatározott valószínűség mellett megadjuk azt az alsó határt, aminél kisebb nem lehet a mintából számított és az egész sokaságra vonatkoztatott átlag, illetve megadjuk azt a felső határt, amelynél pedig nagyobb nem lehet. [xa ± ∆] A keretbe foglalt megfogalmazás egy két oldalról zárt intervallumot jelent, a statisztikai gyakorlatban azonban előfordul, hogy valamely sokasági jellemzőnek csak az alsó vagy a felső határa lényeges (pl. termékek méret ill minőségi követelményei), ezekben az esetekben egyoldalú intervallumokat írunk fel [x − ∆ )
187 ill. (x + ∆ ] 188 Az alulról és felülről is zárt intervallum kétoldalú-, a csak egyik oldalon zárt intervallum pedig egyoldalú becslés eredménye. A hibahatár egy a becslés valószínűségéhez tartozó szorzószám ( z = standard normális eloszlású valószínűségi változó) és az úgynevezett standardhiba (σ x ) felhasználásával számítható ki. ∆ = z ∗σ x A hibahatár számításában szereplő betűk jelentése: xa = a számtani átlag ∆= hibahatár = maximális hiba σx = a becslés standardhibája z = a választott valószínűségtől függő standard normális valószínűségi változó 187 188 Alulról zárt. Fölülről zárt. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 197 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 198 ► Matematikai tanulmányainkból tudjuk, hogy N elemből n elemet nem csak egyféleképpen lehet kiválasztani.189
Ennek az a következménye, hogy az egyes mintákból számított átlagok nem tökéletesen azonosak, azaz mintáról mintára ingadoznak. Legyen az alapsokaság 10 elemű (= N), és válaszunk belőle 2 elemű (= n) visszatevés nélküli mintákat! Az alapsokaság elemei (A-tól J-ig) és értékük: A B C D E F G H I J 1 2 3 1 3 2 4 3 2 1 Az alapsokaság átlaga: xa ∑x = N i ⇐ xi Az alapsokság szórása: 22 = = 2,2 10 σ= ∑ (x i − xa ) N 2 = 9,6 9 =0,98 A kiválasztható ismétlés nélküli minták száma: ⎛10 ⎞ ⎛ 10! ⎞ ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ =45 db ⎝ 2 ⎠ ⎝ 8!∗2!⎠ A kiválasztott minták elemei és átlagai: 10.2 sz tábla AB: 1,5 AC: 2,0 AD: 1,0 AE: 2,0 AF: 1,5 AG: 2,5 AH: 2,0 AI: 1,5 AJ: 1,0 BC: 2,5 BD: 1,5 BE: 2,5 BF: 2,0 BG: 3,0 BH: 2,5 BI: 2,0 BJ: 1,5 CD: 2,0 CE: 3,0 CF: 2,5 CG: 3,5 CH: 3,0 CI: 2,5 CJ: 2,0 DE: 2,0 DF: 1,5 DG: 2,5 DH: 2,0 DI: 1,5 DJ: 1,0 EF: 2,5 EG: 3,5 EH: 3,0 EI: 2,5 EJ: 2,0 FG: 3,0 FH:
2,5 FI: 2,0 FJ: 1,5 GH: 3,5 GI: 3,0 GJ: 2,5 HI: 2,5 HJ: 2,0 IJ: 1,5 ⎛N⎞ ⎛ N + n − 1⎞ ⎟⎟ nélküli kiválasztásnál ⎜⎜ ⎟⎟ , ismétléses kiválasztásnál pedig ⎜⎜ n n ⎝ ⎠ ⎝ ⎠ darab n-elemű mintát választhatunk. 189Ismétlés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 198 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 199 ► A mintából számított átlag nagysága (és így más sokasági jellemző nagysága is) tehát annak függvénye, hogy a sokaság mely elemei kerültek a mintába, azaz a becsült sokasági jellemző = valószínűségi változó, melyet várható értékével, szórásával és eloszlásával jellemezhetünk. Foglalkozzunk először az eloszlás kérdésével! A valószínűségszámítás központi határeloszlás tételét felhasználva bizonyítható, hogy a mintából számított átlag normális eloszlású. (Ábrázolva alakja
egy haranghoz hasonlít Ez az úgynevezett haranggörbe, más néven Gauss-görbe) Ennek alapján van lehetőségünk felírni azt a valószínűséget Ψ ( z ) = P(M − zσ 〈 X 〈 M + zσ ) , mely kifejezi, hogy az átlag milyen környezetben helyezkedik el. A valószínűség előzőekben megadott képletében nem találjuk a menynyiségi változókra alkalmazott eddigi jelölésünket (xi ) . Ennek oka, hogy a mintaátlagot, mint valószínűségi változót nulla várható értékű és egységnyi szórású változóvá (= standard normális valószínűségi változó) kell transzformálni annak érdekében, hogy az éppen vizsgált sokaság adatainak nagyságrendjétől és mértékegységétől el tudjunk vonatkoztatni. z= xi − x a σ Értékeit "standard normális eloszlású változó eloszlásfüggvényének értékei" c. táblából190 olvashatjuk ki A tábla z értékei (az átalakítás következtében) [−4,+4] határok közé esnek, vagyis P = 100 %
annak a valószínűsége, hogy az átalakított változó [− 4,+4] között lesz Ha a táblában található értékek ábráját is elkészítjük, majd a görbe alatt különböző szélességű intervallumokat jelölünk ki, továbbá kikeressük az intervallumok határaihoz ( zi ) tartozó valószínűségeket Φ ( z i ) , akkor azt tapasztaljuk, hogy ha az intervallum szűk, akkor kisebb, ha az intervallum szélesebb, akkor nagyobb a valószínűsége annak, hogy egy transzformált változó benne található. Tehát a becsült átlag (és más sokasági jellemző) köré szerkesztett intervallumok 190 Lásd a jegyzet végén. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 199 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 200 ► szélessége és az intervallumba kerülés valószínűsége azonos irányban változnak. Azaz minél biztosabb (= nagyobb valószínűséggel igaz) eredményt
akarunk kapni, annál szélesebb intervallummal kell dolgoznunk. Gondoljuk végig, hogy mit is jelent ez a gyakorlatban! Egy gyümölcstermeléssel foglalkozó vállalkozó még a teljes beérés előtt leszedi néhány véletlenszerűen kiválasztott fáról a termést, leméri, majd az egy fára jutó átlag termés nagyságát (kg/fa) beszorozza fáinak számával, annak érdekében, hogy megtudja, mekkora termésre számíthat, azaz termésbecslést végez. Ha nem pontbecsléssel akarja meghatározni az eredményt, akkor valamilyen valószínűség mellett kiszámítja az össztermés legkisebb és legnagyobb várható mennyiségét, az értékösszeget. Ha nagyobb valószínűség mellett például [50 ± 10] kg/fa lenne a várható termés, akkor kisebb valószínűség mellett – a fenitek értelmében –, feltételezzük csak [50 ± 5] kg/fa termést becsülne. Ez pedig 1000 db fa mellett az összetermés alsó és felső határában már jelentős különbséget
eredményezne. Ami például a gyümölcs elszállításához szükséges ládák megrendelésénél okozna számára nagy gondot, nem lesznek-e költségei túl magasak az esetleg feleslegesen megrendelt ládák miatt, ha a termés nem a becslés felső határa közelében alakul; vagy nem lesz-e ládahiány, ha túl óvatos és az alsó határ közelében lévő termés mennyiséghez rendel csomagolóeszközöket, de térjünk vissza az elmélethez! Összefoglalva: a becsült átlag körül elhelyezkedő intervallum szélessége a választott valószínűségtől (is) függ. A valószínűségi követelmény az intervallum szélességét a hibahatáron keresztül befolyásolja A hibahatár számításának másik tényezője az úgy nevezett standardhiba (= véletlen hiba). A standard hiba létezése annak következménye, hogy nem a teljes sokságra vonatkozóan ismerjük az adatokat. Ahogy ezt már említettük is, egy-egy teljes sokságból elvileg sok n-elemű minta válaszható
ki. Az ezekből számított átlagok191 egymástól és a teljes sokság adataiból számított átlagtól kisebb – nagyobb mértékben különböznek, de matematikailag bizonyítható, hogy a teljes sokságra jellemző átlag a mintabeli átlagok határértéke; másképpen fogalmazva, a minta átlagok a teljes sokságra jellemző átlag körül ingadoznak Ha a teljes sokságból az elméletileg lehetséges összes n-elemű mintát vennénk, kiszámolnánk ezek átlagait, majd megnéznénk, hogy ezek átlagosan mennyivel térnek el az alapsokaság átlagától akkor kapnánk meg a stan- 191 Lásd: példánkat a 9. oldalon A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 200 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 201 ► dardhibát192, amit végül is az egyetlen ténylegesen ismert minta szórásának segítségével határozunk meg (= becsüljük meg). σx = σ n sx = s n A
standardhiba számításában szereplő betűk jelentése: sx = a becsült standard hiba σ= sokaság szórása n = a minta elemeinek száma s= a minta szórása A hibahatár és a standardhiba képletét együtt vizsgálva, jól látható, hogy a szórás a hibahatárral, azaz az intervallum szélességével egyenesen arányos (= a szórás a számlálóban szerepel), vagyis, ha a minta nagyon szóródó, akkor azonos valószínűségi követelmény mellett szélesebb határok között fog mozogni a becsült érték. A minta elemszáma (= a nevezőben szerepel) viszont fordítottan arányos a hibahatárral, azaz az intervallum szélességével. Számítási képlet nélkül – a formális logika alapján is – világos, hogy egyre több adat ismeretében (= n egyre nagyobb), a teljes sokságról egyre többet tudva, pontosabb eredményt kaphatunk, vagyis azonos valószínűség mellett a becsült érték szűkebb határok között mozoghat. A valószínűségi szint és az
intervallum szélessége, valamint a minta elemszáma és az intervallum szélessége közötti összefüggés felismerése és megértése azért is fontos, mert mind a valószínűségről, mind a minta elemszámáról a statisztikai munkát végző szakemberek döntenek, illetve a döntéshez ők adnak tanácsot a munkát megrendelőknek, akik nem feltétlenül jártasak a statisztika tudományában. 192A lunk. standardhiba számításához egyes esetekben még egy un. korrekciós tényezőt is felhaszná- A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 201 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 202 ► BEMUTATÓ FELADAT I. Egy egyetem hallgatóinak köréből (= teljes sokaság) egyszerű véletlen mintát vettünk (n = 100 fő, a kiválasztási arány =1,6 %). Célunk a hallgatók szórakozási kiadásainak vizsgálata volt A minta adatai: 10.3sz tábla szórakozási kiadás
osztályközép a hallgatók száma a mintában ezer Ft / hó /fő xi fi – 5,0 3,5 6 5,1 – 8,0 6,5 10 8,1 – 11,0 9,5 18 11,1 – 14,0 12,5 35 14,1 – 17,0 15,5 15 17,1 – 20,0 18,5 11 20,0 – 21,5 5 összesen - 100 adatforrás: saját gyűjtés SZE, 2006. márc A mintában szereplő hallgatók havi szórakozási kiadásainak átlaga ≅12.380 Ft (= x a ) 193 Továbbá ismert – egy korábbi teljeskörű felvételből – a szórakozási kiadások szórása, σ = 4.407 Ft Az átlagra vonatkozó eredmény pontbecslés. Számításainkat kétoldalú intervallumbecsléssel (P = 95% ) folytatjuk, ennek lépései: 1. a standard hiba kiszámítása: σ x = σ n = 4.430 ≅ 443 Ft 100 2. a táblabeli érték (= z ) kikeresése, (lásd: a megoldás után) 3. a hibahatár (± ∆ ) kiszámítása: ± ∆ = z ∗ σ x = 1,96 ∗ 443 ≅ 868 Ft 193 Ha az osztályközepek megállapításával gondja van, lapozzon vissza a középértékek
tárgyalásához. Használja a tudományos számológépét! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 202 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 203 ► 4. az intervallum felírása, megfogalmazása: [xa ± ∆ ] = [12.380 ± 868] ≅ [11510〈 xa 〈13250] Ft 2. A táblabeli értéket ( z i ) a "standard normális eloszlású változó eloszlásfügg- vényének értékei" (= z − tábla ) c. táblából194 kerestük ki Ezt a táblát akkor használhatjuk különböző becslési, hipotézisellenőrzési feladatokhoz, ha a minta elemeinek száma száz vagy annál több, és ismerjük az alapsokaság szórását. A két feltételnek együtt kell teljesülnie A táblabeli érték kikeresését az is befolyásolja, hogy egy- vagy két oldali becslést végzünk-e. Abban az esetben, ha csak egy oldalról zárt intervallumot akarunk szerkeszteni, akkor a tábla belső rovataiban
megkeressük a becslési valószínűség megadott vagy kiválasztott értékének együtthatós alakját, majd leolvassuk a tábla oldalrovatából (egész szám és az első tizedes), ill. fejlécéből (második tizedes) a zi értéket A két oldalról zárt intervallum szerkesztéséhez azonban a táblában való keresgélés előtt el kell végezni a megadott, kiválasztott valószínűség átalakítását. Φ (z ) = Ψ (z ) + 1 1 − Ψ (z ) = Ψ (z ) + 2 2 A teljes valószínűség, a biztos esemény = 1,0. Ebből levonjuk a becslésnél használni kívánt valószínűség értékét, a 0,95-t. A fennmaradó rész – 0,05 – az intervallumon kívül esés valószínűsége, amit α -val jelölünk és szignifikancia-szintnek nevezünk.195 Ez az egyoldalú becslés esetén az intervallum egyik végén található. Ezt, a szimmetria elérése érdekében szétosztjuk az intervallum két oldalára. Ennek következtében 0,025-val jobbra csúszik az intervallum alsó és
felső határa is. Az átalakítási képletben szereplő betűk jelentése Ψ (z ) = Φ(z ) = az átalakított, a kétoldalú becsléshez használt becslési valószínűség együtthatós formában 194Lásd: 195Lásd: a megadott, kiválasztott becslési valószínűség, amit átalakítás nélkül az egyoldalú becslésnél használunk, együtthatós formában a jegyzet végén hipotézisellenőrzés. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 203 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 204 ► Az átalakításra azért van szükség, mert a tankönyvekben közölt táblákat úgy állították össze, hogy azok a változók előfordulási valószínűségét a mínusz végtelen és az oldalrovatban (+ fejlécben) meghatározott pozitív z érték közti intervallumra adják meg. S mert 1 − Ψ (z ) = Ψ (− z ) 196, ezért egyúttal ismert egy adott negatív z érték és a
pozitív végtelen közötti előfordulási valószínűség is. Ezért, ha például P = 95 %-os valószínűséggel dolgozunk, akkor a táblában egyoldalú becslés esetén Ψ (z ) ≅ 0,95-nél kell a z (1,65) értéket kikeresnünk, kétoldalú becslés esetén pedig Φ ( z ) = 0,975 értéknél. Így számpéldánkban a táblából kikeresett z érték: 1,96197 10.4sz tábla A standard normális eloszlásfüggvény értékei, Φ ( z i ) , részlet198 z 0 1 2 3 4 5 6 7 8 9 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9572 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9461 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 ♥ Ha a vizsgált egyetem hallgatói köréből az elméletileg lehetséges összes 100 elemű EV mintát vettük volna, az azokból számított átlagos szórakozási kiadások (= minta átlagok) a teljes
sokság adataiból kiszámítható átlagos szórakozási kiadástól átlagosan 450 forinttal térnének el. (= a standardhiba jelentése) ♥A vizsgált egyetem hallgatói havonta és fejenként átlagosan 12.380 forintot költenek szórakozásra. (= a pontbecslés jelentése) 196 A normális eloszlás = szimmetrikus eloszlás. tábla belsejében találja növekvő sorrendben a valószínűségeket. Addig keressen, amíg 0,9750-t nem talál. Majd olvassa le a sor elején található z érték első két-két számjegyét, itt 1,9! Végül a 0,975-t tartalmazó oszlop tetején olvassa le a z érték harmadik számjegyét is. Ha valamilyen z vagy Φ (z ) értéket nem talál meg pontosan, alkalmazza a kerekítés matematikai szabályait! 198A táblákban a könnyebb keresés érdekében szokták egy egyes sorokat eltérő háttérrel megkülönböztetni. 197A A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 204 ► Statisztika Becslés A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 205 ► ♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.510 és legfeljebb 13.250 forintot költenek szórakozásra (= az intervallum becslés jelentése) Ha számításainkat egyoldalú intervallumbecsléssel (P = 95% ) végeztük volna, akkor a munka menete a táblabeli érték kikeresésétől módosul, és természetesen más intervallum határokat kapunk: 1. a standard hiba kiszámítása: σ x = σ n = 4.430 ≅ 443 Ft 100 2. a táblabeli érték (= z ) kikeresése, (lásd: a kétoldalú becslés leírásánál) 3. a hibahatár (± ∆ ) kiszámítása: ± ∆ = z ∗ σ x = 1,65 ∗ 443 ≅ 731 Ft 4. az intervallum felírása, megfogalmazása [x + ∆ ) = ([12.380 − 731〈 X 〈+∞ )) ≅ [11650) Ft vagy (x − ∆] = (− ∞〈 X 〈(12.380 + 731)] ≅ (13110] Ft ♥ A 100 elemű EV minta alapján 95 %-os valószínűséggel
állíthatjuk, hogy a vizsgált egyetem hallgatói havonta legkevesebb 11.650 Ft-t költenek szórakozásra ♥ A 100 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy a vizsgált egyetem hallgatói havonta 13.110 Ft-nál nem költenek többet szórakozásra.199 199 Gyakorlati kérdés: Honnan tudjuk, hogy egy- vagy kétoldalú becslést kell-e végeznünk? A kérdésfeltevésből. Ha egy termék (pl liszt, cukor stb) zacskókba töltésénél a munkát végző vállalkozás vagy az értékesítést végző kereskedő számára csak az lényeges, hogy a vevőt ne károsítsák meg, akkor elég a töltési tömeg alsó határára figyelni. Ha viszont egy teherszállító eszközről van szó (pl. lift), ahol baleset történhet a túlterhelésnél, elég a hasznos teher felső határára figyelni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 205 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 206 ► BEMUTATÓ FELADAT II. Figyeljük meg, hogyan változnak az I. bemutató feladatban szereplő számítás eredményei, ha: • a minta elemszáma növekszik vagy csökken: legyen n2 = 200 , illetve n3 = 50 , • a becslés valószínűsége változik, kisebb illetve nagyobb lesz: 4. legyen P = 90% , 5. illetve P = 98% ! Annak érdekében, hogy az egyik (elemszám) ill. a másik tényező (valószínűség) a rész– ill a végeredményre gyakorolt hatását ki tudjuk mutatni, az éppen nem vizsgált tényezőt állandónak kell tekintenünk. A minta elemszámának változtatása esetén a valószínűség állandó, jelen esetben marad az eredeti 95 %, a valószínűség változtatása esetén pedig a minta elemszáma marad változatlan, itt az eredeti 100 elemmel dolgozunk. Az átlag és a szórás is mindig azonos! Ha nem történik új mintavétel, hogyan is gondolhatjuk, hogy a megemelt számú, illetve a csökkentett elemszámú minta is
ugyanazt az átlagot eredményezi? Ha a minta átlagát elfogadtuk sokasági átlagnak (= indukció), akkor a sokasági átlagot elfogadhatjuk az új minta átlagának (= dedukció) Az egyes változtatások következtében módosult eredmények: 1. n2 = 200 és P1 = 95% Változik a standardhiba: σx = σ n = 4.430 ≅ 313 Ft, 200 és ennek következtében a hibahatár: ± ∆ = z ∗ σ x = 1,96 ∗ 313 ≅ 613 Ft, és természetesen az intervallum alsó és felső határa is: [xa ± ∆] = [12.380 ± 612] ≅ [11770〈 xa 〈12990]Ft A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 206 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 207 ► Az intervallum szélessége = 2 ∗ ∆ = 2 ∗ 613 ≅ 1.220 ≅ [( x + ∆ ) − ( x − ∆ ) = 12990 − 11770 = 1220] Ft ♥ A 200 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább
11.770 és legfeljebb 12.990 forintot költenek szórakozásra 2. n3 = 50 és P1 = 95% Ebben az esetben is változik a standardhiba: σx = σ n = 4.430 ≅ 626 Ft, 50 a hibahatár: ± ∆ = z ∗ σ x = 2,00 ∗ 626 ≅ 1.250 Ft, és az intervallum alsó és felső határa is: [xa ± ∆] = [12.380 ± 1250] ≅ [11130〈 xa 〈13630] Ft Az intervallum szélessége = 2 ∗ ∆ = 2 ∗1.250 = 2500 ≅ [( x + ∆ ) − ( x − ∆ ) = 13630 − 11130 = 2500] Ft A táblabeli értéket, tekintettel arra, hogy az ismertetett két feltétel – száz vagy annál nagyobb elemszám és az alapsokaság szórásának ismerete – közül csak az egyik teljesült, nem a már bemutatott, hanem a Student eloszlás táblából kerestük ki. Ezt a táblát a számítások után ismertetjük ♥ Az 50 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.130 és legfeljebb 13.630 forintot költenek szórakozásra A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 207 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 208 ► 3. n1 = 100 és P2 = 90% Változik a táblából kikeresett érték: Φ(z ) = Ψ ( z ) + 1 0,90 + 1 = = 0,95 z i = 1,65 200, 2 2 ennek következtében a hibahatár is: ± ∆ = z ∗ σ x = 1,65 ∗ 443 ≅ 731 Ft, ill. az intervallum alsó és felső határa is: [xa ± ∆] = [12.380 ± 731] ≅ [11650〈 xa 〈13110] Ft Az intervallum szélessége = 2 ∗ ∆ = 2 ∗ 731 = 1.460 ≅ [( x + ∆ ) − (x − ∆ ) = 13110 − 11650 = 1460]Ft ♥ A 100 elemű EV minta alapján 90 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.650 és legfeljebb 13.110 forintot költenek szórakozásra 4. n1 = 100 és P3 = 98% Változik a táblából kikeresett érték: Φ(z ) = Ψ ( z ) + 1 0,98 + 1 = = 0,99 z i = 2,33 , 2 2 a hibahatár : ± ∆ = z ∗ σ x = 2,33 ∗
443 ≅ 1.031 Ft, ill. az az intervallum alsó és felső határa is: [xa ± ∆] = [12.380 ± 1032] ≅ [11350〈 xa 〈13410] Ft 200 A 10.3 sz táblában ez az első bekeretezett érték A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 208 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 209 ► Az intervallum szélessége = 2 ∗ ∆ = 2 ∗1.032 = 2060 ≅ [( x + ∆ ) − ( x − ∆ ) = 13410 − 11350 = 2060] Ft ♥ A 100 elemű EV minta alapján 98 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.350 és legfeljebb 13.410 forintot költenek szórakozásra Megfigyeléseink: • Az 1. és a 2 esetben az elemszám növekedése illetve csökkenése következtében – a fordított arányosság miatt – csökken, ill növekszik az intervallum szélessége. (Eredeti szélesség = 1740, megváltozott szélesség: n2 = 200 1220 (= szűkebb) és n3 = 50
2500 (= tágabb) • A 3. és a 4 esetben a becslési valószínűség növekedése illetve csökkenése következtében – az adatok egyező irányban való mozgása miatt – növekszik, ill. csökken az intervallum szélessége (Eredeti szélesség = 1.740, megváltozott szélesség: P2 = 90% 1460 (= szűkebb) és P3 = 98% 2.060 (= tágabb) Összefoglalva: a minta elemszámának növelése (csökkentése) az intervallum szélességét csökkenti (növeli); a becslés valószínűségének növelése (csökkentése) pedig az intervallum szélességét növeli (csökkenti). Az 50 elemű mintából történt számítás során a hibahatár meghatározásához – ahogy ezt jeleztük is – másik táblából kerestük ki az adott valószínűséghez tartozó értéket. Miért? A számtani átlag becslésének elméleti leírása során már említettük, hogy a számtani átlagot, mint valószínűségi változót többek között szórása is jellemzi. A szórást azonban egyes
esetekben ismertnek (korábbi teljeskörű felmérésből) tekinthetjük, azonban nem mindig (Nincs minden esetben korábbi, s főleg teljeskörű felmérés.) Tehát magát a szórást is mintából becsüljük, azaz a szórás is mintáról mintára ingadozó valószínűségi változó, és számításához egy nem független201 valószínűségi változót (= átlag) is felhasználunk. Ennek következménye, hogy a z -változó helyett t - 201 A függetlenség kérdésére a szórás becslésével kapcsolatban térünk ki. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 209 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 210 ► változót kell használnunk. Ennek értékeit tartalmazza a Student -féle tábla A t -változót változókat pedig szabadságfokuk (= n − 1 ) (is) jellemzi202. A becslés szabadságfoka203 a számítások során felhasznált független elemek számát jelenti. Ez itt
és most azért n − 1 , mert a t -változó számításánál szereplő értékek közül a szórás nem független valószínűségi változó. Példánkban (2 változat) ez 49 (v = n − 1 = 50 − 1) A Student-táblában ezt az értéket nem találjuk, ezért a hozzá legközelebb található 60-as szabadságfokhoz tartozó " t" értéket keressük ki. Ez a keresett érték: 2,0 A Student -táblával még nem dolgoztunk, ezért röviden ismertetjük szerkezetét. Az oldalrovatban található a szabadságfokok (v ) felsorolása A táblában található utolsó szabadságfok 120. E fölött gyakorlatilag nincs különbség a Student-tábla és a " z" -tábla értékei között. A tábla fejrovatában vannak a valószínűségi értékek. (Ezek száma jóval kevesebb, mint a " z" tábla esetén, de csak – a helyhiány miatt – az oktatási célra készült jegyzetekben) Ezt a táblát is egyoldalú becslésre adták meg, így itt is "el kell
tolni" az intervallum határokat, vagyis ha a becslés megadott valószínűsége 95 %, akkor abban az oszlopban kell a "t" értéket keresni, amelyiknek a fejlécében 0,975 található.204 10.5 sz tábla A Student eloszlás értékei, (t i ) , részlet v 0,55 0,60 0,70 0,75 0,80 0,90 0,95 0,975 0,99 0,995 1 0,158 0,325 0,727 1,000 1,376 3,08 6,31 12,71 31,82 63,66 40 0,126 0,255 0,529 0,681 0,851 1,30 1,68 2,02 2,42 2,70 60 0,126 0,254 0,527 0,679 0,848 1,30 1,67 2,00 2,39 2,66 120 0,126 0,254 0,526 0,677 0,845 1,29 1,66 1,98 2,36 2,62 ∞ 0,126 0,253 0,524 0,674 0,842 1,28 1,65 1,96 2,33 2,58 202 A z-változó szabadságfoka = végtelen, ezért ezzel nem kellett foglalkoznunk. részletesebben: 2.1811 204 Gyakorlatias megközelítés: z-tábla: valószínűség a tábla belsejében, leolvasandó érték az oldalrovatban (+fejlécben), t-tábla: valószínűség a fejlécben, leolvasandó érték a tábla belsejében. 203Lásd
A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 210 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 211 ► 10.22 Szórás becslése egyszerű véletlen (EV) mintából A szórás mintából történő számítása előtt két fontos elméleti kérdést kell tisztázni: • a függetlenség, • a szórás eloszlása. 1. Függetlenség Már említettük, hogy matematikai szempontból a mintavétel lehet visszatevéses (= ismétléses) és a visszatevés nélküli (= ismétlés nélküli). A viszszatevéses mintavételt alkalmazva minden választásunk N elem közül történik, azaz egyik elem mintába kerülése nem befolyásolja a másik elem mintába kerülését. Másképpen fogalmazva, bármelyik elem mintába kerülése független a többi elem mintába kerülésétől A visszatevéses mintavétel független mintát eredményez. A visszatevés nélküli mintavételnél a kiválasztható elemek
száma folyamatosan csökken. Egy-egy elem mintába kerülése javítja a többi elem mintába kerülési esélyeit, hiszen – ha igen csekély mértékben is –, de nő a kiválasztás valószínűsége. Vagyis ez a mintavételi módszer nem eredményez tökéletesen független mintát, de mert általában az alapsokaság elemeinek száma igen nagy és ehhez képest a minta elemeinek száma kicsi, azaz a kiválasztási arány alacsony (= 10 % alatti), ezért az így kapott mintát is függetlennek tekinthetjük. A függetlenség problémája azonban más megközelítésben is felmerül. Kérdés, hogy a mintákból számított statisztikai adatok (átlag, módusz, medián stb.) függetlenek-e? Azok a statisztikai adatok, amelyeknek számításához csak az alapsokaságból véletlenszerűen kiválasztott adatokat használunk fel (pl.: átlag) független valószínűségi változók Azok a statisztikai adatok (pl.: a szórás), melyeknek a számításához nemcsak az alapsokaságból
véletlenszerűen kiválasztott adatokat használunk fel, hanem olyanokat is, melyek értéke mintáról mintára ingadozik nem függetlenek. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 211 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 212 ► A számítás során felhasznált független elemek számát nevezzük szabadságfoknak. Mivel a szórás számításánál csak az átlag szerepel, mint nem független elem, ezért a szórás szabadságfoka: v = n − 1 .205 A szabadságfok figyelembevételével a szórás korábban megismert – de csekély mértékben módosult – képlete = becslőfüggvénye: Ha egyszerű számtani átlagot Ha súlyozott számtani átlagot számítottunk számítottunk: s= ∑ (x − xa ) 2 i n −1 = ∑d 2 i n −1 ∑ f (x − x ) ∑ f −1 2 s= i i a i = ∑fd ≈ ∑ f −1 i 2 i g i d i2 i A szórás (pont)becslőfüggvényeiben szereplő
betűk jelentése: xa = xi = a számtani átlag az átlagolandó értékek fi = az egyes értékek előfordulása (db, fő) a mintában gi = fi ∑f = i n = a minta elemeinek száma fi = n az egyes értékek előfordulási aránya a mintában (= relatív gyakoriság, %-os formában pedig megoszlási viszonyszám) di = az átlagolandó értékek és a számtanis átlag különbsége A képletek nevezőjében szereplő " −1" tagot a gyakorlatban csak kisminta (n〈100) esetén érvényesítjük, hiszen, ha n 〉 100 , akkor n és n − 1 között elhanyagolható a különbség.206 2. A szórás eloszlása A szórás eloszlására a szórás köré szerkesztendő intervallum miatt kell figyelnünk. A szórás nem normális eloszlású valószínűségi változó Jól látható ez, ha a 10.2 sz táblában szereplő egyszerű példánk szórásait ábrázoljuk 205 Fontos megjegyezni, hogy ha a minta elemszáma kisebb száznál (= kisminta), akkor az átlag
becslésénél is felvetődik a függetlenség problémája (különösen azért, mert ilyenkor nagyobb az esély a szélsőséges mintára), ahogy erről a t-tábla használatával kapcsolatban már volt szó. 206 Például 10 ≅ 3,16 és 11 ≅ 3,32 vagy 500 ≅ 22,36 és 501 ≅ 22,38 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 212 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 213 ► 10.6sz tábla a szórás értéke előfordulás 0,0 9 0,5 22 1,0 11 1,5 3 A 10.2 sz táblában szereplő N = 10 elemű alapsokaságból választott n = 2 elemű minták szórásainak megoszlása előfordulás (db) 25 20 15 Adatsor1 10 5 0 0 0,5 1 1,5 2 szórások (nincs mértéke.) 10.1 ábra Az ábra jobbra elnyújtott. Ezt az eloszlás-típust χ 2 (kh’ )2 -eloszlásnak nevezzük207 A másféle – aszimmetrikus – eloszlás-típus a számítások során másik tábla – "a χ 2 =
(kh’ )2 -eloszlású változó eloszlásának kvantilis értékei" – használatát teszi szükségessé. A tábla szerkezete – így az abban való keresés is – azonos a t-táblánál megismerttel. Az elméleti problémák tisztázása után íme a szóráshoz tartozó intervallum számításának képlete = becslőfüggvénye: (n − 1)s 2 〈σ 2 〈 (n − 1)s 2 χ2α χ α2 2 2 1− 207A minta elemszámának növelésével a szórások eloszlása is közelíti a normális eloszlást. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 213 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 214 ► A szórás intervallumának becslőfüggvényében szereplő betűk jelentése: σ = s= n = az alapsokaság becsülni a mintából becsült szórás a minta elemeinek száma kívánt szórása χ2α = 1− χ α2 = 2 2 táblabeli érték az intervallum alsó határához α = 1− P =
szignifikancia-szint táblabeli érték az intervallum felső határához P = a becslés valószínűsége BEMUTATÓ FELADAT Folytassuk a számtani átlag becslésénél megkezdett (10.2 sz tábla), az egyetemi hallgatók szórakozási kiadásaira vonatkozó példát! A szórás pontbecslése: ∑ f (x − x ) ∑ f −1 2 s= i i i a = 194.256000 ≅ 4430 Ft 100 − 1 Az intervallum meghatározásának lépései: 1. a táblabeli értékek kikeresése, 2. az intervallum határainak kiszámítása, megfogalmazása A számtani átlag intervallumának meghatározásához képest – a becslőfüggvényre nézve ez egyértelmű – kevesebb műveleti lépésre van szükségünk; de nem egy, hanem két különböző táblabeli értéket kell kikeresnünk, továbbá – és ez lényeges különbség – a számítás közvetlen eredménye nem a szórás, hanem annak négyzete (= variancia). Jelen feladatunkban, a becslés valószínűsége 95 % (= P ) , így a szignifikancia-szint
5 % (= α ) , ami azt jelenti, hogy a szórás alsó határának kiszámításához a hoz pedig a 1 − α 2 = 0,025 feliratú oszlopban, a felső határ kiszámításá- α = 0,975 feliratú oszlopban keressük ki a táblabeli érté2 ket. Mivel a szabadságfok 99 (= n − 1 = 100 − 1) , kerekítve 100, ezért a két kikeresett adat a az előbbi sorrendben: 74,2 illetve 129,6. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 214 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 215 ► 10.7 sz tábla ( ) A Khi-négyzet eloszlás χ i2 értékei, részlet v 0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,990 0,995 1 0,00 0,00 0,00 0,00 0,02 0,10 0,46 1,32 2,71 3,84 5,02 6,63 7,88 70 43,3 45,4 48,8 51,7 55,3 61,7 69,3 77,6 85,5 90,5 95,0 100,4 104,2 80 51,2 53,5 57,2 60,4 64,3 71,1 79,3 88,1 96,6 101,9 106,6 112,3 116,3 90 59,2 61,8 65,6 69,1 73,3 80,6 89,3 98,6 107,6 113,1 118,1
124,1 128,3 100 67,3 70,1 74,2 77,9 82,4 90,1 99,3 109,1 118,5 124,3 129,6 135,8 140,2 Így az intervallum: (n − 1)s 2 〈σ 2 〈 (n − 1)s 2 χ2α χ α2 2 2 1− 99 ∗ 4430 2 2 99 ∗ 4430 2 = 〈σ 〈 = 129,6 74,2 14.991243,1〈σ 2 〈 26184165,8 ⇒ ≅ [3872〈σ 〈5117] Ft ♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatóinak havi szórakozási kiadása legalább 3.870 és legfeljebb 5120 forinttal tér el (= kisebb vagy nagyobb) a szórakozásra átlagosan elköltött összegtől Figyeljük meg az intervallum aszimmetriáját! A mintából számított (= becsült) szórás és az alsó határ között 560 Ft, illetve a becsült szórás és a felső határ között 690 Ft a különbség. Ha számításainkat kisebb elemszámú mintából végeztük volna, a fenti két különbség között nagyobb lenne az eltérés; ha pedig nagyobb elemszámú mintával dolgoztunk volna, az eltérés kisebb lenne. 10.23
Az értékösszeg becslése egyszerű véletlen (EV) mintából A becslés célja – ahogy erről már a fejezet bevezetőjében is szó volt – egy sokasági jellemző értékének kiszámítása az egyetlen ismert minta alapján úgy, hogy az abból számított értéket – egy adott valószínűség mellett – vonatkoztatjuk a teljes sokaságra. Az átlag és a szórás esetében ez úgy teljesült, hogy a számítások végeredménye, a minta átlaga és a szórása egy- A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 215 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 216 ► ben a teljes sokaságra vonatkozó átlag és szórás is egy alsó és felső határ között. A minta értékösszegéről azonban soha nem mondhatjuk, hogy az a teljes sokaság értékösszege lenne. Gondoljuk el, meg akarjuk becsülni egy egyetemen a hallgatók közlekedési kiadásainak havi, vagy éves összegét,
az semmiképp nem azonos a mintában szereplő, lényegesen kevesebb számú hallgató kiadásainak összegével. A teljes sokaságra vonatkozó értékösszeget tehát csak két lépésben tudjuk meghatározni, így számításához feltétlenül ismernünk kell • vagy a sokaság elemeinek számát (= N ) , ekkor a becsült átlagból kapjuk meg az értékösszeget; n • vagy a minta kiválasztási arányát ⎛⎜ = ⎞⎟ , ekkor a mintára vonatkozó ⎝ N⎠ értékösszegből számítjuk ki a teljes sokaságra vonatkozót. A sokasági értékösszeg számításának (pont)becslőfüggvényei: N és x ismeretével n és x′ ismeretével N X ′ = N ∗ x 208 X′= N x′ n A sokasági értékösszeg számításának intervallum-becslőfüggvényei: [X ′ ± ∆] = N ∗ [xa ± ∆] [X ′ ± ∆] = N ∗ [x′ ± ∆′] = N ∗ [xa ± ∆] n n A sokasági értékösszeg becslőfüggvényeiben szereplő betűk jelentése: x′ = n ∗ x = x = X′ = a teljes
sokságra vonata minta sokaságra vonata mintából számított és a teljes kozó becsült értékösszeg kozó számított értékösszeg sokságra vonatkoztatott átlag N = ∆′ = n ∗ ∆ = n = a teljes sokság elema mintára vonatkozó értéka minta elemszáma száma összeg hibahatára ∆ = 208 A második képlet az elsőből – az összefüggések figyelembevételével – értelemszerűen adódik. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 216 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 217 ► az átlag hibahatára BEMUTATÓ FELADAT Folytassuk a számtani átlag becslésénél megkezdett (10.2 sz tábla), majd a szórás számításával továbbvitt, az egyetemi hallgatók szórakozási kiadásaira vonatkozó példát! Kiegészítő adat: a vizsgált egyetem hallgatóinak száma = 6250 (= 100 / 0,016) fő. Az értékösszeg pontbecslése és intervallumbecslése: X ′ = N ∗
x = 6.250 ∗12380 ≅ 77375000 Ft = 77,4 millió Ft [X ′ ± ∆] = N ∗ [xa ± ∆] = 6.250[12380 ± 868] ≅ [72,0〈 X ′〈82,8] millió Ft ♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói (6.250 fő) legalább 72,0 és legfeljebb 82,8 millió forintot költenek el havonta szórakozásra. 10.24 Sokasági arány becslése egyszerű véletlen (EV) mintából A nem homogén sokaságok valamely megkülönböztető ismérv alapján részsokaságokra bonthatók, ahogy a bemutató feladatban szereplő egyetem hallgatói is szórakozási kiadásaik nagysága alapján (és természetesen egyéb ismérvek alapján is). Az egyes részsokaságok aránya azonban mintáról mintára kisebb-nagyobb mértékben változhat Ezért ebben az esetben sem elégedhetünk meg a pontbecsléssel, hanem intervallumbecslést kell végezni, azaz meg kell állapítani, hogy az egyes részsokságok a teljes sokaság legalább és legfeljebb
hányad részét adják. Az egyes részsokaságok arányára vonatkozó becslést azonban csak úgy tudjuk elvégezni, ha a csoportképzésre használt ismérvváltozatokat alternatív-ismérvekké alakítjuk. Az egyik csoport azon elemeké, amelyek arányát éppen ki akarjuk számítani (= "1"-vel jelzett ismérvváltozat), a másik csoportot pedig a sokaság összes többi eleme (= "0"-val jelzett ismérvváltozat) alkotja. Ha például egy egyetem hallgatói közül azok arányának intervallumát akarjuk kiszámítani, akik az adott intézmény székhelyén szüleikkel élnek, akkor ők képezik az egyik részsokságot = "1"-vel jelzett ismérvváltozat; az összes többi hallgató pedig a másik részsokságot jelenti = "0"-val jelzett ismérvváltozat. Az alternatív ismérvek szerinti részsokaságokra való felbontás után a számítás menete azonos az átlag becslés lépéseivel, vagyis: 1. a sokasági arány, azaz az alternatív
ismérvek átlagának (= p ) és A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 217 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 218 ► 2. a szórásnak ( = s ) kiszámítása a mintából, 3. a standardhiba (= σ p ) meghatározása , 4. a táblabeli érték (= z ) kikeresése , 5. a hibahatár (= ± ∆ ) kiszámítása , 6. a becsült arányhoz tartozó intervallum (= [ p ± ∆ ]) felírása, megfogalmazása Átlagnak209 tekintjük alternatív ismérvek arányának meghatározása esetén az "1"-es ismérvváltozattal jelzett részsokaság mintából meghatározott arányát. Az alternatív ismérvek szórása pedig az alternatív részsokságok arányának mértani átlaga. A soksági aránynak és az arány szórásának (pont)becslőfüggvénye: arány szórás p= fk = n fk ∑f ≅ gi s= p∗q i A becsült arányhoz tartozó alapsokasági elemszám becslőfüggvénye:
N j = N ∗ pj [N j ] [ ± ∆ = N ∗ pj ± ∆p ] A sokasági arány, az arányra vonatkozó szórás és az alapsokasági elemszám becslőfüggvényeiben szereplő betűk jelentése: p= q = 1− p = s= a vizsgált részsokság az alternatív ismérvek az alternatív részsokaság mintából számított szórása aránya aránya Nj = n = a minta elemszáma 209 a becsült arányhoz tartozó alapsokasági elemszám (pontbecslés) N= az alapsokaság elemszáma x = p ∗1 + q ∗ 0 = p A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 218 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 219 ► BEMUTATÓ FELADAT Folytassuk a számtani átlag becslésénél megkezdett (10.2 sz tábla), az egyetemi hallgatók szórakozási kiadásaira vonatkozó példát! 10.8 sz tábla osztály- a hallgatók száma a mintában szórakozási kiadás közép ezer Ft / hó /fő xi fi – 5,0 3,5 6 5,1
– 8,0 6,5 10 8,1 – 11,0 9,5 18 11,1 – 14,0 12,5 35 14,1 – 17,0 15,5 15 17,1 – 20,0 18,5 11 20,0 – 21,5 5 összesen - 100 Határozzuk meg azon hallgatók arányát és számát, akiknek a havi szórakozási kiadása 15.000 Ft vagy annál magasabb! A feladat megoldása első ránézésre lehetetlennek tűnik, hiszen 15.000 forintos osztályköz határ nincs. Osszuk fel tehát azt az osztályközt, amelyik a megadott értéket tartalmazza! A felosztásnál azt feltételezzük, hogy az elemek egyenletesen helyezkednek el az osztályközön belül210. Így a megjelölt (szürke háttér, vastagabb keret) osztályköz a felbontás után két részből áll: 14,1 – 15,0 és 15,1 – 17,0, a részekbe tartozó gyakoriságok pedig: 5 és 10. Most már összegezhetjük a kritériumnak megfelelő előfordulásokat: f k = 10 + 11 + 5 = 26 , majd elvégezhetjük a megadott sorrendben a számításokat: 210 Mint a módusz számításánál. A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 219 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 220 ► 26 = 0,26 q = 1 − 0,26 = 0,74 100 2. s = pq = 0,26 ∗ 0,74 ≅ 0,44 s 0,44 3. σ p = = ≅ 0,044 n 100 5. ± ∆ = z ∗ σ p = 1,96 ∗ 0,044 ≅ 0,086 ⇒ 8,6% 211 1. p = 6. [ p ± ∆ ] = [26 ± 8,6] = [17,4 ; 34,6]% 100 7. N j ± ∆ = [0,174 ; 0,346] ≅ 1088〈 N j 〈 2163 fő 0,016 [ ] [ ] Ezzel a feladattal először a számtani átlag becslésével találkoztunk, ott közöltük a kivá- ⎛ ⎝ lasztási arány ⎜ = n⎞ ⎟ nagyságát (1,6 %), ezt az adatot használtuk fel most az alapsokaN⎠ ság elemszámának meghatározására (N = 6.250 fő) ♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állíthatjuk, hogy a vizsgált egyetem hallgatói közül legalább 1.088 és legfeljebb 2163 fő havonta 15.000 forintnál többet költ szórakozásra 10.25 Adott
intervallum-szélességhez (=adott hibahatárhoz) tartozó elemszám illetve valószínűség meghatározása (EV minta) Az eddig bemutatott példákban mindig adott mintából dolgoztunk és előre adott valószínűség mellett számítottuk ki a becsülni kívánt sokasági jellemzők aktuális értékét. A kérdés azonban „fordítva” is felmerülhet: 1. Mekkora mintát kell vennünk adott valószínűség mellett egy sokaságból, hogy a hibahatár egy előre megadott értéknél ne legyen nagyobb? 2. Hány %-os valószínűséggel kerül valamelyik sokasági jellemző adott mintaelemszám mellett egy előre meghatározott szélességű intervallumba? A fenti kérdéseinkre roppant egyszerűen válaszolhatunk. Mivel a kérdés „megfordult”, a válaszadás során is "visszafelé" kell gondolkodnunk! 211 Tekintettel arra, hogy ugyanazon feladatot folytattuk, és a valószínűségi előíráson sem változtattuk, új táblabeli értéket nem kellett keresni. A
dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 220 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 221 ► 1. Adott valószínűség, adott hibahatár elemszám? ⎡ A [xa ± ∆ ] = [xa ± z ∗ σ x ] = ⎢ xa ± z ∗ ⎣ σ ⎤ ⎥ képletből ismert az átlag (= x a ) és a n⎦ szórás (= σ ) , például egy korábbi mintavétel eredményeképpen; a valószínűség pedig és ennek következtében a " z" -érték adott. Fejezzük ki tehát az összefüggésből az ismeretlent, az elemszámot!212 ±∆ = z∗ ⎛ z ∗σ ⎞ σ z ∗σ ⎟ n= n=⎜ ⎝ ∆ ⎠ ∆ n 2 213 2. Adott elemszám, adott hibahatár valószínűség? ⎡ Az előbbiekben már felírt [xa ± ∆ ] = [xa ± z ∗ σ x ] = ⎢ xa ± z ∗ ⎣ σ ⎤ ⎥ képletből a n⎦ címben megadott feltételek alapján a valószínűség ismeretlen volta miatt a " z" -érték a kiszámítandó adat.
Fejezzük ki, tehát ezt! ±∆ = z∗ σ n z= ∆∗ n σ Ha egyoldalú becslést végeztünk, akkor a képlet alapján kiszámított z értékhez tartozó valószínűség kikeresésével választ kapunk a feltett kérdésre. Ha azonban kétoldalú becslést végzünk akkor még nem vehetjük kézbe a táblát. A kiszámított " z" -értékhez tartozó Φ (z ) értéket át kell alakítanunk214, ennek képlete: P = Φ (z ) − (1 − Φ (z )) 212Lehet, hogy ez a megközelítés túlságosan matematikai jellegű, de egyrészt a statisztika a matematikára épül, másrészt a statisztika-elmélet részletesebb ismerete nélkül – talán – így a legegyszerűbb. 213 A betűjelek a korábbi képletekből mind ismertek. 214Ha szükséges, lapozzon vissza a számtani átlag becsléséhez! (A táblában való keresésről leírt tudnivalókhoz.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 221 ► Statisztika Becslés A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 222 ► BEMUTATÓ FELADAT215 A vizsgált hallgatók szórakozási kiadásának becslésekor legyen az előre meghatározott hibahatár 400 Ft. 1. A keresett elemszám (a valószínűség az eredeti): • kétoldalú becslést feltételezve: ⎛ z ∗ σ ⎞ ⎛ 1,96 ∗ 4.430 ⎞ n=⎜ ⎟ ≅ 471 fő ⎟ =⎜ 400 ⎠ ⎝ ∆ ⎠ ⎝ 2 2 • egyoldalú becslést feltételezve: ⎛ z ∗ σ ⎞ ⎛ 1,65 ∗ 4.430 ⎞ n=⎜ ⎟ ≅ 334 fő ⎟ =⎜ 400 ⎠ ⎝ ∆ ⎠ ⎝ 2 2 2. A keresett valószínűség (az elemszám az eredeti): • kétoldalú becslést feltételezve: 400 ∗ 100 ≅ 0,90 σ 4430 Φ ( z i ) = 0,8159 z= ∆∗ n = Ψ ( z i ) = Φ (z i − (1 − Φ ( z i ))) = 0,8159 − (1 − 0,8159) = 0,6318 • egyoldalú becslést feltételezve: 400 ∗ 100 ≅ 0,90 σ 4430 Φ ( z i ) = 0,8159 z= ∆∗ n = ♥ Ha az a cél, hogy a hibahatár 868 Ft-ról (kétoldalú becslés) ill. 731 Ft-ról
(egyoldalú becslés) 400 Ft-ra csökkenjen (= szűkebb legyen az intervallum), akkor 95 %-os valószínűség mellett 471 (kétoldalú becslés) ill. 334 (egyoldalú becslés) elemű EV mintát kell venni az alapsokaságból. 215 Gyakorlati megoldás: az ilyen jellegű feladatoknál mindig „z”-táblával dolgozunk, ui. több valószínűségi adat közül válogathatunk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 222 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 223 ► ♥ Ha az a cél, hogy a hibahatár 868 Ft-ról (kétoldalú becslés) ill. 731 Ft-ról (egyoldalú becslés) 400 Ft-ra csökkenjen (= szűkebb legyen az intervallum), akkor az alapsokaságból vett 100 elemű EV minta alapján csak 63 (kétoldalú becslés) ill. 81 %-os (egyoldalú becslés) valószínűség mellett igazak az intervallumhatárok.216 10.26 Korrekciós tényezők 1. A mintavétel egyik ismertetett
módszere az ismétlés nélküli (visszatevés nélküli) kiválasztás Alkalmazásának előnye, hogy elkerülhető egyetlen elemnek többszöri mintába kerülése, és ezzel a valóságot torzan tükröző minta létrejötte. Ezzel szemben hátránya, hogy a kiválasztás során a függetlenség követelménye sérül Azt már tudjuk, hogy az alapsokaság elemeinek (= N ) nagy száma, a szó szoros értelemben vett sokaság és ehhez n viszonyítva a minta elemeinek (= n ) alacsony száma ⎛⎜ 〈10% ⎞⎟ a független⎝N ⎠ ség sérüléséből adódó problémákat enyhíti. Vannak azonban olyan esetek, amikor vagy az alapsokaság nem igazán nagy tömegű, vagy a kiválasztási arány nem 10 % alatti, ilyenkor számítási eredményeink pontosítása érdekében korrekciós tényezőt kell alkalmaznunk. A korrekciós tényezőt (= k ) számításaink során a standardhiba meghatározásánál iktatjuk be a műveleti sorrendbe. Képletét bizonyítás217 nélkül
közöljük k= N −n ≅ N −1 1− n N A korrekciós tényező gyakorlatban alkalmazott egyszerűsített képlete (= bekeretezve) egyértelműen mutatja, hogy az ismétlés nélküli kiválasztás standard hibája, ebből következően pedig – azonos valószínűségi követelmény mellett – hibahatára is kisebb, azaz szűkebb intervallumba kerül a becsült soksági jellemző.218 216 Az elemszámra és valószínűségre vonatkozó eredmények minden külön magyarázat nélkül logikusan következnek a számtani átlag becslésekor levezetett II. bemutató feladat megállapításaiból. 217A bizonyítás a valószínűség számítással foglalkozó tudományos irodalomban és egyes matematikai tankönyvekben is megtalálható. 218 A gyök alatti tényező mindenképpen kisebb egynél. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 223 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 224
► A következő (10.8 sz) kis tábla pedig azt szemlélteti, miért is van lehetőség 10 % alatti kiválasztási arány esetén a korrekciós tényező elhagyására Alacsony kiválasztási arány mellett az ismétléses (számolás a korrekciós tényező nélkül) és az ismétlés nélküli kiválasztás (számolás a korrekciós tényezővel) eredménye között rendkívül csekély az eltérés.219 10.9 sz tábla kiválasztási arány (%) a korrekciós tényező értéke 50 0,707 30 0,837 20 0,894 10 0,949 5 0,975 4 0,980 2 0,990 1 0,995 2. Korrekciós tényezőt – de másféle képlettel és módon – alkalmazunk abban az esetben is, ha a becsülni kívánt sokasági arány nem folytonos eloszlású sokaságra vonatkozik, pl.: ha a hallgatók érdemjegyek220 szerinti eloszlását vizsgáljuk. A korrekciós tényezőt ebben az esetben a pontbecslésnél iktatjuk a számítás menetébe p= fk 1 + n 2n 221 Ha a minta elemszáma alacsony, akkor
alkalmazása mindenképpen indokolt, ha azonban n elég nagy szám használata nem módosítja számottevően az eredményt. 219A végső kerekítések során sokszor nagyobb eltéréseket okozunk. A korrekciós tényező alkalmazására itt feladatot nem mutatunk be. 220 Az érdemjegyek egész számok, a tapasztalati eloszlásfüggvénynek szakadásai vannak. 221 A képletben szereplő betűjelek már ismertek. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 224 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 225 ► 10.27 Arányos rétegzés (AR) Rétegzett kiválasztás alkalmazására akkor kerülhet sor, ha az alapsokaságról készült nyilvántartásában az egyes elemekre vonatkozóan olyan többlet információ (= megkülönböztető ismérv) is található, melynek alapján egyértelműen elvégezhető a részsokaságokra (= rétegekre) bontás. A rétegzett kiválasztás egyik, már
említett előnye, hogy a sokaságról biztosan pontosabb képet kapunk, mint az egyszerű véletlen mintavétel esetén, hiszen biztosított, hogy mindegyik rétegből kerül elem a mintába. A rétegzett mintavétel ezen előnyét a mintavétel költségeinek csökkentésére is felhasználhatjuk. Ha ugyanis lemondunk a pontosabb eredményről, azaz megelégszünk az azonos szélességű intervallummal, akkor ez kevesebb elemet kell kiválasztani és megfigyelni. A rétegzett kiválasztási módszer számítási képleteit itt csak a több szempontból is legegyszerűbb, úgy is fogalmazhatunk, hogy a legkézenfekvőbb, arányos rétegzésre vonatkozóan mutatjuk be. A számítások menete – és ez nemcsak az arányos rétegzésre igaz – mindig két részre tagolódik. Először a rétegeken belül dolgozunk, másodszor pedig a rétegek eredményeiből számítjuk ki a teljes sokaságra jellemző adatokat Mivel az egyes rétegekből egyszerű véletlen kiválasztással történik
a mintába kerülő elemek kiválasztása, új képletekkel ehhez a munkaszakaszhoz nem kell megismerkedni. A második munkaszakaszban a rétegekre jellemző statisztikai jellemzőkből a teljes sokságra vonatkozó adatok az alábbiak szerint határozhatók meg: számtani átlag standardhiba xa = ∑ w j x j σx = 1 ∑ w jσ 2j n Az arányos rétegzésre vonatkozó becslőfüggvényekben szereplő betűk jelentése: n = xj = nj = xa = teljes sokaság az egyes réte∑ n j = a minta az egyes rétegek elemátlaga gek átlaga száma a mintában elemszáma A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 225 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok wj = Nj N = nj N = ∑N n = az egyes rétegek aránya a teljes sokaságban és a mintában σj σx Vissza ◄ 226 ► Nj = j = a teljes sokság elemszáma az egyes rétegek elemszáma az alapsokaságban = az átlag = az egyes standard hibája
rétegek szórása Az arányosan rétegzett minta átlaga az egyes rétegek átlagának súlyozott számtani átlaga, ahol a súlyként a rétegek alapsokaságbeli (= minta sokaságbeli) arányát használjuk. Vegyük észre, hogy • a teljes sokaságra vonatkozó standardhiba közvetlenül a rétegek szórásából számítható; • továbbá, hogy a ∑N σ ∑N w jσ = j 2 j 2 j = σ B szorzat nem más, mint j egy belső szórás (=a rétegek szórásának négyzetes átlaga). S mert a belső szórás kisebb222 a teljes szórásnál, matematikai magyarázatot is kapunk arra, hogy miért is kisebb a az arányos rétegzés hibája, mint az egyszerű véletlen mintáé. Természetesen, ha ismerni akarjuk a rétegek átlagához tartozó intervallumok alsó és felső határait, akkor a szokásos módon kiszámíthatjuk az egyes rétegek standard hibáit is, illetve, ha szükséges a teljes sokaság szórása is kiszámítható a rétegek szórásainak súlyozott négyzetes
átlagaként, ahol súlyként a rétegek teljes sokaságbeli arányát (= a minta sokaságbeli arányát) használjuk. Figyelembe véve a σ T = (σ K + σ B ) összefüggést, tudjuk, hogy σ B ≤ σ T , vagyis a kétféle mintavétel szórása és így standard hibája legfeljebb azonos lehet, de többnyire a rétegzett mintavételé a kisebb. (A teljes és a belső szórás abban az esetben azonos, amikor tulajdonképpen feleslegesen rétegeztünk, mert az egyes rétegek átlagai megegyeznek egymással és a főátlaggal is, amiből pedig az következik, hogy a külső szórás nulla, továbbá az is, hogy a rétegzéshez felhasznált megkülönböztető ismérv, nem befolyásolja a rétegekre jellemző paraméterek alakulását.) 222 2 2 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 226 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 227 ► Záró megjegyzés Ha egyenletes rétegzéssel (ER)
dolgozunk, akkor a teljes sokaságra vonatkozó átlag becslése ugyanúgy történik, mint az AR esetében (= a rétegek átlagának alapsokaságbeli aránnyal súlyozott átlaga), de a standard hiba számításához a teljes szórást kell ismerni. BEMUTATÓ FELADAT A számtani átlag becslésénél bemutatott példa folytatása. A hallgatók szórakozási kiadásának átlagát nemenkénti bontásban is kiszámoltuk A becslési valószínűség 95 %-os223 10.10 sz tábla a hallgatók aránya a teljes sokságban és a mintában a hallgatók neme % wj = a hallgatók átlaga a teljesítmények szórása ezer Ft Nj N = nj n xj = ∑fx ∑f i ∑ f (x − x ) ∑f 2 i σj = i i j i i férfi 61 ≅ 13.800 ≅ 4.010 nő 39 ≅ 10.200 ≅ 4.100 együtt 100 ≅ 12.400 A hallgatók átlagos teljesítményének standard hibája AR mintavétel: σx = 1 n ∑w σ j 2 j = ( ) 1 4045 ∗ 0,61∗ 4.010 2 + 0,39 ∗ 4100 2 ≅ ≅ 405 Ft 100 100 A 95 %-os
becslési valószínűség esetén – az előző feladatokban már kikeresett – " z"− érték: 1,96 223 Ha más valószínűséget választanánk, nem látnánk egyértelműen az EV és az AR mintavételből adódó különbséget. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 227 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 228 ► A becsült érték hibahatára: ± ∆ = z ∗ σ x = 1,96 ∗ 405 = 810 Ft A hallgatók átlagos szórakozási kiadásának intervalluma: [x a [ ± ∆ ] = 12.380 ± 810 ] ≅ [11.570〈 X 〈13190] Ft ♥ 100 elemű AR minta alapján 95 %-os valószínűséggel állítjuk, hogy a vizsgált egyetem hallgatóinak havi szórakozási kiadása legalább 11.570 és legfeljebb 13190 Ft Az intervallum szélessége = 2∆ = 2 ∗ 810 ≅ 1620 Ft (Emlékeztetőül az EV minta intervallumának szélessége = 2∆ = 2 ∗ 868 ≅ 1740 Ft) A hallgatók
átlagos szórakozási kiadásaira vonatkozó intervallum számítása ER mintavétel esetén, lépésenként: σ B = w jσ 2j = 0,61∗ 4.010 2 + 0,39 ∗ 4100 2 ≅ 445 Ft ∑ w (x − x ) ∑w 2 σK = j j = 0,61(13.800 − 12380 ) + 0,39(10200 − 12380 ) = 1756 Ft 2 2 j σ T = σ B2 + σ K2 = 4.045 2 + 1756 2 = 4415 ≅ 4410 Ft σx = σT n = 4410 = 441 Ft 100 ∆ = z ∗ σ x = 1,96 ∗ 441 = 864 Ft [x ± ∆] = [12.380 ± 864] ≅ [11510〈 X 〈13240] Ft ♥ 100 elemű ER minta alapján 95 %-os valószínűséggel állítjuk, hogy a vizsgált egyetem hallgatóinak havi szórakozási kiadása legalább 11.510 és legfeljebb 13.240 Ft Az intervallum szélessége = 2∆ = 2 ∗ 864 ≅ 1730 Ft (Emlékeztetőül az EV minta intervallumának (2∆ = 2 ∗ 868 ≅ 1.740 ) és az AR intervallumának (2∆ = 2 ∗ 810 ≅ 1.620 ) szélessége Ft Összehasonlítva az intervallumszélességek (szórások, standardhibák, hibahatárok): AR 〈 ER 〈 EV A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 228 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 229 ► A bemutató feladatban a háromféle mintavétel intervallumszélessége csak csekély eltérést mutat. Ennek oka, hogy a két réteg (férfiak, nők) átlagos szórakozási kiadása és annak szórása is igen hasonló. A hallgatók neme mindössze 15,9 %-ban befolyásolja a hallgatók szórakozási kiadását224 10.3 Gyakorló feladatok 1. feladat Mintavételes eljárással vizsgáljuk egy egyetemen különböző szakokon tanuló diákjainak teljesítményét matematikából. 10.11 sz tábla a minta adatai: villamosteljesítmény mérnökök % fő - 50 30 51 – 60 20 61 – 70 10 71 – 80 10 81 – 90 6 91 – 4 összesen 80 gépészinformatikus közgazdász mérnökök 20 20 15 10 3 2 70 34 68 34 22 11 11 180 35 88 88 35 28 6 280 1. Becsülje meg szakonként a hallgatók a teljesítményének
átlagát! 2. Becsülje meg szakonként a hallgatók a teljesítményének szórását! 3. Feltételezzük, hogy a mintavétel egyenletes rétegzéssel történt, becsülje meg az egyetemi átlagot, ha a kiválasztási arány 4 %! 4. Feltételezzük, hogy a mintavétel arányos rétegzéssel történt, becsülje meg az egyetemi átlagot, ha a kiválasztási arány 4 %! 5. Becsülje meg a villamosmérnök hallgatók esetében a 80 % feletti teljesítmény nyújtók arányát és számát, ha a kiválasztási arány 4 %! 224 H 2 mutatót számítottunk. Ha szükséges, lapozzon az ismérvek közötti kapcsolatok fejezethez (Stat. I) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 229 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 230 ► 6. Vegye alapul a gépészmérnök hallgatókra végzett átlagbecslés (P =95 %) eredményeit! Változzon a hibahatár kétszeresére, majd felére! Milyen
valószínűség mellett (elemszám az eredeti) tudja garantálni az adott intervallumszélességet? Hány elemű mintát kell venni (a valószínűség az eredeti? Ha szorgalmas, a fenti adatokból még egyéb becslési feladatokat is elvégezhet. Minden becslési feladatot P = 90%, majd P = 95 %, végül P = 98 % valószínűségen is végezzen el! 2. feladat A háztartások villamosenergia-fogyasztásának vizsgálatára egyik megyénkben 1,4 % -os ( n = 200) EV mintát vettek. A minta adatai: 10.12 sz tábla fogyasztás kWh – 80 81 – 100 101 – 120 121 – 160 161 – 200 201 – 300 301 – összesen a háztartások aránya a mintában % 5,0 12,5 20,0 22,5 20,0 12,5 7,5 100 1. Becsülje meg a háztartások átlagos villamosenergia-fogyasztását! Egyoldalú és kétoldalú intervallumot is szerkesszen! 2. Becsülje meg a háztartások átlagos villamosenergia-fogyasztásának szórását! 3. Becsülje meg az egyes fogyasztási kategóriákba (= osztályközökbe) tartozó
fogyasztók számát! 4. Becsülje meg az összes fogyasztást! 5. Milyen intervallumok adódnának az átlagra (a felsorolt valószínűségeken), ha a minta 2,5 %-os kiválasztású lenne? A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 230 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 231 ► Minden becslési feladatot P = 90%, majd P = 95 %, végül P = 98 % valószínűségen is végezzen el! 3. feladat Egy gazdaságban, ahol két fajta almát termesztenek, a 2000 almafa össztermését kívánják megbecsülni. A két fajtából arányosan vesznek mintát a fák száma fajta db A B összesen 1500 500 minta 150 minta átlaga kg /fa 107 100 szórása 25 18 1. Becsülje meg egy almafa átlagtermését! 2. Becsülje meg a gazdaság teljes almatermését! A becslések eredményeit 95 %-os megbízhatósági intervallumban akarjuk ismerni. 4. feladat Egy régióban 6.000 lakás épült az
elmúlt évben Az újonnan épült lakások közül 500 lakást választottunk ki rétegzett mintavétellel az átlagos kivitelezési idő becslésére. A minta adatai: az új lakások száma kivitelezés vállalkozó által egyéni a régióban db 4.000 2.000 a mintában 250 250 a kivitelezési idő a mintában átlaga szórása hó 15 5 24 6 Becsülje meg 5 %-os megbízhatósági szinten az átlagos kivitelezési időt! • a vállalkozói kivitelezésben épült lakásokra vonatkozóan, • az egyéni kivitelezésben épült lakásokra vonatkozóan, • az összes lakásra vonatkozóan! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 231 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 232 ► 10.4 Összefoglalás becslés fajtái: történhet: = valamely alapsokasági jellemző meghatározása mintasokasági adatok ismeretében = az eredmény egyetlen szám1. pontbecslés adat = az eredmény
egy minimum 2. intervallumbecslés és egy maximum érték (tól – ig) egyszerű véletlen mintából225 rétegzett mintából egyenletes arányos EV a számtani átlag becslése lépések standardhiba hibahatár ∑ ∑ becslőfüggvény: f i xi xa = = (a leggyakrabban haszf i nált formák) 1. pontbecslés 2. standardhiba (= átlagos hiba) 3. hibahatár (= maximális hiba) 4. intervallum σ ∑g x i i s n becslőfüggvény: σx = becslőfüggvény: ∆ = z ∗ σ x vagy ∆ = t ∗ σ x n ≅ z-tábla ha n〉100 és σ = ismert t-tábla ha n〈100 vagy σ = nem ismert szabadságfok valószínűség = a becsléshez használt független elemek száma pl.: az átlagbecslésnél = (n-1) – egyoldalú becslésnél átalakítás nél= adott feltétel kül, – kétoldalú becslésnél átalakítással keresés a táblákban szabadságfok valószínűség 225 Vannak egyéb mintavételi módok (többet fel is soroltunk), de számítási feladatokat csak ezekre
vonatkozóan mutattunk be. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 232 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok a szórás becslése ► [x − ∆;+∞ ) vagy (− ∞; x + ∆] becslőfüggvény: (a leggyakrabban használt) s= szabadságfok (n-1) intervallum 233 [x ± ∆] egyoldalú kétoldalú intervallum ◄ Vissza ∑ f (x − x ) ∑ f −1 2 i i = a i ∑fd ≈ ∑ f −1 i 2 i g i d i2 i (n − 1)s 2 〈σ 2 〈 (n − 1)s 2 χ2α χ α2 2 2 1− A négyzetgyökvonásról ne feledkezzünk meg! χ 2 -tábla Két értéket kell kikeresni. a sokasági arány becslése becslőfüggvény: fk 1− fk , q= , n n p + q =1 feltétel: alternatív ismérvekké alakítás f k = amire a vizsgálat p= vonatkozik n − f k = összes többi lépések: ua. mint számtani átlag, de az értékösszeg becslése kiindulás a számtani átlag intervallumából [X ′ ±
∆] = N ∗ [x ± ∆] az alapsokasági elemszám becslése kiindulás a sokasági arány intervallumából [N A dokumentum használata | Tartalomjegyzék | Táblázatok s= j p∗q ] ± ∆ = N ∗ [ p ± ∆] Vissza ◄ 233 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok adott hibahatárhoz elemszám (EV) Vissza ◄ 234 ► a hibahatár képletét át kell rendezni n-re ⎛ z ∗σ ⎞ n=⎜ ⎟ ⎝ ∆ ⎠ 2 a hibahatár képletét át kell rendezni z-re, z= adott hibahatárhoz valószínűség (EV) ∆∗ n σ majd kikeresni a z-hez tartozó valószínűséget, – ha egyoldalú a becslés, ez az eredmény – ha kétoldalú a becslés, át kell alakítani P = Φ (z ) − (1 − Φ (z )) ER AR a standardhiba számításánál a képletben szereplő szórást a külső, belső és teljes szórás megismert összefüggése alapján számítjuk a standardhiba számításánál a képletben szereplő szórás = az un.
belső szórás σx = A dokumentum használata | Tartalomjegyzék | Táblázatok 1 w jσ 2j ∑ n Vissza ◄ 234 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 235 ► 10.5 Mintapéldák korábbi vizsgadolgozatokból226 1. minta 80 véletlenszerűen kiválasztott lakótelepi lakás vízfogyasztását figyelték meg (m3 / hónap / lakás). Az átlagos fogyasztás 12,4m3 3,7m3 szórás mellett Végezzen intervallumbecslést mindkét pontbecslés mellé (P = 98 %)! Fogalmazza meg az átlagra vonatkozó adatok jelentését! 1. intervallum 2. intervallum megfogalmazás Ha az átlagra vonatkozó becslés estén ∆ = ±1,1 adódott volna, hány %-os valószínűséggel tudná az eredményeket „garantálni”? valószínűség indoklás Válaszoljon röviden! Milyen fajtái és milyen előnyei vannak a rétegzett mintavételnek? fajták előnyök 2. minta Egy konzervgyár zöldborsót exportál. A szabvány szerinti
töltési tömeg 3000 g, 50 g szórás mellett. Egy véletlenül kiválasztott napon a délelőtti és a délutáni műszakban is 3030 elemű EV mintát vettek A minták adatai: • • délelőtt: átlagos töltési tömeg 3050 g, 52 g szórás mellett délután: átlagos töltési tömeg 2950 g, 49 g szórás mellett 226 Ahogy már az előző fejezetekben is utaltunk rá, a dolgozatíráskor a számításokhoz és a szöveges válaszokhoz lényegesen több (= elegendő) hely áll majd rendelkezésére, mint amennyit itt az üres rovatok jeleznek. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 235 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 236 ► P = 90 % Számítsa ki, hány elemű mintát kellene venni (P = mint eddig), hogy az intervallum szélessége felére csökkenjen! A délelőtti műszak adataival dolgozzon! Magyarázza meg a kapott eredményt! Válaszoljon! Kaphat-e eltérő
eredményt, ha a délutáni műszak adatival dolgozik. (Ne számoljon, gondolkodjon!) Számítsa ki, milyen valószínűséggel kellene dolgoznia (elemszám = az eredeti), ha az intervallum szélességét duplájára akarná növelni! A délutáni műszak adataival dolgozzon! Magyarázza meg a kapott eredményt! 3. minta év munkanélküliek fő - 20 48 20 – 25 90 25 – 30 120 30 – 40 180 40 – 50 150 50 - 12 összesen 600 korcsoport 95 %-os valószínűség mellett adjon becslést a munkanélküliek átlagos életkorára ill. annak szórására! átlag A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 236 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Becslés Vissza ◄ 237 ► szórás 98 %-os valószínűség mellett adjon becslést a 40 év feletti munkanélküliek arányára és létszámára, ha a kiválasztási arány 2 ezrelékes! arány létszám Fogalmazza meg az előzőekben
kiszámított adatok jelentését! átlag + létszám arány + létszám 4. minta Az alábbi kijelentésekről döntse el, hogy igazak-e! A kijelentések melletti üres oszlopba írjon I (= igaz) vagy H (= hamis) betűt! kijelentések I/H 1. Reprezentatív felvétel esetén a megfigyelni kívánt sokságból tetszés szerint veszünk mintát. 2. Reprezentatív adatgyűjtés esetén az alapsokaság elemeinek öszszességére vonatkozik az adatgyűjtés. 3. Reprezentatív adatgyűjtés esetén a kapott eredményeket az alapsokaságra vonatkoztatjuk. 4. Reprezentatív adatgyűjtés esetén az alapsokaság akár 50 – 100 elemű is lehet. 5. A reprezentatív adatgyűjtés során nincs jelentősége annak, hogy hány elemű mintát választunk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 237 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza 6. A reprezentatív adatgyűjtéssel való vizsgálódást a
matematika fejlődése, konkrétan a valószínűségszámítás elméleti fejlődése teszi lehetővé. 7. A mintából számított adatokat mindenféle megfontolás nélkül vonatkoztathatjuk a teljes sokaságra. 8. A mintába került elemek számának meghatározásakor két ellentétes igénynek (minél pontosabb eredmény, alacsony költéség) kell eleget tennünk. ◄ 238 ► 5. minta Egy egyetemi szak hallgatóinak (EV) teljesítménye matematikából az első zárthelyi dolgozat alapján: % villamosmérnökök fő - 50 30 51 – 60 20 61 – 70 10 71 – 80 10 81 – 90 6 91 – 4 összesen 80 teljesítmény 1. Számítsa ki a hallgatók teljesítményének átlagát! 2. Számítsa ki a hallgatók teljesítményének szórását! 3. Mind az átlagot, mind a szórást határozza meg pont- és intervallumbecsléssel (P = 95 %, kétoldalú becslés) is! 4. Fogalmazza meg mindkét intervallumbecslés eredményét! A kiszámított adatokat és a
számítás részeredményeit is írja az eredménytábla megfelelő rovatába! Minden részeredményt 3 tizedesig számítson, és 2 tizedesre kerekítve használja tovább! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 238 ► Statisztika Becslés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 239 ► Ha az eredmény-tábla valamely rovatába nem kerülhet adat, akkor abba tegyen egy vízszintes vonalat! Ha olyan szabadságfokkal kell dolgoznia, amit nem talál meg a megfelelő statisztikai táblában, akkor mindig FELFELÉ kerekítsen (= az adott szabadságfok feletti adatnál keresgéljen a táblában). eredmény-tábla pontbecslés intervallumbecslés átlag szórás átlag szórás standard hiba valószínűség (együtthatós formában) szabadságfok táblabeli érték hibahatár az intervallum alsó határa az intervallum felső határa az intervallum szélessége A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 239 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 240 ► 11. Hipotézisellenőrzés = statisztikai próbák A statisztikai becslések során a vizsgált sokaságok egy-egy jellemzőjének megismerése érdekében a teljes sokaságból mintát veszünk. Ugyanakkor mindig van egy előzetes feltevésünk (= hipotézisünk) is a vizsgált paraméterre vonatkozóan. A két érték – a mintából származó és az előre megadott – azonban nem feltétlenül azonos "számtani" értelemben227, ennek ellenére a statisztikus még nyilatkozhat azok egyezőségéről. A statisztikai egyezőség ugyanis azt jelenti, hogy a mintából származó érték benne van egy előre meghatározott, az előzetesen feltételezett érték körül elhelyezkedő intervallumban (= konfidencia intervallum). Feltevéseink nemcsak paraméterekre (átlag, arány stb.)
vonatkozhatnak, hanem a sokaságok eloszlására is. A hipotézisellenőrzés (= hipotézisvizsgálat = tesztelés) célja pedig az, hogy feltevéseink helyességéről meggyőződjünk, vagy éppen azok elvetéséről döntsünk Az ellenőrzés során tehát a mintából számított statisztikai jellemzőket egy korábbi teljes körű felvétel eredményeihez, az esetleg létező normaértékekhez, egy másik mintavétel eredményeihez hasonlítjuk. Ennek során a kérdés mindig úgy merül fel, hogy az eredmények közötti számszerű eltérést lényegesnek (= szignifikánsnak) tekintjük-e, vagy elhanyagolható mértékűnek (= nem szignifikánsnak). Az összehasonlítás megoldására szolgálnak a statisztikai próbák Fontos tudnunk, hogy a jegyzetünkben leírt ellenőrzési módszerek mind a sokaság normális eloszlását feltételezik, amiről már ezen próbák elvégzése előtt meg kell győződnünk. Erre szolgál az illeszkedésvizsgálat 227 A mintabeli érték
lehet kisebb és nagyobb is, azaz nincs szó a számadatok utolsó tizedesjegyig való tökéletes azonosságáról. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 240 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 241 ► 11.1 A hipotézisellenőrzés alapfogalmai A hipotézisellenőrzés első lépése feltevéseink matematikai formában való megfogalmazása. Ha például azt akarjuk ellenőrizni, hogy egy cukorkát csomagoló gép egy-egy zacskóba valóban a szabványban megadott menynyiséget rakja-e, akkor egyszerű véletlen mintát veszünk egy véletlenül kiválasztott időpontban. Majd a számítások (= átlagos töltősúlyra, ill annak szórására vonatkozó intervallumbecslés) befejezése után összehasonlítjuk a mintából adódó átlagot ( = x a ) a szabványban előírt értékkel (= X 0 ) . Ha a két érték megegyezik (= nincs
szignifikáns eltérés), azaz a gép az előírásoknak megfelelően dolgozik, akkor különbségük határértéke nulla. Matematikai formában: lim(X a − X 0 ) = 0 Az előbbiekben kifejtett gondolatból kiindulva kapjuk hipotézis-felírásunk általános alakját, és ebből a felírásból adódik hipotézis neve: nullhipotézis. Az ellenőrzés során azonban soha nem elég egyetlen hipotézist felírnunk. Feltevéseinket (= nullhipotéziseinket) mindig egy ellenhipotézissel, azaz alternatív hipotézissel szemben kell megfogalmaznunk, méghozzá úgy, hogy a két feltevés megvalósulása tökéletesen kizárja egymást. Az alternatív hipotézis lehet egyoldalú és kétoldalú is, sőt megfogalmazhatunk konkrét ellenhipotézist is. Statisztikai hipotézisek matematikai formában: alternatív hipotézisek nullhipotézis H 0 : xa = X 0 228Jegyzetünkben kétoldalú H 1 : xa ≠ X 0 egyoldalú konkrét228: baloldali jobboldali H 1 : xa 〈 X 0 H 1 : xa 〉 X 0 H 1
: xa = X 2 ezzel a az esettel nem foglalkozunk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 241 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 242 ► A hipotézisek felírásában szereplő betűk jelentése: H0 = a nullhipotézis jele xa = H1 = az alternatív hipotézis jele a mintából számított sokasági jellemző, itt átlag X0= X2 = az előre megadott (feltételezett) sokasági jellemző, itt átlag egy másik előre megadott (feltételezett) sokasági jellemző, itt átlag Azt, hogy a két állítás, azaz a nullhipotézis és az alternatív hipotézis közül melyiket fogadjuk el, statisztikai próbákkal döntjük el. A statisztikai próba során egy megfelelő próbafüggvény aktuális értékének és az ehhez alkalmas statisztikai tábla kikeresett értékének összehasonlítása történik meg. Ha kétoldalú alternatív
hipotézist fogalmaztuk meg, akkor a nullhipotézist abban az esetben fogadjuk el, illetve az alternatív hipotézist abban az esetben vetjük el, ha a próbafüggvény abszolút értéke kisebb a megfelelő táblából kikeresett értéknél. A táblabeli érték kikeresése pedig éppen úgy történik, mint a kétoldalú becslésnél. Az elfogadás és elvetés szabálya megfogalmazható másképp is. A kikeresett táblabeli érték ugyan pozitív előjelű, de mert a normális eloszlás görbéje szimmetrikus, ez az érték két azonos abszolút nagyságú, de különböző előjelű adatot jelent, ahogy a 11.1 sz ábra is mutatja Ez a két érték a görbe alatt kijelöl egy tartományt [− z 〈 0〈+ z ] . Ezt a tartományt nevezzük elfogadási tartománynak. A határokon kívül található részt pedig kritikus tartománynak Ha a megoldott próbafüggvény értéke az elfogadási tartományba kerül, akkor a nullhipotézist fogadjuk el (és egyúttal elvetjük az alternatív
hipotézist), ha a próbafüggvény értéke a kritikus tartományba kerül, akkor a nullhipotézist elvetjük (és egyúttal elfogadjuk az alternatív hipotézist). A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 242 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 243 ► 11.1 ábra: elfogadási- és kritikus tartomány kétoldalú alternatív hipotézis esetén Ha az alternatív hipotézis H 1 : X a 〈 X 0 formájú, azaz egyoldali (baloldali), akkor nullhipotézist abban az esetben fogadjuk el (és vetjük el az alternatív hipotézist), ha a próbafüggvény előjeles értéke nagyobb ( − z ) értéknél, azaz nagyobb az elfogadási tartomány alsó határánál (Ebben az esetben az elfogadási tartomány felső határa a pozitív végtelen). Ellenkező esetben a nullhipotézist vetjük el, és természetesen az alternatív hipotézist fogadjuk el. (Lásd:
112 sz ábra) 11.2 ábra:elfogadási- és kritikus (baloldali) tartomány egyoldalú alternatív hipotézis esetén A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 243 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 244 ► Ha az alternatív hipotézis H 1 : X a 〉 X 0 formájú, azaz egyoldali (jobboldali), akkor a nullhipotézist abban az esetben fogadjuk el (és vetjük el az alternatív hipotézist), ha a próbafüggvény előjeles értéke kisebb (+ z ) értéknél, azaz kisebb az elfogadási tartomány felső határánál. (Az elfogadási tartomány alsó határa a negatív végtelen). Ellenkező esetben a nullhipotézist vetjük el, és természetesen az alternatív hipotézist fogadjuk el. (Lásd: 113 sz ábra) 11.3 ábra: elfogadási- és kritikus (jobboldali) tartomány egyoldalú alternatív hipotézis esetén A hipotézisvizsgálatok során,
bármilyen pontosan is megtartjuk az előírásokat mind a mintavételre, mind az ellenőrzésre vonatkozóan, hibákat követhetünk el. Ezek a hibák abból adódnak, hogy nem ismerjük a teljes sokaságot, így eredményeinket csak bizonyos valószínűség mellett tudjuk elfogadni. Az elkövethető hibák fajtái: • elsőfajú hiba ( = α ) , • másodfajú hiba ( = β ) Elsőfajú hibát akkor követünk el, ha a nullhipotézis helyes (= igaz), de a próbafüggvény alapján mégis annak elvetése mellett döntünk. Másodfajú hibát akkor követünk el, ha a nullhipotézis nem helyes (= nem igaz), de a próbafüggvény alapján mégis annak elfogadása mellett döntünk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 244 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 245 ► A hipotézisellenőrzés során elkövethető hibákat mutatja be az 11.4 sz
ábra és az 11.1 sz tábla foglalja össze 11.1 sz tábla a H 0 -ban megfogal- a H 0 -ra vonatkozó döntés mazott állítás elfogadjuk elvetjük igaz helyes döntés rossz döntés = elsőfajú hiba * 1−α α nem igaz rossz döntés = másodfajú hiba * β helyes döntés 1− β * a döntések, illetve a hibák elkövetésének valószínűsége 11.4 ábra: a hipotézisellenőrzés során elkövethető hibák A hibákat bemutató ábrából (11.4 sz) és táblából (111 sz) kiolvasható a becslés valószínűségi követelménye és az elsőfajú hiba elkövetési valószínűségének összefüggése. A becslés valószínűsége (= P ) a becsült sokasági jellemző intervallumba kerülési valószínűségét adja meg, és ennek komplementere (1 − P ) az intervallumon kívül esés valószínűségével egyenlő, (hiszen a két esemény teljesen kizárja egymást), így együtt a biztos eseményt jelentik. A hipotézisellenőrzés során pedig éppen akkor
követjük el az elsőfajú hibát, ha egy olyan nullhipotézist vetünk el, ami helyes, vagyis a A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 245 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 246 ► sokasági jellemző az intervallumban van, de a próbafüggvény alapján mégis azt állítjuk, hogy az intervallumon kívül helyezkedik el. Ebből az következik, hogy az elsőfajú hiba elkövetési valószínűsége éppen egyenlő az intervallumon kívül esés valószínűségével. Az elsőfajú hiba elkövetésének valószínűsége α = 1 − Ψ (z ) α = 1 − P (%) Az elsőfajú hiba elkövetési valószínűségének képletében szereplő betűk jelentése α = az elsőfajú hiba elkövetési valószínűsége (az első képletben %-os, a másodikban együtthatós formájú) P = a becslés valószínűségi követelménye (%) Ψ (z ) = a
becslés valószínűségi követelménye együtthatós formában Az elsőfajú hiba elkövetési valószínűségét szokás szignifikanciaszintnek229 is nevezni. Az első- és másodfajú hibával kapcsolatban fontos tudni, hogy azok elkövetési valószínűsége ellenkező irányban változik. Ha tehát mindent megteszünk annak érdekében, hogy az elsőfajú hiba elkövetésének valószínűségét csökkentsük, akkor a másodfajú hiba elkövetésének valószínűsége – és ezt nem akadályozhatjuk meg – növekedni fog. Illetve, ha a másodfajú hiba elkövetési valószínűségét akarjuk mindenáron csökkenteni, akkor számolnunk kell az elsőfajú hiba elkövetési valószínűségének növekedésével A gyakorlati életben mindig a megoldandó probléma sajátosságai, illetve a becslés célja dönti el, hogy melyik hiba elkövetése a nagyobb baj, és ennek elkövetési valószínűségét igyekeznek korlátozni, természetesen úgy, hogy semmiképpen ne
emelkedjen túl magasra a másik hiba elkövetési valószínűsége sem. Bonyolítja a helyzetet, hogy a két hiba elkövetési valószínűsége nem számítható ki közvetlenül (például egyszerű kivonással) egymásból230. 229Szignifikáns = jelentőséggel bíró, valamit meghatározó, eldöntő; a hipotézis megengedhető voltát igazoló, a feltevés helyességét valószínűsítő. 230A kérdés részletesebb tárgyalása nem képezi tananyagunk részét. Ez kérdéskör bővebben megismerhető az irodalomjegyzékben felsorolt szakkönyvekből A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 246 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 247 ► 11.2 A hipotézisellenőrzés menete 1. Megfogalmazzuk a nullhipotézist és vele szemben felállítjuk az alternatív hipotézist 2. Kiválasztjuk a megfelelő próbafüggvényt A próbafüggvény a
mintaelemeknek egy olyan függvénye, amelynek eloszlása a nullhipotézis igazságát feltételezve pontosan ismert, a mintavétel előtt azonban ennek értéke is valószínűségi változó. A próbafüggvénynek több szempont szerint kell megfelelőnek lennie, egyrészt a nullhipotézisben megfogalmazott állításnak, azaz nem minden nullhipotézis ellenőrizhető azonos próbafüggvénnyel; másrészt a minta eloszlás-típusának, valamint a mintavétel módjának is. Mi csak azokkal az esetekkel foglalkozunk, amikor • az alapsokasági elemek kiválasztása egyszerű véletlen módszerrel történik, • a kiválasztási arány kicsi, és • így a minta jó közelítéssel függetlennek tekinthető. 3. Megválasztjuk az elsőfajú hiba elkövetésének valószínűségét, azaz megadjuk a szignifikancia-szintet, figyelembe véve mindazt, amit ezzel kapcsolatban elmondtunk. 4. A szignifikancia-szintnek és a szabadságfoknak (ahol van) megfelelően kijelöljük az
elfogadási tartományt és a kritikus tartományt 5. Végrehajtjuk a mintavételt, a mintából meghatározzuk azokat a sokasági jellemzőket, amelyek a vizsgálat céljának megvalósítása érdekében szükségesek. Majd kiszámítjuk a kiválasztott próbafüggvények számszerű értékeit. Az ellenőrzési feladat gyakran már a mintára vonatkozó átlag ismeretében merül fel. Természetesen ekkor nincs szükség az újbóli mintavételre 6. Döntést hozunk a megfogalmazott H 0 és H 1 hipotézisekkel kapcsolatban Ha a próbafüggvény értéke az elfogadási tartományba esik, akkor elfogadjuk a H 0 és elvetjük a H 1 hipotézist Ha pedig a próbafüggvény értéke a kritikus tartományba esik, akkor fordítva döntünk, azaz elfogadjuk a H 1 és elvetjük a H 0 hipotézist A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 247 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 248 ► 11.3 Statisztikai próbák A statisztika elmélet a próbákat több különféle szempont szerint csoportosítja. Így többek között beszélhetünk: • paraméteres és nem-paraméteres, • egyoldali és kétoldali, illetve • egymintás és kétmintás próbákról. A paraméteres statisztikai próbákat csak meghatározott eloszlású sokaságok esetén használhatjuk, a nem-paraméteres próbákat, pedig bármely eloszlás esetén. A próba egyoldalisága illetve kétoldalisága a felállított alternatív hipotézis jellegétől függ. Az egymintás statisztikai próbák esetén egyetlen mintavétel történik, és az ebből számított soksági jellemzőket például valamilyen norma-értékhez hasonlítjuk, kétmintás próba esetén viszont két mintavétel történik, azonos feltételek mellett (a minták elemszáma azonban lehet különböző), és a két mintából számított sokasági jellemzőket egymáshoz hasonlítjuk.
Jegyzetünkben ezeket a csoportosításokat nem használjuk, hiszen csak néhány próba-fajtát ismertetünk Várható értékre irányuló próbák: " z" -próba Akkor alkalmazzuk, ha a mintából231 számított átlagot, értékösszeget, soksági arányt akarjuk hasonlítani egy a mintától független értékhez (pl.: norma, szabvány, korábbi teljeskörű felmérés adata stb), és ismert az alapsokaság szórása, azaz a próbafüggvényben szereplő szórás nem a mintából származik. További feltétel, hogy n ≥ 100 A hipotézissel kapcsolatos döntéshez szükséges elméleti értéket a " z" -táblából keressük ki. A táblabeli érték kikeresésének módja attól függ, hogy az alternatív hipotézis egyavagy kétoldali A próba szabadságfoka = végtelen. 231A sokaságról feltételezzük – lásd a bevezetőben –, hogy normális eloszlású. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 248 ►
Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 249 ► Elfogadási tartomány különböző ellenhipotézisek esetén: H 1 : xa 〈 X 0 [zα ; ∞[ ⎡ ⎤ H 1 : xa ≠ X 0 ⎢ z α ; z α ⎥ ⎣ 2 2⎦ ⎤ ⎤ H 1 : xa 〉 X 0 ⎥ − ∞; z α ⎥ 1− 2 ⎦ ⎦ egymintás " t" -próba Akkor alkalmazzuk, ha a mintából számított átlagot, értékösszeget, sokasági arányt akarjuk hasonlítani egy a mintától független értékhez, de a próbafüggvényben szereplő szórás is a mintából számítódott, ill. ha n〈100 . Ez utóbbi ténynek az a következménye, hogy a próbafüggvény értékét egy nem független változó (a mintáról mintára ingadozó átlag) is befolyásolja, ezért szabadságfoka (= n − 1) . Így a döntéshez szükséges értéket a " t" -táblából keressük ki attól függően, hogy milyen – egy- avagy kétoldalú –
ellenhipotézist állítottunk fel. Elfogadási tartomány különböző ellenhipotézisek esetén: H 1 : xa 〈 X 0 [tα ; ∞[ ⎡ ⎤ H 1 : xa ≠ X 0 ⎢t α ; t α ⎥ ⎣ 2 2⎦ ⎤ ⎤ H 1 : xa 〉 X 0 ⎥ − ∞; t α ⎥ 1− 2 ⎦ ⎦ kétmintás " t" -próba Ha két egymástól független mintavétel eredményeit akarjuk összehasonlítani, akkor kétmintás próbákkal dolgozunk. (Például két főiskola hallgatóinak átlagos tanulmányi eredményeit, két gép által csomagolt termékek átlagos töltősúlyát, két megyében a iskolás korú gyerekek arányát stb.) Ezen próbák közül jegyzetünkben csak egyet tárgyalunk. A próba szabadságfoka a két minta elemszámától függ: (n1 + n2 − 2 ) 232 A döntéshez 232Mindkét mintában szerepel egy-egy nem független változó. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 249 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata
| Tartalomjegyzék | Táblázatok Vissza ◄ 250 ► szükséges értéket most is a " t" -táblából keressük ki, az előzőekben már részletezett módon233. A próbafüggvény használatánál – és ez a helyes következtetések miatt nagyon fontos – nincs jelentősége annak, hogy melyik mintát tekintjük "egyesnek" és melyiket "kettesnek". A " t " -próba elnevezéssel még fogunk találkozni. Azonos nevű próbát végzünk majd azonos táblából vett elméleti értékek felhasználásával, de más próbafüggény-képlettel a regressziós egyenletek paramétereinek tesztelésekor (= a paraméterekkel kapcsolatos hipotézisek ellenőrzésére) is. F-próba Alkalmazási esetei: a) ha két minta szórásait akarjuk összehasonlítani, illetve b) ha kettőnél több minta átlagainak azonosságáról akarunk meggyőződni = variancianalízis Az átlagok összehasonlítását természetesen páronként is megoldhatjuk, de
háromnál több minta esetén ez már – különösen számítógépi segítség nélkül – igen hosszadalmas munkát jelentene. a) Ha két szórást hasonlítunk össze, akkor a próbafüggvény tört formájú, és mind a nevezőjében, mind a számlálójában olyan statisztikai adat szerepel, amely nem tökéletesen független valószínűségi változó, ezért a számlálónak (v1 = n1 − 1) és a nevezőnek (v2 = n2 − 1) a minták elemszámának azonossága (eltérése) miatt azonos vagy eltérő a szabadságfoka. Így az elméleti F-értékek felsorolására nem elég egyetlen tábla, mert annak mind a fejrovatában – (v1 ) –, mind az oldalrovatában – ( v2 ) – szabadságfokok szerepelnek. (A valószínűségeket pedig a tábla címében kell keresni) Az F-táblában való adatkeresés egyszerűsítése érdekében a próbafüggvény számlálójába mindig a nagyobbik szórás kerül. Ennek az a következménye, hogy nem kell az elfogadási tartomány alsó
határát kiszámítanunk A döntéshozatalnál elég arra figyelnünk, hogy a próbafüggvény számszerű értéke nagyobb-e vagy kisebb-e a táblából kikeresett értéknél, ha nagyobb, akkor a nullhipotézis ( H0 ) elvetése és az alternatív hipotézis ( H1 ) elfogadása mellett kell döntenünk, ha pedig kisebb, akkor éppen ellenkező döntést hozunk. 233 Elfogadási tartomány, mint az egymintás esetben. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 250 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 251 ► b) Amikor több minta átlagát hasonlítjuk össze, akkor varianciaanalízist végzünk. Az F-táblában való keresésben különbséget jelent az, hogy a kizárólag egyoldali ellenhipotézis miatt a megadott szignifikancia-szint átalakítására soha nem kerül sor. Felmerülhet a kérdés, miért használhatók a szórásokat az átlagok
egyezőségének eldöntésére? Ha figyelembe vesszük az ismérvek közötti kapcsolatokról tanultakat234, akkor erre a kérdésre könnyen válaszolhatunk. Az egyes átlagok akkor térnek el egymástól és a főátlagtól lényegesen, ha a megkülönböztető ismérvnek (ennek alapján képeztük a részsokságokat) jelentős befolyásoló szerepe van (magas a külső szórás értéke, szoros kapcsolatot jelez a H-mutató), ha pedig a megkülönbözető ismérvnek nincs jelentős szerepe, akkor a részátlagok közel vannak egymáshoz (vagy megegyeznek) illetve a főátlaghoz. A próbafüggvény számlálójának (= a külső szórásnak) m − 1 a szabadságfoka, a nevezőnek (= a belső szórásnak) pedig n-m. Az m − 1 szabadságfokot a főátlag nem független jellege magyarázza, az n-m szabadságfokot pedig a belső szórás számításánál felhasznált m darab nem független minta-szórás felhasználása. Az F-próba elnevezéssel jegyzetünkben még fogunk
találkozni. Azonos nevű próbát végzünk majd azonos táblából vett elméleti értékek felhasználásával, de más próbafüggény-képlettel a regressziós egyenletek paramétereinek tesztelésére (= a paraméterekkel kapcsolatos hipotézisek ellenőrzésére). χ 2 -próba. Ezt a próbát több egészen különböző statisztikai jellemző ellenőrzésére használhatjuk. Így a) a mintabeli szórások és a teljes sokaságra vonatkozó szórások összehasonlítására, b) a sokságok eloszlásának tesztelésére (= illeszkedésvizsgálat) és c) az ismérvek függetlenségének igazolására. Az alkalmazott próbafüggvény, a próba szabadságfoka és a felírásra kerülő hipotézisek a felhasználás céljától függően változnak, azonos viszont a 234Lásd: vegyes kapcsolat A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 251 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék
| Táblázatok ( Vissza ◄ 252 ► ) tábla – "a χ 2 khí 2 eloszlású változó eloszlásának kvantilis értékei”, ahonnan az elméleti értékeket kell kikeresni.235 a) Ha egy mintából származó és egy mintától független szórást akarunk öszszehasonlítani, akkor próba szabadságfoka: n − 1 . Elfogadási tartomány különböző ellenhipotézisek esetén: [ H 1 : s 〈σ 0 χ α2 ( v ) ; ∞ [ ⎤ ⎡ H 1 : s ≠ σ 0 ⎢ χ α2 ; χ α2 ⎥ ⎣ 2 (v) 2 (v) ⎦ ⎤ ⎤ H 1 : s〉σ 0 ⎥ − ∞; χ α2 ⎥ (v) 2 ⎦ ⎦ b) Az eloszlásvizsgálat célja azt ellenőrizni, hogy a annak a sokaságnak, melyből az aktuális mintát vettük eloszlása illeszkedik-e valamilyen matematikából ismert elméleti eloszlás-típusra, vagyis az ismérvértékek tapasztalati (= megfigyelt) előfordulásai ( fi ) azonosak-e azokkal az előfordulási ( fi ∗ ) adatokkal, amit a feltétezett eloszlás-típus elméleti adatai alapján számíthatunk ki. A
nullhipotézis elfogadása itt azt jelenti, hogy a vizsgált sokság eloszlása illeszkedik a feltételezett matematikai eloszlás-típusra, az ellenhipotézis elfogadása pedig ennek épp az ellenkezőjét (= nem illeszkedik). A próba legtöbb számítási munkát igénylő része az elméleti előfordulások ( fi ∗ ) meghatározása. Ennek lépései, ha azt feltételezzük, hogy a sokaság eloszlása a normális eloszlás elméleti görbéjére illeszkedik: 235 Ennek bemutatására itt nincs szükség, ezt alkalmaztuk a szórások intervallumának számításánál is. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 252 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 253 ► 3. az ismérvértékek átalakítása (= transzformációja) standard normális valószínűségi változóvá = " z" 236 a táblabeli értékek = Ψ( z ) kikeresése a
kikeresett értékek átalakítása az egyes osztályközökbe (= intervallumokba) tartozó valószínűségi értékekké = p∗ A " z" -táblából kikeresett Ψ( z ) értékek átalakítására azért van szükség, mert minden kikeresett érték a negatív vagy a pozitív végtelen és az adott " z" érték közti intervallumra adja meg az előfordulás valószínűségét, a tapasztalati előfordulások azonban egy-egy osztályközre vonatkoznak. Az összehasonlításhoz tehát az elméleti előfordulásoknak is egy-egy osztályközre kell vonatkozniuk. Ez az átalakítás, ha a transzformált ismérvérték (= " z" ) negatív, akkor két lépésben történik; ha azonban a transzformált ismérvérték pozitív előjelű, akkor csak egy lépésre van szükség. A negatív transzformált ismérvérték esetén először a kikeresett valószínűség komplementerét 1 − Ψ( z) kell kiszámítani. A második lépésben – és ez mind a negatív, mind
a pozitív " z" esetében szükséges tennivaló – az átfedéseket szüntetjük meg. Ezek után kezdhetjük el a próbafüggvényben szereplő elméleti előfordulások f i ∗ kiszámítását, illetve a próbafüggvény érté- ( ) kének meghatározását, majd következhet a döntéshozatal. Az illeszkedésvizsgálatnak – és ez a próba szabadságfokának meghatározása miatt is fontos – két típusát különböztetjük meg: • tiszta illeszkedésvizsgálat és • becsléses illeszkedésvizsgálat. Tiszta illeszkedésvizsgálatról akkor beszélünk, ha az ismérvértékek átalakításakor nem a mintából számított átlagot és szórást használjuk, hanem a teljes sokaságra vonatkozó adatokat. Becsléses illeszkedésvizsgálatról akkor beszélünk, ha az átalakításnál használt szórás és /vagy/ átlag a mintából származik. A szabadságfok meghatározása ennél a próbánál nem a minta elemeinek számából indul ki, hanem az
osztályközök darabszámából. Ugyanis egyetlen mintába került elem osztályközbe sorolása sem maradhat el, ezért ha valamelyik elem sem az első, sem a második stb. osztályközbe nem illik bele, akkor az utolsóba "kénytelenek" vagyunk besorolni, vagyis itt már 236Az átalakítás képletét lásd: a becslés fejezet bevezetőjében. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 253 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 254 ► nincs szabad döntési lehetőségünk, a függetlenség megsérült. (Ezért is gyakori, hogy a szélső osztályközök nyitottak.) A szabadságfok tehát: • tiszta illeszkedésvizsgálat esetén: k − 1 • becsléses illeszkedésvizsgálat esetén: k − 1 − r . (Ahol k = az osztályközök száma; r = 1, ha csak az átlag vagy csak a szórás származik a mintából, és r = 2 , ha mind az
átlag, mind a szórás a mintából ismert.) Az illeszkedés vizsgálatot végezni nagyon kevés elemszámú minta esetén tilos, mert hamis eredményre juthatunk. Ezért az alkalmazás minimum feltételei: • legalább öt osztályköz, • osztályközönként legalább öt elem. Ha az egyes osztályközökben ötnél kevesebb elem található, de az osztályközök száma több mint öt, akkor élhetünk az összevonás lehetőségével. A próbát ugyanis nem csak azonos hosszúságú osztályközökre bontott sokasággal szabad elvégezni. Az illeszkedésvizsgálat mindig valamilyen konkrét ismérv alapján történik, ebből következik, hogy ha ugyanazt a sokaságot egy másik ismérv alapján is felosztjuk, akkor az illeszkedésvizsgálatot újból el kell végezni. Az illeszkedésvizsgálat próbafüggvényének számított értékét a már ismert χ 2 -táblából kikeresett elméleti értékhez hasonlítjuk. A táblabeli érték nagysága függ a szabadságfoktól és a
szignifikancia-szinttől. A megadott α érték alapján a tábla 1 − α feliratú oszlopából választjuk ki a megfelelő adatot. A valószínűségek átalakítására, a próba egyoldalisága miatt, nem kerül sor. Fontos gyakorlati kérdés. A sokaságok elemeinek osztályközökbe sorolásánál egyes esetekben a legutolsó osztályköz nyitott, azaz felső határa elméletileg a végtelen, más esetekben viszont az osztályköz felső határa adott Ez a "lezárás" lehetetlenné teszi, hogy a ∑ pi∗ = 1 szabály (= a valószínűségek összege = a megoszlási viszonyszámok összege = 1, azaz 100 % ) teljesüljön. Ezért akkor is, ha osztályköz felülről lezárt, felső határát végtelennek tekintjük, az ehhez tartozó valószínűsége pedig 1, azaz a biztos esemény. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 254 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 255 ► c) A függetlenségvizsgálat segítségével az asszociáció237 mutatóinak igazságtartalmát lehet ellenőrzi. Nullhipotézise a függetlenséget, alternatív hipotézise pedig az összefüggést feltételezi. Próbafüggvénye gyakorlatilag megegyezik238 az illeszkedésvizsgálat próbafüggvényével. Eltérő viszont az elméleti előfordulások kiszámítása239 A próba szabadságfoka a két ismérv ismérvváltozatainak számából határozható meg: v = ( s − 1)(t − 1) A próba során a szabadságfok és az előre megadott szignifikancia-szint α ( ) alapján a χ 2 -táblából az 1 − α feliratú oszlopban kell a megfelelő elméleti értéket kikeresni. A valószínűségek átalakítására, a próba egyoldalisága miatt, ebben az esetben sem kerül sor A próba "érdekessége" – az eddig tárgyalt összes próbához hasonlítva –, hogy tulajdonképpeni cél a kapcsolat kimutatása és annak
ellenőrzése, ez mégis az ellenhipotézisben kerül megfogalmazásra. A felsorolt próbák függvényei: " z" -próbamegjegyzés a tábla alatt z= xa − X 0 σx = xa − X 0 σ n egymintás "t" -próba t= xa − X 0 xa − X 0 = s sx n kétmintás "t" próba t= x1 − x2 1 1 sd ∗ + n1 n2 Megjegyzés: A " z" -próba próbafüggvényét a számtani átlag ellenőrzését feltételezve adtuk meg, de értelemszerűen a számlálóban szerepelhet P = a mintából számolt sokasági arány és P0 = a "kívülről" megadott arány, illetve a nevezőben az ehhez tartozó szórásból számítva a sokasági arány standard hibája stb. (Megjegyzésünk érvényes az egymintás- és a kétmintás t-próbára, a szórások összehasonlítására szolgáló próbákra és a variancia-analízisra is.) 237Lásd: ismérvek közötti kapcsolat, Csuprov-, Cramer, Yule mutatók. A különbség csupán annyi, hogy a tapasztalati és
az elméleti előfordulások betűjelének futóindexében mindig két betű szerepel. Emlékezzen, az adatokat kombinációs táblába rendeztük! 239 Lásd: a felsorolt mutatóknál. 238 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 255 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok " F " -próba szórások összehasonlítására " F " -próba F= " χ 2 " -próba szórások összehasonlítására χ 2 (n − 1)s 2 = σ2 SB 256 vK (n1 − 1)s12 + (n2 − 1)s2 2 sd = n1 + n2 − 2 vB " χ 2 " -próba " χ 2 " -próba illeszkedésvizsgálat függetlenségvizsgálat χ2 = ∑ (f i ► a kétmintás "t" -próbában szereplő szórás számítása varianciaanalízis SK s2 F = 12 s2 ◄ Vissza − f i∗ f i∗ ) 2 χ = ∑∑ f i∗ = p∗ ∗ n 2 f ij∗ = (f ij − f ij∗ f ij∗ )
2 f i. ∗ f j n A próbafüggvényekben szereplő betűk jelentése: X0= σx = xa = az előre megadott (feltételezett) sokasági jellemző, itt átlag a mintából számított sokasági jellemző, itt átlag n = s = a minta szórása a minta elemszáma n1 és n2 = s1 és s2 = a két minta elemszáma a két minta szórása, ahol s1 〉 s2 x1 , x2 = a két minta átlaga v K = (m − 1) és v B = (n − m ) = szabadságfokok (varianciaanal.) A dokumentum használata | Tartalomjegyzék | Táblázatok σ n = a mintától független – megadott –szórásból és a minta elemszámából számított standard hiba σ = a mintától független – megadott – szórás sx = a minta szórásból és elemszámából számított standard hiba sd a két minta szórásának négyzetes átlaga, az alábbi képlet alapján számítva Vissza ◄ 256 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék |
Táblázatok f ij = fi = tapasztalati előfordulások, (illeszkedésvizsg.) (függetlenségvizsg.) ∗ fi = elméleti előfordulások, ∑f i ∗ ∑∑ f ij =n f ij∗ = elméleti előfordulások, =n (illeszkedésvizsg.) ∑∑ f ◄ 257 ► SK = tapasztalati előforduláfi = n sok, ∑ Vissza ∗ ij =n (függetlenségvizsg.) a részátlagok és főátlag súlyozott eltérésnégyzeteinek összege SB = az egyes minták szórásnégyzeteinek súlyozott összege f i. és f j = ∗ p = elméleti valószínűség ≈ elméleti megoszlási viszonyszám peremgyakoriságok = a kombinációs tábla sorainak ill. oszlopainak összesen adatai(függetlenségvizsg.) m= a független minták darabszáma BEMUTATÓ FELADATOK 11.31 " z" -próba Folytatjuk a számtani átlag becslésénél megkezdett példánkat.240 Egy egyetem hallgatóinak köréből egyszerű véletlen mintát vettünk (n = 100 fő, a kiválasztási arány =1,6 %). Célunk a hallgatók
szórakozási kiadásainak vizsgálata volt A megfigyelt és rendezett adatokat a 112 sz tábla tartalmazza. A minta átlaga ≅12380 Ft, ≅4430 Ft szórás mellett 240 Lásd: 10. fejezet A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 257 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 258 ► 11.2sz tábla osztály- szórakozási kiadás közép a hallgatók száma a mintában ezer Ft / hó /fő xi fi – 5,0 3,5 6 5,1 – 8,0 6,5 10 8,1 – 11,0 9,5 18 11,1 – 14,0 12,5 35 14,1 – 17,0 15,5 15 17,1 – 20,0 18,5 11 20,0 – 21,5 5 összesen – 100 adatforrás: saját gyűjtés SZE, 2006. márc Egy korábbi teljes körű adatgyűjtésből ismert, hogy a hallgatók szórakozási kiadásainak átlaga 11.000 Ft (= X 0 ) 4000 Ft szórás (= σ 0 ) mellett A két átlag számszaki eltérése miatt felmerül a kérdés, valódi
változás történt-e, magasabbak lettek-e a hallgatók szórakozási kiadásai. A választ 5 %-os szignifikancia szinten kell megadni. Kövessük a hipotézisellenőrzés felvázolt műveleti sorrendjét!241 1. A hipotézisek megfogalmazása: változat nullhipotézis alternatív hipotézis próba a H 0 : X a = 11.000 Ft H 1 : X a ≠ 11.000 Ft kétoldalú b H 0 : X a = 11.000 Ft H 1 : X a 〉11.000 Ft egyoldalú (jobb) A gyakorlati munka során általában nem fogalmaznak meg több hipotézist, itt a bemutatás kedvéért szerepel a két különböző lehetőség. (A harmadik lehetőséget – baloldali – fel sem írtuk, nevetséges lenne azt állítani, hogy a 12.380 Ft kisebb a 11000 Ft-nál) 241 Lásd: 11.2 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 258 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 259 ► 2. A próbafüggvény
kiválasztása: Erre most nincsen szükség, hiszen a bemutatásra kerülő próbafüggvényhez készítettünk példát. 3. A szignifikanciaszint kijelölése: A szignifikancia-szintet a feladat megadta: α = 5% 0,05 . Ez az általánosan használt szignifikancia-szint, ezért ha valamelyik feladatban nem szerepel valószínűségre vonatkozó előírás, akkor ezzel az értékkel szokás számolni. 4. Az elfogadási és a kritikus tartomány kijelölése: A tartományok határainak kijelölése a "z" -tábla segítségével történik. A megadott szignifikancia-szintből kiindulva meg határozzuk azokat a valószínűségeket / (Ψ (z )) vagy (Φ (z )) /, amelyeknél kikeressük a táblából a tartományok határait jelentő " z" -értéket. A tartományok határai attól függnek, hogy egyoldali vagy kétoldali próbát végzünk-e Kétoldali próba esetén a kritikus tartomány két részre oszlik és az elfogadási tartomány bal illetve jobb oldalán
helyezkedik el (11.1 sz ábra), ezért az intervallumbecslésnél leírt módon átalakítjuk az (1 − α ) = Ψ (z ) valószínűséget, és Φ (z ) = 0,975 értéknél keressük ki a döntéshez szükséges " z" -értéket, ami 1,96. Ha egyoldali próbát végzünk, akkor a kritikus tartomány egésze az elfogadási tartomány egyik vagy másik oldalán helyezkedik el. Tehát nincs szükség az (1 − α ) = Ψ (z ) valószínűség átalakítására, azaz a Ψ (z ) = 0,95 valószínűséghez tartozó " z" -értéket kell kikeresnünk, ami 1,65. A keresett tartományok határai242 változat elfogadási tartománya a) [− 1,96 ↔ +1,96] b) [− ∞ ↔ +1,65] kritikus tartomány [− ∞ −1,96] és [+ 1,96 +∞] [+ 1,65 +∞] 242 Ha a hipotéziseket még a mintavétel és az abból történt számítás előtt írjuk fel, akkor előfordulhat, hogy a szórakozási kiadások csökkenését feltételezzük, vagyis baloldali alternatív hipotézist
írunk fel. Ebben az esetben a tartományok így alakultak volna: elfogadási = [− 1,65 ↔ +∞ ] ; kritikus [− ∞ −1,65] A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 259 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 260 ► 5. A próbafüggvény számszerű értékének meghatározása: z= xa − X 0 σx = 12.380 − 11000 ≅ 3,45 4.000 100 6. Döntés a hipotézisek elfogadásáról illetve elvetéséről: A döntések adatai változat alternatív hipotézis H0 H1 a) H 1 : xa ≠ 11.000 Ft elvetve elfogadva b) H 1 : xa 〉11.000 Ft elvetve elfogadva a) Mivel a próbafüggvény számszerű értéke (3,45) az elfogadási tartományon kívül esik, illetve úgy is fogalmazhatunk, hogy a próbafüggvény értéke nagyobb a táblabeli értéknél 3,45〉1,96 ezért a nullhipotézist elvetjük és egyúttal az alternatív hipotézist
elfogadjuk. Azaz ♥ a 100 elemű EV minta alapján 5 %-os szignifikancia-szinten állítjuk, hogy a hallgatók havi szórakozási kiadásainak átlaga nem azonos a korábbi teljeskörű felvétel eredményével. Úgy is fogalmazhatunk, hogy szignifikáns különbség van a két adat között. b) Mivel a próbafüggvény számszerű értéke (3,45) a kritikus tartományba esik, így döntésünk az a) változatnál leírttal teljesen azonos, de kicsit másképp fogalmazhatunk. Az alternatív hipotézis felírási módjából, ui egyértelmű, hogy ♥ a 100 elemű EV minta alapján 5 %-os szignifikancia-szinten állítjuk, hogy a hallgatók havi szórakozási kiadásainak átlaga az eltelt időszakban növekedett, nagyobb a korábbi teljeskörű felvétel eredményénél. Felmerülhet a kérdés, van-e olyan szignifikancia-szint, ami mellett nem vetjük el a nullhipiotézist? Vegyük elő az eddig is használt táblát, és keressük meg a próbafüggvény eredményénél már nagyobb
„z” értékhez tartozó Φ ( z ) értéket! Ha z = 3,46 , akkor Φ ( z ) = 0,9997 . Ha egyoldalú ellenhipotézissel dolgoztunk, akkor már ismert is a válasz, α = 0,03% Ha azonban kétoldalú ellenhipotézissel dolgoztunk, akkor még el kell végezni A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 260 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 261 ► a szokásos átalakítást243, így α = 0,06% . (Azaz nagyobb az elsőfajú hiba elkövetésének valószínűsége.) 11.32 Egymintás " t " -próba Ismét a számtani átlag becslésénél megkezdett – és a z-próbával továbbvitt – példával dolgozunk. Legyen most a minta elemszáma 50 (= n2 ) , és tételezzük föl, hogy csak a minta szórását (s = 4430 ) ismerjük Természetesen most is rendelkezésünkre áll a korábbi teljes körű felvétel átlaga X 0 = 11.000 , és
megválaszolandó kérdéseink is ugyanazok Történt-e igazi változás, vagy csak a véletlennek – a véletlen mintának – köszönthető a nem tökéletes számszaki egyezés? Ismét kövessük a hipotézisellenőrzés felvázolt műveleti sorrendjét! Az előző részletességtől azonban eltekintünk, a megoldást rövidítve mutatjuk be.244 1. A hipotézisek megfogalmazása: változat nullhipotézis alternatív hipotézis próba a) H 0 : X a = 11.000 Ft H 1 : xa ≠ 11.000 Ft kétoldali b) H 0 : X a = 11.000 Ft H 1 : xa 〉11.000 Ft jobboldali 4. Az elfogadási és a kritikus tartomány kijelölése: A tartományok határainak kijelöléséhez szükséges értékeket a " t" -táblából keressük ki. A szabadságfok v = (n − 1) = 49 A valószínűségek értéke pedig ismét attól függ, hogy egyoldali t 049,95 = 1,67 vagy kétoldali t 049,975 = 2,00 becslést végzünk. A táblában a 49-es szabadságfokot nem találjuk meg, így az adatot a v = 60
sorból vettük. Egyúttal ismerkedjünk meg a táblabeli értékek szokásos jelölésével! A kitevőben a szabadságfokot, az alsó futóindexben pedig a valószínűségi értéket találjuk. 243 Lásd: 10.25 műveletek sorszámát azonban megtartottuk, ezért követi az 1. sz lépést a 4 sz lépés! (A további példákban is így teszünk.) 244A A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 261 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 262 ► Így az egyes hipotézis-változatokhoz tartozó tartományok a következők: elfogadási tartomány változatok H1 a) H 1 : xa ≠ 11.000 Ft [− 2 ↔ +2] b) H 1 : xa 〉11.000 Ft [− ∞ ↔ +1,67] kritikus tartomány [− ∞ −2] és [+ 2 +∞] [+ 1,67 +∞] 5. A próbafüggvény számszerű értékének meghatározása: t= X a − X 0 12.380 − 11000 = = 2,2 4.430 sx 50 Annak
következtében, hogy a minta elemszáma kisebb (n1 = 100 〉 n2 = 50 ) , a nevező értéke nagyobb, ezért lesz a próbafüggvény számszerű értéke (3,45〉 2,2 ) kisebb, mint a z-próbánál. 6. Döntés a hipotézisek elfogadásáról illetve elvetéséről: A döntések adatai változat alternatív hipotézis H0 H1 a) H 1 : xa ≠ 11.000 Ft elvetve elfogadva b) H 1 : xa 〉11.000 Ft elvetve elfogadva A következtetés mindkét változat esetén azonos a " z" -próbánál meghozott döntéssel, a próbafüggvény számított értéke ugyanis most sem része az elfogadási tartománynak, azaz ♥ az 50 elemű egyszerű véletlen minta alapján 5 %-os szignifikanciaszinten állítjuk, hogy a hallgatók havi szórakozási kiadásainak átlaga az eltelt időszakban növekedett, nagyobb a korábbi teljeskörű felvételkor megállapított értéknél. Ha egy átlagra (arányra stb.) vonatkozó ellenőrzést " t " -próbával kell elvégeznünk
nagyon fontos szem előtt tartanunk azt a szabályt, hogy a vizsgálatot a szórások ellenőrzésével kell kezdenünk (feltéve, ha a teljes sokaságra vonatkozóan ismerjük a mintától független szórást). Abban az esetben, ha a szórásokra vonatkozó egyezőségi ( H0 : s = σ ) hipotézist A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 262 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 263 ► elvetjük az adott szignifikancia-szinten, akkor az ellenőrzendő paraméterek összehasonlítását már el sem kell végeznünk. Azok az átlagok (arányok stb.) ugyanis, melyekhez nem azonos szórás tartozik nem egyformán jellemzik a sokságot, tehát semmiképpen nem tekinthetők azonosnak 11.33 Kétmintás " t " -próba Az adatok egyik részét ismét az átlagbecslésnél megoldott, és azóta többször is szereplő példából vesszük. Ez
tekintjük most "egyes" mintának, ahol a szórakozási kiadások átlaga 12.380 Ft (= x1 ) 4430 ( = s1 ) szórás mellett, a minta elemeinek száma pedig: 100 (n1 ) . A mintavételt egy másik egyetemen is elvégeztük 50 ( = n2 ) főt kiválasztva. Ott a szórakozási ki- adások átlagára 13.600 Ft-os becsült érték adódott (= x2 ) 4800 Ft ( = s2 ) szórás mellett. Az adatok összehasonlítását a következőkben három különböző szignifikancia-szinten is elvégezzük egyoldalú és kétoldalú ellenhipotézissel szemben is. Az ellenőrzést a megismert szabály szerint a szórások azonosságának vagy eltérőségének megállapításával kellene kezdenünk, ettől most eltekintünk, de a kérdésre még visszatérünk. Kövessük a hipotézisellenőrzés már megismert és az előzőekben is alkalmazott műveleti sorrendjét (ismét rövidítve)! 1. A hipotézisek megfogalmazása: változat a) b) nullhipotézis alternatív hipotézis próba H 0 : x1
= X 2 H 1 : x1 ≠ x2 kétoldalú H 0 : x1 = x2 H 1 : x1 〈 x2 baloldali 4. Az elfogadási és a kritikus tartomány kijelölése: A tartományok határainak kijelöléséhez szükséges értékeket a " t " -táblából keressük ki. A szabadságfok = 148 = (n1 + n2 − 2 ) A valószínűségek értéke pedig most is attól függ, hogy egyoldali vagy kétoldali becslést végzünk 148 Így kétoldali próba esetén t 0,975 = 1,96 , egyoldali próba esetén pedig t 0148 , 95 = 1,65 a táblából kikeresett érték. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 263 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 264 ► A táblában a 148-as szabadságfokot nem találjuk meg, így az adatot a v = ∞ sorból vettük. Így az egyes hipotézis-változatokhoz tartozó tartományok a következők: α = 5% elfogadási tartomány változat H1 a) x1
≠ x2 b) x1 〈 x2 α = 5% a) x1 ≠ x2 b) x1 〈 x2 kritikus tartomány [−1,96 ↔ +1,96] [−∞ −1,96] és [+1,96 +∞] [−1,65 ↔ +∞] [−∞ −1,65] [− 1,65 ↔ +1,65] [− ∞ −1,65] és [+ 1,65 +∞] [− 1,28 ↔ +∞] [− ∞ −1,28] A tábla a következő oldalon folytatódik. α = 1,0% a) x1 ≠ x2 b) x1 〈 x2 [− 2,58 ↔ +2,58] [− ∞ −2,58] és [+ 2,58 +∞] [− 2,33 ↔ +∞] [− ∞ −2,33] 5. A próbafüggvény számszerű értékének meghatározása: t= sd = x1 − x2 12.380 − 13600 = ≅ −1,58 , ahol 1 1 1 1 sd ∗ + + 4456 ∗ n1 n2 100 50 (n1 − 1)s12 + (n2 − 1)s 2 2 n1 + n2 − 2 = (100 − 1)4.430 2 + (50 − 1)4800 2 148 ≅ 4.456 Ft 6. Döntés a hipotézisek elfogadásáról illetve elvetéséről: A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 264 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 265 ► A döntések adatai α = 5% változat alternatív hipotézis H0 H1 a) H 1 : x1 ≠ x2 elfogadva elvetve b) H 1 : x1 〈 x2 elfogadva elvetve a) H 1 : x1 ≠ x2 elfogadva elvetve b) H 1 : x1 〈 x2 elvetve elfogadva a) H 1 : x1 ≠ x2 elfogadva elvetve b) H 1 : x1 〈 x2 elfogadva elvetve α = 10% α = 1,0% ♥ A két – 100 ill. 50 elemű – minta alapján 5 és 1 % os szignifikanciaszinten is, mind az egy-, mind a kétoldalú alternatív hipotézissel szemben a nullhipotézis elfogadása mellett döntöttünk, azaz a két egyetem hallgatóinak havi szórakozási kiadásai nem térnek el egymástól jelentős mértékben. A 10 %-os szignifikancia-szinten azonban már eltérést tapasztalunk az egyoldali ellenhipotézis alapján. Nagyon fontos tehát, hogy egy-egy ellenőrzés során alapos körültekintéssel válasszunk szignifikancia-szintet, és fogalmazzuk meg alternatív hipotézist. 11.34 F-próba Két
mintából számított szórás összehasonlítása A kétmintás " t " -próbánál közöltük azt a szabályt, hogy az átlagokra felállított hipotézisek ellenőrzését meg kell előzze a szórásokra vonatkozó hipotézisek tesztelése. Végezzük el most az ott közölt két minta szórásainak összehasonlítására az F-próbát! Tekintettel arra, hogy az átlagok összehasonlíthatósága csak a szórások egyezősége esetén lehetséges nincs értelme az egyoldali ellenhipotéziseknek. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 265 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 266 ► 1. A hipotézisek megfogalmazása: Ho s1 = s2 H1 s1 ≠ s2 a próba kétoldalú 4. Az elfogadási és a kritikus tartomány kijelölése: Ha α = 5 %-os szignifikancia szinten dolgozunk, akkor azt az F-táblát kell használnunk, amelyik felett ezt
olvassuk: 1 − α = 0, 975 . A számláló szabadságfoka (itt szerepel a második minta szórása): 49, a nevezőé (itt szere, 99 = 1,53 . pel az első minta szórása) pedig 99. Így az elméleti érték: F049,975 A táblákban nem szereplő 49-es és 99-es szabadságfokok helyett a 60as és a 120-as szabadságfokokhoz tartozó értékeket olvastuk le. 5. A próbafüggvény számszerű értékének meghatározása: F= s12 4.800 2 = = 1,17 s 22 4.430 2 6. Döntés a hipotézisek elfogadásáról illetve elvetéséről Ennél a próbánál elég megvizsgálnunk – ahogy ezt már jeleztük – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját: számított (1,17) 〈 táblabeli (1,53) Az alternatív hipotézist elvetjük és ezzel szemben a nullhipotézist elfogadjuk, azaz ♥ 5 %-os szignifikanci-szinten állítjuk, hogy a két minta szórása azonos; vagy így is fogalmazhatunk, a szórások között nincs szignifikáns
különbség. Variancia-analízis Egészítsük ki a két minta átlagát (= a hallgatók szórakozási kiadásai) öszszehasonlító példát újabb mintákból vett adatokkal! Döntsük el, van-e lényeges különbség az egyes mintákból számított átlagok között! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 266 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 267 ► 11.3 sz tábla sorszám elemszám db átlag Ft szórás Ft 1. 100 12.380 4.430 2. 50 13.600 4.800 3. 65 14.500 5.200 4. 30 15.300 5.100 5. 70 11.500 3.600 1. A hipotézisek megfogalmazása az aktuális feladattól függetlenül mindig azonos: H 0 : x1 = x2 = x3 = . = xm = X H 1 : xi ≠ x j Szavakkal megfogalmazva, A nullhipotézis szerint valamennyi minta átlaga – természetesen csak az adott szignifikancia-szinten – azonos és egyben megegyezik az átlagok
átlagával, a főátlaggal. ( x1 ,., xm az egyes minták átlagai, ezeket részátlagoknak is tekinthetjük; X = az egyes minták átlagainak átlaga, ezt főátlagnak is tekinthetjük.) Az alternatív hipotézis szerint a vizsgált átlagok közül legalább kettő nem egyezik meg egymással. Ha a mintákat nem ugyanazokból a sokaságokból vettük (ha mind az öt minta más-más egyetemen végzett vizsgálat eredménye), akkor azt mondhatjuk, az egyes sokaságok átlagai nem azonosak, de ha nincs információnk a minták eredetéről, akkor így fogalmazhatunk: az egyes minták nem származhatnak ugyanabból a sokaságból. 4. Az elfogadási és a kritikus tartomány kijelölése: α = 5 %-os szignifikancia-szinten dolgozunk, akkor az elfogadási tartoHa mány felső határa F = 1,83 . 4 ;310 0 , 95 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 267 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 268 ► 5. A próbafüggvény számszerű értékének meghatározása: Az öt minta átlagának (súlyozott számtani) átlaga = főátlag: x= ∑n ∗ x ∑n j j j = 100 ∗12.380 + 50 ∗13600 + + 70 ∗11500 ≅ 13.094 Ft 315 Az öt minta szórásainak (súlyozott négyzetes) átlaga = belső szórás245: σB = SB = ∑nj ∑n ∗s ∑n j 2 j = j 100 ∗ 4.430 2 + 50 ∗ 4800 2 + + 70 ∗ 3600 2 ≅ 4.563 Ft 315 A számításhoz a belső szórás képletének számlálójában lévő érték ( S B ) szükséges: S B = 6.559590000 A négy minta átlagának és a főátlagnak (súlyozott négyzetes) átlagos eltérése = külső szórás: σK = ∑ n (x − x ) ∑n 2 SK = ∑nj j j = j 100 ∗ (12.380 − 13094) + 50 ∗ (13600 − 13094 ) + + 70(11500 − 13094) ≅ 1.280 315 2 2 2 Ft A számításhoz a külső szórás képletének számlálójában lévő érték ( S K ) szükséges: S K = 516.127301,6
245 Mind külső, mind a belső szórás számításánál a mintaelemek összege (315) szerepel a nevezőben. A szórás becslésénél tanult ”-1”-t azért lehetett elhagyni, mert ekkora elemszám esetén már nincs jelentősége (Elhagyása nem módosítja az eredményeket, ill legfeljebb akkora mértékben, amennyit a számítások végén úgy is „elkerekítünk”) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 268 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 269 ► A próbafüggvény értéke: SK F= SB vK 516.127301,6 = 6.559590000 vB 4 ≅ 6,1 310 Egyes tankönyvek a variancia-analízis képletet a szórások felhasználásával (is) közlik: σ 2K F= σ 2B vK vB 1.280 2 = 4.563 2 4 ≅ 6,1 310 A két eredmény azonossága, a matematikai összefüggéseket ismerve, nem meglepő. Ebből következik, hogy mindkét számítás
használható, attól függően, mely rész-, ill végeredmények állnak rendelkezésünkre (Egyébként az alkalmazott jelölésekben is eltérnek az egyes tankönyvek – és nemcsak ebben az esetben –, mi a legegyszerűbb jelölési rendszerhez próbáltunk igazodni.) 6. Döntés a hipotézisek elfogadásáról illetve elvetéséről Ennél a próbánál is elég megvizsgálnunk – ahogy ezt már jeleztük – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját: számított (6,1) 〉 táblabeli (1,83) Ennek alapján az alternatív hipotézist fogadjuk el, és egyúttal a nullhipotézist elvetjük, azaz ♥5 %-os szignifikancia-szinten állítjuk, hogy a minták átlagai közül legalább kettő nem azonos. Ha pontosan akarjuk tudni, melyik két átlag nem egyezik, akkor mégis el kell végeznünk páronként az összehasonlítást, és ezt nyilvánvalóan a legkisebb és a legnagyobb mintaátlag összevetésével célszerű kezdeni.
(Összehasonlítva a legkisebb és a legnagyobb átlaghoz tartozó szórásokat – F = 5.100 2 / 3600 2 ≅ 2 – a szokásos szignifikancia-szinten arra következtetésre jutottunk, hogy a 15300 Ft-os és a 11500 Ft-os kiadási átlag nem véletlenül térnek el egymástól. Ezután elhagyva az öt mintaátlag közül a legkisebbet, ismét elvégeztük a variancia-analízist A próbafüggvény értéke: ≅4,1, a táblabeli érték: 2,6, azaz döntésünk nem változott.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 269 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok 11.35 Vissza ◄ 270 ► χ 2 (kh’ 2 ) -próba A mintából származó és a mintától független szórás összehasonlítása Ismét a hallgatók szórakozási kiadásaira vonatkozó példa adataival dolgozunk. A vizsgált egyetem hallgatóinak köréből egyszerű véletlen mintát vettünk (n = 100
fő). A mintából számított átlaga ≅12380 Ft, ≅4430 Ft szórás mellett Ezeket az eredményeket hasonlítjuk egy korábbi teljeskörű adatgyűjtésből származó átlaghoz (X 0 = 11.000 Ft ) , melyhez 4000 Ft szórás (= σ 0 ) tartozik. A két átlag összehasonlítását már kétféleképpen is elvégeztük (z-próba, egymintás t-próba). Azt is tudjuk, hogy ezeket a próbákat meg kellett volna előzze a szórások összevetése, ennek bemutatása következik most. A választ az általában használt 5 %-os szignifikanciaszinten kell megadni 1. A hipotézisek246 megfogalmazása: Ho H1 a próba s1 = σ 0 s1 ≠ σ 0 kétoldalú 4. Az elfogadási és a kritikus tartomány kijelölése: H1 elfogadási tartomány [χ s≠σ 2 0 , 025 ( 99 ) ] ↔ χ 02,975( 99 ) [74,2 ↔ 129,6] 5. A próbafüggvény számszerű értékének meghatározása: χ2 = (n − 1)s 2 = (100 − 1)4.430 2 σ 02 4.000 2 ≅ 121,4 6. Döntés a hipotézisek elfogadásáról
illetve elvetéséről 246 Tekintettel arra, hogy az átlagok összehasonlíthatósága csak a szórások egyezősége esetén lehetséges nincs értelme az egyoldali ellenhipotéziseknek. (Lásd: F-próba a mintából származó szórások összehasonlítására) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 270 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 271 ► A próbafüggvény számított értéke a táblabeli értékek által határolt intervallumon belül helyezkedik el, a nullhipotézist tehát elfogadjuk, az alternatív hipotézist pedig elvetjük, így ♥5 %-os szignifikancia-szinten állítjuk, hogy annak a sokaságnak, melyből a minta származik a szórása azonos a korábbi teljeskörű felmérésből származó szórással. Illeszkedés (= eloszlás) vizsgálat A becslés témakörének taglalásakor már többször említettük, hogy a
tankönyvünkben tárgyalt módszerek alkalmazása a vizsgált sokaságok normális eloszlását feltételezik, vagy legalábbis azt, hogy az attól való eltérés statisztikai értelemben ne legyen jelentős mértékű. Ennek ellenére mindeddig nem győződtünk meg arról, hogy az egyetemi hallgatók sokasága a szórakozási kiadások alapján normális eloszlásúnak tekinthető-e. A következőkben ezt vizsgáljuk 1. A hipotézisek megfogalmazása az aktuális feladattól függetlenül mindig azonos: H 0 : P( X i ) = Pi ∗ H1: létezik olyan P( X i ) ≠ Pi ∗ 4. Az elfogadási és a kritikus tartomány kijelölése: Ha α = 5 %-os szignifikancia szinten dolgozunk, és becsléses illeszkedésvizsgálatot végzünk, akkor az elfogadási tartomány felső határa χ 02,95( 4 ) = 9,49 . 5. A próbafüggvény számszerű értékének meghatározása: A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 271 ► Statisztika Hipotézisellenőrzés =
statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 272 ► 11.4 sz tábla (a 102sz tábla alapján) a hallgatók szórakozási száma a kiadás mintában zi Ψ ( z i ) 1 − Ψ ( z i ) pi∗ χ2 f i ∗ összete- ezer Ft / hó /fő fi – 5,0 6 -1,66605 0,95215 0,04785 0,04785 4,79 0,306 5,1 – 8,0 10 -0,98879 0,83862 0,16138 0,11353 11,35 0,161 8,1 – 11,0 18 -0,31154 0,62231 0,37769 0,21631 21,63 0,609 11,1 – 14,0 35 0,36571 0,64271 0,26502 26,50 2,726 14,1 – 17,0 15 1,04297 0,85151 0,20880 20,88 1,656 17,1 – 20,0 11 1,72022 0,95730 0,10579 10,58 0,017 20,0 – 5 ∞ 1,0000 0,04270 4,27 0,171 összesen 100 – – 1,0000 100 vői 5,646 A tábla egyes adatait (szürke háttér, dupla vonalas keret) így számítottuk ki: • z1 = −1,66605 ≅ 5 − 12,38 4,43 A számításokat EXCEL-programmal végeztük. A számítógép nem kerekített, így 4,429652 ezer Ft-os szórással
dolgozott. (Ezért, ha ellenőrizni akarja munkánkat, Ön se kerekítsen.) • Ψ ( z 2 ) = 0,83862 ≅ 0,8365 ↔ 0,8389 Az egyes z értékekhez tartozó táblabeli értékeket is a számítógép kereste ki, ha az órai munkához megvásárolható táblagyűjtemény z-táblájából keressük ki az értéket, – ez négy tizedes pontosságú – a 0,8365 vagy a 0,8389 áll rendelkezésünkre. (Célszerű a kerekítés matematikai szabályai szerint eljárni, vagy végezhetünk interpolációt.) • 1 − Ψ ( z 3 ) = 1 − 0,62231 = 0,37769 A táblából kikeresett érték komplomenterének (= kiegészítőjének) kiszámítására azért van szükség, mert ha z negatív, akkor a táblából kikeresett valószínűség az adott negatív határ és a pozitív végtelen közötti előfordulást valószínűségét adja meg, azaz nem kezelhető együtt a pozitív z értékekhez kikeresett valószínűségekkel. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza
◄ 272 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok • Vissza ◄ 273 ► p4∗ = 0,26502 = 0,64271 − 0,37769 A táblából kikeresett pozitív z értékhez tartozó valószínűségek és az „átfordított” valószínűségek is mind a negatív végtelen és az adott határ közötti előfordulás esélyét adják meg, de a megfigyelt gyakoriságok ( f i ) osztályközökre vonatkoznak, ezért a normális eloszlást kifejező előfordulási esélyeket (≅ relatív gyakoriságokat) is osztályközökre vonatkoztatva kell megadnunk. • f 5∗ = n ∗ p5∗ = 100 ∗ 0,2088 = 20,88 ♥ Ha a hallgatók szórakozás kiadás szerinti eloszlása illeszkedne a normális eloszlás elméleti görbéjére, akkor a sokaság 20,88 % (0,2088-ad része) költene havonta erre a célra 14 és 17 ezer Ft közötti összeget, azaz a mintában ≅ 21 fő esne ebbe az osztályközbe. A létszámadatokat
tartalmazó oszlopban talán furcsának tűnnek a tizedes pontosságú adatok A próbafüggvény értékének pontosabb számítása érdekében nem kerekítettünk. (A megfogalmazásnál azonban, ahogy az előző bekezdésben látható is, igen) • χ 2 (f egyik összetevője: 6 − f 6∗ f 6∗ ) = (11 − 10,58) 2 2 10,58 ≅ 0,017 Az oszlop összesen adata = a próbafüggvény értéke. 6. Döntés a hipotézisek elfogadásáról illetve elvetéséről Tekintettel arra, hogy ez próba egyoldali, elég megvizsgálnunk – ahogy ezt már többször is jeleztük – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját: számított (5,646) 〈 táblabeli (9,49) Következtetésünk: a nullhipotézist elfogadjuk, az alternatív hipotézist pedig elvetjük, azaz ♥ a vizsgált egyetem hallgatóinak szórakozási kiadás szerinti eloszlása a megfigyelés időpontjában normálisnak tekinthető, a tapasztalati eloszlás görbe
jól közelíti az elméleti haranggörbét. Azokat a mutatókat, melyeket csak normális eloszlás esetén használhatunk, kiszámíthatjuk, értelmezhetjük, alkalmazhatjuk a sokaság jellemzésére. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 273 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 274 ► A vizsgált egyetem hallgatóinak szórakozási kiadás szerinti eloszlása előfordulások a mintában (fő) 40 35 30 25 Adatsor1 20 15 10 5 0 0 5 10 15 20 25 szórakozási kiadások (ezer Ft) 11.1sz ábra Függetlenségvizsgálat A próba az asszociáció mutatóinak igazságtartalmát ellenőrzi. Ezért a 71 fejezetben247 található bemutató példát folytatjuk. Ott 1992 és 2003 évekre vonatkozóan a foglalkoztatottakat egyszerre két ismérv (ágazat = minőségi ismérv ill. nem = minőségi ismérv) szerint csoportosítottuk Egyrészt
kíváncsiak voltunk arra, hogy van-e kapcsolat az ágazatok és a foglalkoztatottak neme között (Van-e olyan ágazat, amelyik „vonzza” férfiakat, ill. van-e olyan, amelyik „vonzza” a nőket?) Másrészt kíváncsiak voltunk rajta, hogy megváltozott-e a mutató értéke az eltelt évtized alatt? Most pedig azt akarjuk ellenőrizni, hogy véletlen-e a mutatók nullától való eltérése, azaz valódi kapcsolat van-e az ismérvek között, vagy csak a mintavétel szeszélyei miatt (pl. szélsőséges minta) kaptuk az alábbi eredményeket 11.5sz tábla A számítások eredményei év Csuprov-mutató 1992 247 T= Cramer féle mutató 452,3966 ≅ 0,18 4025,8 (2 − 1)(14 − 1) C= 452,3966 ≅ 0,34 4025,8 * (2 − 1) Statisztika I. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 274 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok 2003 T= 563,328 ≅ 0,20 3922 (2
− 1)(14 − 1) Vissza C= ◄ 275 ► 563,328 ≅ 0,38 3922 * (2 − 1) 1. A hipotézisek megfogalmazása az aktuális feladattól függetlenül mindig azonos: H0 : Pij = Pi∗ ∗ P∗ j H 1 : van olyan i és j, melyre Pij ≠ Pi∗ ∗ Pj∗ A nullhipotézis a függetlenséget, hiszen azt állítja, hogy a megfigyelt relatív gyakoriságok, azonosak a függetlenséget feltételező relatív gyakoriságokkal (= előfordulási valószínűségekkel) Az alternatív hipotézis pedig, éppen ellenkező állításával, az összefüggést feltételezi. A hipotézisekben szereplő betűk jelentése: Pi∗ = Pij = a kontingencia tábla peremgyakorisága (oszlopkét ismérvváltozat vektor), a "j"-vel jelölt együttes előfordulásáismérvváltozat szerinti nak valószínűsége előfordulás valószínűsége Pj∗ = a kontingencia tábla peremgyakorisága (sorvektor), az "i"-vel jelölt ismérvváltozat szerinti előfordulás valószínűsége 4. Az
elfogadási és a kritikus tartomány kijelölése: Ha α = 5 %-os szignifikancia szinten dolgozunk, és becsléses illeszkedésvizsgálatot végzünk, akkor az elfogadási tartomány felső határa figyelembe véve a szabadságfokot v = ( s − 1)(t − 1) : χ 02,95(13) = 22,4 . A megfelelő elméleti értéket a χ 2 -táblából az 1 − α feliratú oszlopban kell kikeresni. 5. A próbafüggvény számszerű értékének meghatározása: Erre most nincs szükség, egyszerűen átvesszük a korábban megoldott feladatból a szükséges értékeket. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 275 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 276 ► 11.6 sz tábla 1992 1992 megnevezés 1992 megfigyelt adatok f ij f i. * f . j f ij* = I. ágazat a megfigyelt és a függetfüggetlenséget feltételező lenséget feltételező adatok adatok
összehasonlítása = χ 2 összetevőinek számítá- n sa II. férfi mezőgazd. 316,7 III. nő össz. Férfi nő össz. 143,4 460,1 247,0103 213,0897 460,1 férfi nő össz. 19,66174 22,79159 42,45332 . összesen 2.161,3 1864,5 4025,8 2161,3 1.864,5 4.025,8 209,5219 242,8746 452,3966 11.7 sz tábla 2003 2003 függetlenséget felté2003 megfigyelt adatok telező adatok megnevezés f ij f ij* = f i. * f . j a megfigyelt és a függetlenséget feltételező adatok összehasonlítása = χ 2 összetevőinek számítása n ágazat férfiak nők össz. férfiak nők össz. férfiak mezőgazd. 166,6 48,6 215,2 116,686 98,5135 215,2 21,3509 nők össz. 25,2895 46,6404 305,45 563,328 . összesen 2.126,6 1795,4 3922 2126,6 1795,4 3922 257,879 Az 1992-re vonatkozó számítás szerint a próbafüggvény értéke: ≅452, a 2003-ra vonatkozó számítás szerint pedig: ≅ 563. 6. Döntés a hipotézisek elfogadásáról illetve elvetéséről
Tekintettel arra, hogy ez próba is egyoldali, elég megvizsgálnunk – ahogy ezt már többször is jeleztük is – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját: 1992: számított (≅ 452) 〉 táblabeli (22,4) 2003: számított (≅ 563) 〉 táblabeli (22,4) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 276 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 277 ► Így következtetésünk mindkét évben azonos: a nullhipotézist elvetjük, az alternatív hipotézist pedig elfogadjuk, azaz ♥ 5 %-os szignifikancia-szinten állítjuk, hogy a foglalkoztatottak neme és az ágazatok jellege között számottevő kapcsolat van, vannak olyan ágazatok tehát, melyek (inkább) a női és olyanok, melyek (inkább) a férfi dolgozókat vonzzák (alkalmazzák). 11.4 Gyakorló feladatok 1. feladat Mintavételes
eljárással vizsgáljuk egy egyetemen különböző szakokon tanuló diákjainak teljesítményét matematikából. 11.8 sz tábla (=1010 sz tábla) a minta adatai: villamosteljesítmény mérnökök % fő - 50 30 51 – 60 20 61 – 70 10 71 – 80 10 81 – 90 6 91 – 4 összesen 80 gépészinformatikus közgazdász mérnökök 20 20 15 10 3 2 70 34 68 34 22 11 11 180 35 88 88 35 28 6 280 A 11.8 sz táblában foglalt adatokkal már találkozott a becslés gyakorló feladatai között. Most az ott kiszámított eredményekre is szüksége lesz 11.9 sz tábla Egy korábbi mintavétel eredményei: villamosmérnökök gépészmérnökök informatikus közgazdász együtt elemszám 50 35 100 100 285 átlag 65 60 65 70 66 szórás 16 18 14 12 13 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 277 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄
278 ► 1. Állapítsa meg szakonként és az együttes adatra vonatkozóan is – több különböző szignifikancia szinten is, – hogy a hallgatók a teljesítményének szórása azonos-e a 11.9 sz táblában megadott értékekkel! 2. Állapítsa meg a villamosmérnök hallgatók esetében, hogy a 80 % feletti teljesítmény nyújtók aránya azonos-e a többi szakon azonos teljesítmény nyújtok arányával! Az összehasonlítást páronként és egyetlen próbával is végezze el! 3. Vizsgálja meg, hogy a közgazdászok teljesítmény-százalék szerinti eloszlása normálisnak tekinthető-e! Ha szorgalmas, a fenti adatokból még egyéb összehasonlítási lehetőségeket is talál, és azokat is elvégezheti. 2. feladat A háztartások villamosenergia-fogyasztásának vizsgálatára egyik megyénkben 1,4 % -os ( n = 200) EV mintát vettek. A minta adatai: 11.10 sz tábla (=1011 sz tábla) fogyasztás a háztartások aránya a mintában kiegészítő oszlop, adatok az
előző évre kWh % % – 80 5,0 7,0 81 – 100 12,5 15,0 101 – 120 20,0 25,0 121 – 160 22,5 20,0 161 – 200 20,0 18,0 201 – 300 12,5 10,0 301 – 7,5 5,0 összesen 100 100 A 11.10 sz táblában foglalt adatokkal már találkozott a becslés gyakorló feladatai között. Most az ott kiszámított eredményekre is szüksége lesz A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 278 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 279 ► 1. Ellenőrizze, hogy a háztartások villamosenergia-fogyasztás szerinti eloszlása illeszkedik-e a normális eloszlás elméleti görbéjére! 2. Állapítsa meg, vannak-e olyan osztályközök (= fogyasztási kategóriák), amelyekbe azonos arányú fogyasztó tartozik! 3. Igaz-e az állítás, növekedett a villamosenergia-felhasználás együttesen és kategóriánként is az előző évhez
viszonyítva (Az előző évre vonatkozó megoszlási viszonyszámokat a 11.10 sz tábla kiegészítő oszlopában találja meg.) Az előző évben 100 elemű mintát vettek Az ellenőrzéseket több különböző szignifikancia-szinten is végezze el! 3. feladat 11.11 sz tábla Halálozások a meghaltak neme és a halál oka szerint (Magyarország, 2003)248 a meghaltak neme nő férfi a halál oka ↓ összesen daganatos betegségek 19.063 14.999 34.062 táplálkozási és anyagcsere 1.101 1.650 2.751 keringési rendszer 31.841 37.210 69.051 légzőrendszer 3.210 2.229 5.439 emésztőrendszer 5.846 3.599 9.445 összesen 61.061 59.687 120.748 Ezekkel az adatokkal a 7. fejezetben már találkozott, ott azt a feladatot kapta, vizsgálja meg, van-e kapcsolat a meghaltak neme és a halál oka között! Most ellenőrizze, hogy a kapcsolat szignifikáns-e! Munkáját egyszerűsítheti, ha a korábban kiszámított eredményeket felhasználja. 248 Magyar
statisztikai évkönyv, 2003 (KSH, 2004; 68. – 70 old) /A legfőbb halálokokat emeltük ki, a halálestek 88 %-át./ A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 279 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 280 ► 4. feladat 11.12 sz tábla A Magyarországra bevándorló külföldiek száma (fő) életkoruk szerint 249 életkor (év) 1980 2002 férfi nő összesen férfi nő összesen 0 – 14 165 145 310 652 611 1.273 15 – 19 205 157 362 608 707 1.315 20 – 24 241 475 716 1.568 1.536 3.103 25 – 29 182 330 512 1.773 1.406 3.179 30 – 39 221 199 420 2.119 1.296 3.415 40 – 49 73 81 154 1.213 671 1.884 50 – 59 32 47 79 569 384 953 60 – 19 40 59 229 294 523 összesen 1.138 1.474 2.612 8.741 6.905 15.646 A 7. fejezetben már ezekkel az adatokkal is találkozott, ott azt a
feladatot kapta: vizsgálja meg, volt-e kapcsolat a bevándorlók életkora és neme között 1980ban ill. 2002-ben! Most új feladatokat kap 1. Döntse el, hogy 1980-ban ill 2002-ben azonos volt-e a bevándorló férfiak, nők, ill. az összes bevándorló átlagos életkora, ill életkorának szórása! α = 2,5% ill. α = 5,0% 2. Döntse el, változott-e az eltelt évek alatt a bevándorló férfiak, nők, ill az összes bevándorló átlagos életkora ill. annak szórása! Szignifikancia-szint: ua 3. Állapítsa meg, mindkét évre, mindkét nemre és a bevándorlók öszszességére, igaz-e a kijelentés: életkor szerinti eloszlásuk normálisnak tekinthető! α = 5,0% ill α = 10,0% 4. Állapítsa meg, vannak-e olyan életkor-kategóriák, ahol a bevándorlók aránya azonos! Szignifikancia-szint: az általános. 5. Előző döntése alapján válaszoljon, vannak-e olyan életkor-kategóriák, ahol a bevándorlók száma azonos! Munkáját egyszerűsítheti, ha a korábban
kiszámított eredményeket felhasználja. 249 Demográfiai évkönyv, 2003 (KSH, 2004; 90. old) /Az ismeretlen korúak – számuk elenyésző– nélkül./ A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 280 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 281 ► 5. feladat – a gyakorló órákon a feladatokat nem mindig az eddigi részletező formában kapják meg a hallgatók, az alábbiakban erre látnak példákat Egy város 60 ezer 25 éven felüli lakosa közül 300 elemű EV mintát vettek az iskolai végzettség vizsgálatára. A minta szerint a 25 éven felüli lakosok által sikeresen elvégzett iskolaévek átlagos száma 9,2 (szórás: 2,6 ) Számítsa ki P = 98,8% az átlagosan elvégzett iskolai évek számát! Ellenőrizze azt feltevést, hogy a sikeresen elvégzett iskolaévek száma a) kevesebb 10 – nél, b) több 10-nél, c) éppen 10!
Vizsgálja meg, milyen döntések születtek volna 80, 90 és 95 %-os becslési szint mellett! Egy városban a szelektív hulladékgyűjtés bevezetését tervezik. A hulladékfajták becslésére a város háztartásaiból 10 %-os EV mintát vettek. Az éves szilárd hulladékok megoszlása (m3) a mintában: papír műanyag textil üveg fém veszélyes szerves egyéb 162 122 56 24 6 166 40 246 Adjon intervallumbecslést 96 %-os megbízhatósággal az egyes hulladékfajták arányára! Adjon pontbecslést a város évi összes hulladékmennyiségére! 4. Az egészségügyi kormányzat pontos adatok hiányában statisztikai becsléssel kívánja megállapítani, hogy az orvosok hány %-a praktizál magánrendelésen. Ebből a célból 300 elemű EV mintát vettek. A mintába került orvosok közül 72 fő rendelkezett privát pacientúrával Adjon becslést – 95,5 %-os megbízhatósággal – a privát pacientúrával rendelkező orvosok számára, ha ismeretes, hogy a
Magyarországon dolgozó orvosok száma ≅28.000 fő! Becsülje meg az orvosok beteglátogatással töltött havi átlagos idejét, ha ez a mintába 53 óra 12 óra szórással! Állapítsa meg, hogy hány elemű mintát szükséges kiválasztani ahhoz, hogy az időre vonatkozó becslés maximális hibája 1 óra legyen! 5. A háztartások egy főre jutó évi élelmiszer-kiadását 2003-ben, az egyik megyében rétegzett kiválasztás alapján becsülték. Az 500-as mintában a városi háztartások száma 300, átlagos élelmiszer-kiadás 156 ezer Ft, 40 ezer Ft szórás mellett A községekben az átlag 120 ezer Ft, 17,5 %-os relatív szórás mellett A megye háztartásainak 45 %-a városi. Állapítsa meg a városokra, a községekre és az egész megye egy háztartására vonatkozó átlagot! Becsülje meg mindhárom esetben az összes kiadást, ha tudjuk, hogy a megyében 180 ezer háztartás van! 6. Egy főiskolán felmérést végeztek arra vonatkozóan, hogy a hallgatók
mennyi időt fordítanak hetente sportolásra. A kikérdezés EV mintavétellel történt Az 1000 lányból és a 700 fiúból 100 – 100 elemű mintát vettek A minta adatai: lányok 4,2 óra (2,0 óra szórással), fiúk 8,6 óra (2,5 óra szórással). Ismert továbbá, hogy a megkérdezett lányok között 6 óránál többet sportol 12 %, a fiúk körben ez az arány 40 %. Adjon A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 281 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 282 ► intervallumbecslést a hallgatók egyes csoportjaira és összességére vonatkozóan is a heti sportolási idő átlagára és szórására különböző valószínűségi szinteken! Az eredményeket hasonlítsa össze, vonjon le következtetést! Adjon intervallumbecslést a 6 óránál többet sportolók arányára és számára rétegenként és együttesen is a szokásos
valószínűségi követelményt alkalmazva! 7. Egyik megyénkben az elmúlt évben összesen 4500 fő ment nyugdíjba, közöttük a férfiak aránya 40 % volt. Az átlagos szolgálati idő vizsgálatára nemenként egymástól függetlenül 100 – 100 fős EV mintát vettek. A mintába került nők átlagos szolgálati ideje 36 év (szórás: 12 év); a 35 évnél hosszabb szolgálati idővel rendelkezők aránya: 65 %. A férfiak adatai: év - 15 - 20 - 25 - 30 - 35 - 40 40 - % 3 5 7 10 15 15 45 8. 9. 10. 11. 12. Becsülje meg (P = 95 %) a férfiak átlagos szolgálati idejét, a 35 évnél hosszabb szolgálati idővel rendelkezők arányát és számát; az összes nyugdíjasra vonatkozóan ugyanezen adatokat! Számítsa ki, hogy hány elemű AR mintára lett volna szükség, ha az átlagos szolgálati időre vonatkozó hibahatárt megtarthatjuk! Hasonlítsa össze a férfiakra és a nőkre vonatkozó adatokat! Egy fogkrém szabvány szerinti pH-értéke
7,75; a megengedett szórás 0,75. (A pHérték normális eloszlása feltételezhető) A szabvány-érték meglétének ellenőrzésére vett 25 elemű EV minta adatai: 7,25 (0,85 szórás). Írja fel a tanult hipotéziseket, ellenőrizzen különböző szinteken! Egy bizonyos típusú személygépkocsi átlagos fogyasztása a gyártó szerint 8,5 liter/100 km. (A fogyasztás normális eloszlása feltételezhető) Az ellenőrzés céljára vett EV minta adatai: 9,1 (2,2 szórás). Állapítsa meg, hogy a tényleges fogyasztás nagyobb-e gyártó által garantáltnál! Egy kereskedelmi vállalatnál a kártyás fizetési mód bevezetését tervezi azokban az üzletekben, ahol ezt a vásárlók legalább 40 %-a igényli. Ennek felmérésére két üzletben kikérdezték (EV minta) a vevőket A Kínai Áruházban 120 megkérdezett közül 41, az Angol Használtruha Áruházban pedig 150 megkérdezett közül 77 igényelné. Bevezeti-e valamelyik üzletében ezt a fizetési módot a
kereskedelmi vállalat? Egy töltőgép mosóport tölt dobozokba. Hosszú hónapok tapasztalata szerint a töltési tömeg szórása 8 gramm. (A töltési tömeg normális eloszlása feltételezhető) Két egymást követő napon 40 – 40 dobozt felbontottak, lemértek. Az eredmények: 1. nap: 595,5 gramm átlagos töltési tömeg, 2 nap: 603,7 gramm Állapítsa meg, van-e szignifikáns különbség a két napi töltési tömeg között! Egy nagykereskedelmi vállalat raktárában tárolt 80 000 db dobozos üdítőital töltési tömegének vizsgálatára 300 elemű EV mintát vettek. A minta megoszlása: A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 282 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 283 ► töltési tömeg mintabeli gyak. töltési tömeg mintabeli gyak. gramm db gramm db - 940 15 - 1020 63 - 960 21 - 1040 42 - 980 51 -
1060 30 - 1000 60 1060 - 18 Ellenőrizze 5 %-os szignifikancia-szinten, hogy a dobozok töltési tömeg szerinti eloszlása normálisnak tekinthető-e! Becsülje meg az átlagos töltési tömeget, az 1000 grammnál kisebb tömegű dobozok arányát és számát! 13. Egy benzinkútnál feljegyezték a 8 és 16 óra között érkező autók számát óránkénti bontásban: idő 8–9 gépkocsi 24 9 – 10 32 10 – 11 56 11 – 12 32 12 – 13 22 13 – 14 28 14 – 15 36 15 -16 46 Ellenőrizze azt az állítást, hogy óránként azonos valószínűséggel érkeznek a gépkocsik az adott benzinkúthoz! 14. A magyar felnőtt népességet reprezentáló 1200 fős minta alapján vizsgálták a szabadidő-eltöltési szokásokat. A minta adatai: eltöltés ⇒ családdal családdal a egyedül barátokkal egyéb otthon természetben otthon szórakozóhelyen lakóhely Budapest 41 43 39 32 61 város 208 115 77 49 97 község 219 70 44 39 66 házas 278
egyedülálló 176 152 62 63 108 32 97 107 125 gyermek van 321 185 104 72 120 nincs 147 64 56 43 88 életkor (év) 18 – 29 66 46 26 83 65 30 – 39 46 23 15 45 családi állapot 62 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 283 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 40 – 49 86 61 33 14 40 50 – 59 72 44 25 13 36 60 - 167 30 57 3 42 102 90 60 90 88 50 47 105 45 23 11 52 284 ► iskolai végzettség legfeljebb 258 8 év középfokú 130 felsőfokú 49 Vizsgálja meg, hogy a szabadidő-eltöltésének módja mely ismérvvel (ismérvekkel) van szignifikáns kapcsolatban! 11.5 Összefoglalás hipotézis = feltevés valamely sokasági jellemezőre vagy a sokaság eloszlására hipotézisellenőrzés = feltevésünk ellenőrzése egy (vagy több) minta alapján szükséges mert a sokasági
jellemzők számítása mintából történik a munka menete a hipotézis felírása 1. a hipotézis felírása 2. a próbafüggvény értékének meghatározása 3. a táblabeli érték kikeresése (adott P α alapján) 4. összevetés döntés megfogalmazás mindig két hipotézissel dolgozunk együtt sose lehessenek igazak merítsék ki az összes lehetőséget követelmény – – fajtái: 1. nullhipotézis 2. ellenhipotézis = alternatívhipotézis : egyoldali, kétoldali nullhipotézis pl.: ellenhipotézis pl.: H0 : x = X egyoldalú kétoldalú H1 : x ≠ X H1 : x 〈 X A dokumentum használata | Tartalomjegyzék | Táblázatok H1 : x 〉 X vagy Vissza ◄ 284 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok próbafüggvény fajtái (csak a tankönyvben szereplők) z -próba Vissza ◄ 285 ► = a mintaelemeknek egy olyan függvénye, amelynek eloszlása a nullhipotézis
igazságát feltételezve pontosan ismert 1. z -próba 2. egymintás t-próba 3. kétmintás t-próba 4. F-próbák 5. χ 2 -próbák Ha n〉100 és a szórás ismert (nem a mintából!) átlag, arány stb. ellenőrzésére, szabadságfoka = végtelen. z= xa − X 0 σ n Ha n〈100 és/vagy a szórás csak a mintából ismert egymintás t-próba átlag, arány stb. ellenőrzésére, szabadságfoka = ( n − 1) . t= xa − X 0 s n Két minta átlagának, arányainak stb. összehasonlítására, kétmintás t-próba szabadságfoka = ( n1 + n2 − 2) . t= x1 − x2 1 1 + sd ∗ n1 n2 2 minta szórásának összehasonlítására, F-próbák szórásokra szabadságfoka = számláló: ( n1 − 1) , nevező : (n2 − 1) , ahol n1 〉 n2 . s12 F= 2 s2 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 285 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 286
► Több átlag összehasonlítására, szabadságfoka = számláló: (m − 1) , nevező: n − m . SK variancia-analízis F= χ -próbák 2 szórásra eloszlásvizsgálat SB vK vB Mintabeli és pl. szabvány szórás összehasonlítására, szabadságfoka = ( n − 1) . χ = 2 (n − 1)s 2 Annak eldöntésére, illeszkedik-e egy vizsgált sokaság eloszlása valamely ismert (legtöbbször: normális) eloszlás típusra, szabadságfoka = (k − 1 − r ) . χ =∑ 2 függetlenségvizsgálat σ2 (f χ = ∑∑ fajtái − f i∗ f i∗ ) 2 Az asszociációs kapcsolat szignifikáns voltának eldöntésére, szabadságfoka = ( s − 1)∗ (t − 1) . 2 véletlen hiba i (f ij − f ij∗ f ij∗ ) 2 Döntésünk nem lesz mindig helyes. Eredete: nem teljes körű az adatfelvétel. Minden próba csak adott szignifikancia-szinten (1-P) végezhető el 1. elsőfajú hiba 2. másodfajú elsőfajú hiba A null-hipotézis igaz, mégis elvetjük.
Valószínűsége: α = 1 − P α = 1 − Ψ ( z ) másodfajú Az ellenhipotézist fogadjuk el. Valószínűsége: β A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 286 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok fontos – – – Vissza ◄ 287 ► a két hiba egymásból nem számítható ki! a két hiba csak egymás kárára csökkenthető célszerű mindkettőt alacsony szinten tartani elfogadási tartomány H 0 -ra vonatkozik, egyoldali, kétoldali kritikus tartomány H 1 -re vonatkozik, egyoldali, kétoldali döntés A próbafüggvény értékének és a táblabeli értékeknek összevetése alapján. 11.6 Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy gazdaságban a juhállomány gyapjúhozamát vizsgálták. A kiválasztott juhokra (n = 300 db fésűs merinó) vonatkozó adatok: Ha nem a zsebszámológép statisztikai programjával
dolgozik, ezt a munkatáblát használja a becslési feladatokhoz! gyapjúhozam juhok kg/db - 4,00 4,01 – 4,50 4,51 – 5,00 5,01 – 5,50 5,51 – 6,00 6,01 – 7,00 7,01 – 8,00 8,01 – összesen A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 287 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 288 ► Ezt a munkatáblát használja az első (1.3) hipotézisellenőrzési feladathoz! gyapjú-hozam juhok kg/db - 4,00 4,01 – 4,50 4,51 – 5,00 5,01 – 5,50 5,51 – 6,00 6,01 – 7,00 7,01 – 8,00 8,01 – összesen % 5,0 8,3 9,3 14,0 15,0 27,0 15,0 6,3 ≈ 100 A dolgozatokban gyakran nem különülnek el (= egymásra épülnek) a becslési és hipotézisellenőrzési feladatok, ezt mutatjuk be az alábbiakban. 1.1 95 %-os valószínűség mellett adjon becslést a juhok átlagos gyapjúhozamára ill annak szórására! átlag250 szórás 1.2 98 %-os
valószínűség mellett adjon becslést a 6 – 8 kg gyapjúhozamú juhok arányára és számára, ha a kiválasztási arány 2 százalékos! arány létszám 250 Ahogy már többször jeleztük, a vizsgán egy-egy számítás levezetéséhez ill. megfogalmazás leírásához nem ilyen kevés hely áll majd rendelkezésére A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 288 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 289 ► 1.3 Az általánosan használt valószínűség mellett döntse el, normálisnak tekinthető-e a juhok gyapjúhozam szerinti eloszlása! 1.4 Fogalmazza meg az 11 (átlag), 12 (szám) és a 13 feladatok kiemelt eredményeinek jelentését! átlag létszám eloszlás 2. minta Egy tejipari vállalatnál a tejfölösdobozok töltését automata gép végzi. A dobozok névleges töltési tömege 5 dl, a megengedett szórás 0,15 dl. A
gyár egyik szállítmányából 75 elemű EV mintát vettek. A mintában az átlagos töltési tömeg 4,95 dl volt, a szórás 0,125 dl feladatok: 2.1 Becsülje meg (P = 95 %) a minta adatai alapján az átlagos töltési tömegnek és a szórásnak az intervallumát! Fogalmazza meg a kiszámított átlag (intervallum) jelentését! átlag szórás 2.2 Ellenőrizze (valószínűség, mint az előző feladatban), hogy az előző mintavétel óta történt-e változás! Az előző mintavétel elemszáma: 50, a töltősúly 4,9 dl 0,15 dl szórás mellett 1. ellenőrzés 2. ellenőrzés megfogalmazás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 289 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 290 ► 3. minta Egy vidéki város szülészetén az alábbi adatokat figyelték meg: születési hossz (cm) fiúk fő) lányok (fő) 40 – 44 3 3 44 – 48
4 5 48 – 52 36 36 52 – 56 25 25 56 – 60 14 9 összesen 82 78 feladatok: 3.1 Határozza meg (P = általánosan használt) a fiúk átlagos születési hosszát és annak szórását! (kétoldalú becslés) 3.2 Fogalmazza meg a kiszámított adatok jelentését! 3.3 Döntse el, azonos hosszúságúak-e a fiúk és a lányok születésükkor! a döntéshez szükséges és a lányokra vonatkozó adatok megnevezése számítása próbák 3.4 Fogalmazza meg az elvégzett ellenőrzés eredményét! 3.5 Ha a fiúk átlagos testhosszának intervalluma 2,2 szélességű, milyen elemszámú minta alapján dolgozott? (P = mint eddig) Milyen megállapítást tehet a számítás alapján? az új elemszám megállapítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 290 ► Statisztika Hipotézisellenőrzés = statisztikai próbák A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 291 ► 4. minta Az alábbiakban egy,
a gépkocsik gumiabroncsainak futásteljesítményére (km) vonatkozó hipotézisellenőrzés adatait látja: adatok megfogalmazások (4.1 Egy-egy mondattal írja le mit takar a jelölés és a hozzátartozó számadat! A számok mértékegységét is tüntesse fel!) X = 80.000 σ = 18.000 n = 100 x = 78ezer s = 20ezer α = 0,05 H0 : x = X H1 : x ≠ X H0 : s = σ H1 : s ≠ σ 4.2 Fejezze be az elkezdett ellenőrzést! (Ehhez végezze el a szükséges számításokat!) a döntéshez szükséges adaszámítás rövid megfogalmazás tok 1. döntés 2. döntés A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 291 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az idősorok elemezése Vissza ◄ 292 ► 12. Az idősorok elemezése 12.1 Bevezetés Az idősor251 olyan statisztikai sor, melyben az ismérv az idő, az ismérvváltozatok pedig különböző dátumok. Az idősorok két alapvető típusa az állapot- és a
tartam idősor. A koordináta rendszerben történő ábrázolásuk során, a vízszintes tengelyen rendszerint a dátumokat tüntetjük fel, a függőleges tengelyen pedig az egyes időpontokhoz tartozó megfigyelt adatokat. Ábrájuk lehet pont-, vonal- és oszlopdiagram252 Az idősorok adatait elemezhetjük dinamikus viszonyszámokkal253, ezek a megfigyelt adatok relatív változását mutatják. A bázis viszonyszám (bi ) egy kiválasztott (= bázis) adathoz, a láncviszonyszám (li ) mindig az előző adathoz hasonlítja az idősor i-edik adatát. Megoszlási viszonyszámot (wi ) pedig csak a tartam idősorokból számíthatunk. Mind az idősorok megfigyelt adatai, mind az azokból számított változások átlagolhatók254. A tartam idősorok számtani ( y a ) , az állapot idősorok pedig kronologikus ( y kr ) átlaggal jellemezhetők Az átlagos abszolútváltozás (d i ) a megfigyelt adatok különbségeit, az átlagos relatívváltozás (li ) pedig a láncviszonyszámokat
sűríti egyetlen adatba. Az idősorok az eddig megismert módszereken kívül további eszközökkel is elemezhetők. Ehhez az idősorok adatait összetevőikre kell bontani: • alapirányzat ( ŷij ), • szezonhatás (s j , s ∗j ) , • véletlenhatás (v j , v ∗j ) , • ciklushatás. 251 Lásd: 1. fejezet Lásd: 1. fejezet 253 Lásd: 2. fejezet 254 Lásd: 3. fejezet 252 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 292 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az idősorok elemezése Vissza ◄ 293 ► Az alapirányzat (= trend) az idősorban megmutatkozó tartós tendenciát jelenti, ami lehet • növekedés, amikor is d i = y i − y i −1 pozitív ill. li = yi 100 %-nál y i −1 nagyobb; • csökkenés, amikor is d i = y i − y i −1 negatív ill. li = yi 100 %-nál y i −1 kisebb; • stagnálás, amikor is d i = y i − y i −1 ≅ 0 ill. li = yi ≅ 1. yi −1 A társadalmi-,
gazdasági életben lezajló időbeli folyamatok igen gyakran nem mutatnak töretlen fejlődést vagy folyamatos csökkenést. Az alapvető tendencia feltárását azonban ez a tény nem zavarja. A szezonhatás rendszeresen – évente vagy egy évnél is rövidebb időközönként – visszatérő hatás. Ismerete az alkalmazkodás és a jövőre vonatkozó gazdasági tervek készítésekor igen fontos. Kapcsolódhat az időjárás változásához, (Nyáron több fagylaltot, hideg üdítőitalt fogyasztunk, mint télen.) ünnepekhez, (A karácsonyi, húsvéti postai forgalom sokszorosa az egyébként jellemző havi forgalomnak.), törvényi előírásokhoz (Pl: adó befizetési határidők) stb A véletlenhatás előre nem látható, nem tervezhető. Oka mindig valamilyen társadalmi vagy gazdasági esemény Fontos tudnunk, hogy a véletlen szót a statisztika nem a hétköznapi értelemben használja A ciklushatás hosszabb időközönként visszatérő hatás, a gazdasági élet
hullámzását (= konjunktúra, dekonjunktúra) jelenti. Elemzése túlmutat tananyagunk keretein A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 293 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az idősorok elemezése Vissza ◄ 294 ► 12.2 Trendszámítás Az idősorokban megmutatkozó alapirányzat kimutatására két módszerrel ismerkedünk meg: • analitikus és • mozgóátlagolású trendszámítás. Az analitikus trendszámítás eredményeként valamilyen matematikából ismert egyenlettel írjuk le a változást, adjuk meg a „kiinduló értéket” ill. az időszakonként megmutatkozó abszolút vagy relatív változás nagyságát. A mozgóátlagolású trendszámítás eredménye egy az eredetinél rövidebb idősor, melynek elemei vagy egyre nagyobbak (= növekedés) vagy egyre kisebbek (= csökkenés), esetleg közel állandóak (= stagnálás) 12.21 Analitikus trendszámítás Az időbeli
változások leírására, • ha az abszolút változások (d i ) megközelítőleg azonos nagyságúak és kevés kivételtől eltekintve azonos előjelűek, akkor lineáris egyenletet; • ha a relatív változások (100 − l1i ) megközelítőleg azonos nagyságúak és kevés kivételtől eltekintve azonos előjelűek, akkor exponenciális egyenletet számítunk. • Ha az idősorban megmutatkozó változások egy adott időpontban előjelet váltanak (szélső értéke van a függvénynek), akkor a parabolafüggvényt használjuk. • Ha igen hosszú idősorokat kell elemeznünk, akkor gyakran alkalmazzuk az un. logisztikus egyenletet Az analitikus trendszámítás alapvető kérdése, hogyan illesszük az egyenletet a megfigyelt pontok közé. Úgy is fogalmazhatnánk, hogyan válasszuk ki az elvileg létező végtelen lehetőség közül a legjobbat. Ha az idősor megfigyelt adatait úgy ábrázoljuk a koordináta rendszerben, hogy a tengelyeken felvett skála meglehetősen
nagy léptékű, akkor jól látható, hogy a pontdiagram (= a megfigyelt adatok alapján készítjük) pontjai közé sok-sok egyenes vagy görbe rajzolható be. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 294 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 295 ► A lineáris és az exponenciális függvények255 (egyenletek) esetén az un. legkisebb négyzetek módszerét256 alkalmazzuk. Azt az egyenletet tartjuk a legjobbnak, amelyiknek pontjai legközelebb vannak a megfigyelt pontokhoz. A döntéshez összehasonlítjuk az egyes időpontokhoz tartozó megfigyelt és számított (= az egyenesen vagy görbén elhelyezkedő) adatokat, azaz képezzük ezek különbségét. A különbségek között lesznek negatívak (= az egyenes vagy a görbe a megfigyelt pont fölött fut) és pozitívak (= az egyenes vagy a görbe a megfigyelt pont alatt fut) is. Ezek összege – hiszen egyetlen
pont alapján nem hozhatunk döntést – kellően sok megfigyelés esetén, nulla. Ezért nem egyszerűen a különbségekkel, hanem azok négyzetével dolgozunk, és azt a függvényt fogadjuk el legjobbnak, ahol ∑(y i 2 2 − yˆ i ) = ∑ ei2 = ∑ ( yi − β 0 − β1t i ) min .! A képletben szereplő betűk jelentése: ŷ i = yi = ei = yi − yˆ i = az egyenesen vagy a megfigyelt görbén rajta lévő adat = rezidium adat számított adat = trendadat i= az időszakok, időpontok sorszáma, i = 1,2,3,.n A fenti meggondolást és matematikai ismereteinket felhasználva képleteket257 tudunk megadni a különböző egyenlettípusok paramétereinek kiszámításához. Első lépésben az un normálegyenletekhez jutunk el Majd kétféleképpen is folytathatjuk a levezetést, dolgozhatunk: ∑t a ∑t • a i = 0 és a • i ≠ 0 módszerrel is. ti = 1,2,3,.n egy segédváltozó, a dátumokat helyettesíti Ugyanúgy kifejezi az idő egységnyi lépésekkel
való múlását, mint a dátumok, de lehetővé teszi, hogy kisebb számokkal dolgozzunk, és azt, hogy az egyenletek β 0 255 A másik két megemlített egyenlettípus nem képezi tananyagunk részét, de megjegyzzük, hogy a parabolát ugyancsak a legkisebb négyzetek módszerével illesztik; a logisztikus egyenlet esetén pedig az un. három-pontos illesztést alkalmazzák 256 Természetesen egyéb módszerek is léteznek, de ez a legegyszerűbb. 257 A részletes levezetéseket megtalálják az irodalomjegyzékben felsorolt, és az Önök által éppen olvasottnál részletesebb tankönyvekben. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 295 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 296 ► paraméterét könnyebben értelmezhessük. (Tananyagunk csak a másodikként megadott módszert ismerteti, a feladatok megoldása során csak azzal dolgozunk.) Lineáris egyenlet: yˆ
i = β 0 + β 1ti β1 = ∑ t y − (∑ t )(∑ y )/ n ∑ t − (∑ t ) / n i i i i 2 2 i β 0 = y − β1 * t , i ahol y = ∑y i n és t = ∑t i n Exponenciális egyenlet: yˆ i = β 0 * β 1ti lg β 1 = lg yˆ i = lg β 0 + t i ∗ lg β1 258 ∑ t lg y − (∑ t )(∑ lg y )/ n ∑ t − (∑ t ) / n i i i 2 i lg β 0 = lg y − lg β 1 * t , i 2 i ahol lg y = ∑ lg y i n A képletben szereplő betűk jelentése: Az előző magyarázó táblában szereplő betűjeleket nem ismételtük meg. β0 = β1 = matematika: metszéspont az ytengelyen statisztika: lásd a szöveges magyarázat matematika: a kapcsolatot kifejező tényező statisztika: lásd a szöveges magyarázat n= a megfigyelések darabszáma 258 A logaritmikus átalakítással lineáris kapcsolathoz jutottunk, s értelemszerűen alkalmazhatjuk a már ismert képleteket. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 296 ► Statisztika Az
idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 297 ► A lineáris egyenlet β 1 paramétere az átlagos abszolút változással azonos tartalmú adat, kifejezi a vizsgált jelenség időegységre jutó állandó abszolút változását (Itt a szabályos egyenesre gondolunk.), de úgyis fogalmazhatunk: kifejezi a vizsgált jelenség időegységre jutó átlagos (Itt arra gondolunk, hogy a társadalmi-, gazdasági életben a jelenségek kisebb-nagyobb mértékben „hullámzanak”.) abszolút változását. Legyen yˆ 1 = β 0 + β1t1 és yˆ 2 = β 0 + β1t 2 , valamint t 2 − t1 = 1 . Ebben az esetben: yˆ 2 − yˆ 1 = β 1 . Ugyanerre a megoldásra jutunk a matematikából tanultak alapján Lineáris egyenlet esetén, a vízszintes tengelyen egységnyit lépve, a függőleges tengelyen mindig az egyenlet meredekségének megfelelő nagyságú lépést kell megtennünk. Azaz egységnyi abszolút változáshoz (a független
változóra – a trendszámításnál ezt a szerepet az idő tölti be – vonatkoztatva), állandó abszolútváltozás (a függő változóra – a trendszámításnál ezt a szerepet a megfigyelt jelenség adatai töltik be – vonatkoztatva) tartozik. Az exponenciális egyenlet β 1 paramétere az átlagos relatív változással azonos tartalmú adat, kifejezi a vizsgált jelenség időegységre jutó állandó relatív változását (Itt a szabályos görbére gondolunk.), de úgyis fogalmazhatunk: kifejezi a vizsgált jelenség időegységre jutó átlagos (Itt arra gondolunk, – ahogy a lineáris egyenlet esetében is – hogy a társadalmi-, gazdasági életben a jelenségek alakulása kisebb-nagyobb „kilengéseket” mutat.) relatív változását Legyen yˆ 1 = β0 * β t 1 1 és yˆ 2 = β0 * β t 1 2 , valamint t 2 − t1 = 1 . Ebben az esetben: yˆ 2 / yˆ 1 = β 1 . Exponenciális egyenlet esetén, a vízszintes tengelyen egységnyit lépve, a függőleges
tengelyen szereplő adat mindig annyiszorosára változik, ahogy azt az egyenlet x-hez tartozó paramétere mutatja. Azaz egységnyi abszolút változáshoz (a független változóra – a trendszámításnál ezt a szerepet az idő tölti be – vonatkoztatva), állandó relatívváltozás (a függő változóra – a trendszámításnál ezt a szerepet a megfigyelt jelenség adatai töltik be – vonatkoztatva) tartozik. A β 0 paraméter jelentése a lineáris és az exponenciális egyenlet esetén azonos, a megfigyelés előtti utolsó időpont trendadata. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 297 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Legyen Vissza ◄ 298 ► ti = 0 , és helyettesítsük be ezt az értéket mindkét egyenletbe! Ekkor yˆ 0 = β 0 + β1t10 = β 0 0 ill. yˆ 0 = β 0 * β 1 = β0 . De eszünkben juthat az is, amit matematikából tanultunk. Mind a
lineáris, mind az exponenciális egyenlet β 0 259 paramétere az y –tengelyen vett metszéspontot jelenti. Abban a pontban pedig x = 0 BEMUTATÓ PÉLDA I. A következőkben a Magyarországon forgalomban lévő személygépkocsik darabszámára vonatkozó adatokat260 elemezzük a trendszámítás módszerével. Először lineáris, majd exponenciális trendet is számítunk A számításokat EXCEL programmal végeztük. Az eredményeket a program kerekítette egy tizedesre, de a számítások az összes tizedest megtartva történtek. lineáris trend 12.1 sz tábla év yi ti t i2 t i ∗ yi ŷi ei2 1989 1.732,4 1 1 1.732,4 1.879,7 21.693,6 1990 1.944,6 2 4 3.889,2 1.930,2 207,3 1991 2.015,5 3 9 6.046,5 1.980,7 1.209,7 1992 2.058,3 4 16 8.233,2 2.031,2 732,5 1993 2.091,6 5 25 10.458,0 2.081,8 97,0 1994 2.176,9 6 36 13.061,4 2.132,3 1.992,0 1995 2.245,4 7 49 15.717,8 2.182,8 3.920,8 1996 2.254,2 8 64 18.033,6 2.233,3
436,8 1997 2.297,1 9 81 20.673,9 2.283,8 176,45 1998 2.340,0 10 100 23.400,0 2.334,3 32,1 1999 2.382,9 11 121 26.211,9 2.384,8 3,8 259 Lehet, hogy a matematika tanulmányaik során más betűjelekkel operáltak. Arról a paraméterről van szó, amelyik független az x adattól. 260 Magyar statisztikai évkönyv 2003 (KSH – 2004. 19 old, kiemelés, ill a KSH metodika váltása miatt az utolsó évek közölt adatait korrigáltuk) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 298 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 299 2000 2.425,8 12 144 29.109,6 2.435,4 91,5 2001 2.468,7 13 169 32.093,1 2.485,9 295,2 2002 2.511,6 14 196 35.162,4 2.536,4 614,9 2003 2.554,5 15 225 38.317,5 2.586,9 1.050,6 összesen 33.499,5 120 1240 282.140,5 33499,5 átlag 8 2.233,3 ► 32.554,1 Megjegyzések a 12.1 sz táblához: • • •
• • • A megfigyelt adatok állapot idősort alkotnak, ennek ellenére számtani átlagot (33.499,5 / 15 = 2233,3) számítottuk ez szerepel a tábla utolsó sorában A trendszámítás során ui nem teszünk különbséget a különböző jellegű idősorok között A t i − adatok átlaga – ahogy a közölt képletből is látható – egyszerű számtani átlag (120 / 15 = 8). Jelentése nincs A tábla összesen sorában szereplő adatok egyikének sincs statisztikai jelentése. (A megfigyelt adatok ill. a trendadatok összege, ha tartam idősort elemeznénk jelentéssel bíró adat lenne) ∑ y = ∑ yˆ i i , és ez az egyenlőség minden esetben fennáll. Az utolsó oszlopban szereplő adat számításának okát hamarosan ismertetjük. A trendadatok (= az egyenesre illeszkedő adatok) is statisztikai jelentéssel bíró adatok. A szürke háttérrel, vastagabb vonallal jelzett 2536,4 = ♥Ha a Magyarországon forgalomban lévő személygépkocsik darabszáma
szabályosan a lineáris egyenlet szerint alakult volna, akkor 2002-ben ≅2.536400 gépkocsit számolhattunk volna össze A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 299 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 300 ► A Magyarországon forgalomban lévő személygépkocsik száma (1989 - 2003) g é p k o c s i ( m illió d b ) 3000 2500 2000 1500 1000 500 0 0 5 10 15 20 évek 12.11 sz ábra: megfigyelt adatok261 A Magyarországon forgalom ban lévő szem élygépkocsik szám a (1989 - 2003) y = 50,514x + 1829,2 gépkocsi (millió db) 3000 2500 2000 1500 1000 500 0 0 5 10 15 20 évek 12.12 sz ábra: a lineáris trend adatai 261 A megfigyelt és a számított adatokat általában egyetlen ábrán szokás feltüntetni, de ebben az esetben olyan mértékű az egybeesés, hogy a közös ábrán nem látnánk elkülönülni a pontokat (= megfigyelés) és az
egyenest (= számítás). Hasonlóképpen jártunk el az exponenciális egyenletnél is. (Lásd: 1221 és 1222 sz ábrák) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 300 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 301 ► A lineáris egyenlet paramétereinek számítása: β1 = 282140,5 − 120 ∗ 33499,5 / 15 = 50,511607 ≅ 50,5 ezer db 1240 − 120 2 / 15 β 0 = 2233,3 − 8 ∗ 50,511607 = 1829,171 ≅ 1829,2 ezer db A lineáris egyenlet: yˆ i = 1829,2 + 50,5t i (ezer db) A lineáris egyenlet paramétereinek jelentése: ♥ β 0 ≅ 1829,2 Ha a Magyarországon forgalomban lévő személygépkocsik száma szabályosan a lineáris trend szerint alakult volna, akkor 1989-ben 1.829200 db gépkocsi szerepelt volna a nyilvántartásban (és a KSH adatai között). ♥ β1 ≅ 50,5 Ha a Magyarországon forgalomban lévő személygépkocsik száma szabályosan a lineáris
trend szerint alakult volna, akkor évről évre 50.500 darabbal emelkedett volna az állomány, és ha a befolyásoló tényezők nem változnak meg jelentősen, akkor az elkövetkező években is ekkora abszolút változás várható. Vagy így is fogalmazhatunk: a magyarországi személygépkocsi állomány évente átlagosan 50.500 darabbal növekedett a vizsgált időszakban BEMUTATÓ PÉLDA II. exponenciális trend 12.2 sz tábla év yi ti t i2 lg yi t i ∗ lg yi ŷi ei2 1989 1.732,4 1 1 3,23865 3,23865 1.889,2 24.587,4 1990 1.944,6 2 4 3,28883 6,57766 1.933,5 124,1 1991 2.015,5 3 9 3,30438 9,91315 1.978,7 1.350,7 1992 2.058,3 4 16 3,31351 13,25403 2.025,1 1.102,2 1993 2.091,6 5 25 3,32048 16,60239 2.072,5 363,4 1994 2.176,9 6 36 3,33784 20,02703 2.121,1 3.115,1 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 301 ► Statisztika Az idősorok elemezése A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 302 ► 1995 2.245,4 7 49 3,35129 23,45906 2.170,8 5.569,2 1996 2.254,2 8 64 3,35299 26,82394 2.221,6 1.061,3 1997 2.297,1 9 81 3,36118 30,25062 2.273,7 549,3 1998 2.340,0 10 100 3,36922 33,69216 2.326,9 171,0 1999 2.382,9 11 121 3,37711 37,14816 2.381,4 2,2 2000 2.425,8 12 144 3,38485 40,61826 2.437,2 130,3 2001 2.468,7 13 169 3,39247 44,10209 2.494,3 655,7 2002 2.511,6 14 196 3,39995 47,59931 2.552,7 1.692,2 2003 2.554,5 15 225 3,40731 51,10959 2.612,5 3.367,8 1240 50,20005 404,41610 33.491,3 43841,9 összesen 33.499,5 120 átlag 2.233,3 8 3,34667 Megjegyzések a 12.2 sz táblához: • • Azokat a megjegyzéseket, melyek azonosak lennének a 12.1 sz táblánál leírtakkal, nem ismételjük. A megfigyelt adatok logaritmusainak átlagát számtani átlagként számítjuk, statisztikai jelentése nincs. • ∑ y ≅ ∑ yˆ • kétszeri logritmikus
átalakítás miatt rendszerint nagyobb, mint amit a lineáris egyenlet számítása során tapasztalunk.) Az ŷi jelölt trendadatoknak is van jelentése (és nemcsak ebben a feladatban). Pl: i i , és ez az összefüggés minden esetben fennáll. (Bár az eltérés a 2.437,2 ezer db (szürke háttérrel és vastagabb betűvel jeleztük a 122 sz táblában) = ♥ Ha a magyarországi személygépkocsik állománya szabályosan az exponenciális trend szerint alakult volna, akkor 2000-ben 2.437200 db gépkocsit számlálhattunk volna meg A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 302 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 303 ► A Magyarországon forgalomban lévő személygépkocsik száma (1989 - 2003) g é p k o c s i ( m illió d b ) 3000 2500 2000 1500 1000 500 0 0 5 10 15 20 évek 12.21 sz ábra (ua1211): megfigyelt adatok A Magyarországon forgalom ban
lévő szem élygépkocsik szám a (1989 - 2003) y = 1846e0,0232x gépkocsi (millió db) 3000 2500 2000 1500 1000 500 0 0 5 10 15 20 évek 12.22 sz ábra: az exponenciális trend adatai262 262 Ahogy már többször jeleztük, a számításokat az EXCEL-programmal végeztük, és ez az exponenciális egyenlet β1 paraméterét természetes alapú logaritmussal számolja, ezért A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 303 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 304 ► Az exponenciális trend paramétereinek számítása: 404,41610 − 120 ∗ 50,20005 / 15 = 0,010056 β1 ≅ 1,0234 ↓ 1240 − 120 2 / 15 102,34% +2,34% / év lg β 0 = 3,34667 − 8 ∗ 0,010056 = 3,266223 β 0 ≅ 1846 ezer db lg β1 = Az exponenciális trendegyenlet: yˆ i = 1846 ∗1,0234 ti (ezer db) Az exponenciális trendegyenlet paramétereinek jelentése: ♥ β 0 ≅ 1846 Ha a
Magyarországon forgalomban lévő személygépkocsik száma szabályosan az exponenciális trend szerint alakult volna, akkor 1989-ben 1.846000 db gépkocsi szerepelt volna a nyilvántartásban (és a KSH adatai között) ♥ β1 ≅ 1,0234 Ha a Magyarországon forgalomban lévő személygépkocsik száma szabályosan az exponenciális trend szerint alakult volna, akkor évről évre 2,34 %-kal emelkedett volna az állomány, és ha a befolyásoló tényezők nem változnak meg jelentősen, akkor az elkövetkező években is ekkora abszolút változás várható. Vagy így is fogalmazhatunk: a magyarországi személygépkocsi állomány átlagos növekedési üteme a vizsgált időszakban 2,34 % Állítsuk egymás mellé a kétféle trendszámítás eredményeit! 12.3 sz tábla év 1989 1990 * 1732,4 1944,6 lin. 1879,7 exp. 1889,2 1996 1997 2002 2003 2511,6 2554,5 összesen 33499,5 2297,1 1930,2 2254,2 2233,3 2283,8 2536,4 2586,9 33499,5 1933,5 2221,6
2273,7 2552,7 2612,5 33491,3 * megfigyelt adat lát más adatot az ábrára íratva. (A kitevő függvényt alkalmazva megkapjuk az általunk kiszámított β1 adatot) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 304 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az idősorok elemezése Vissza ◄ 305 ► Megfigyelhetjük, hogy az egyes évekre vonatkozó tény- (= gyűjtött) és trendadatok kisebb-nagyobb mértékben eltérnek egymástól. Ennek egyik oka, hogy a megfigyelt adatok nagyságát nemcsak az alapirányzat befolyásolja. (Ezért nem azonosak a megfigyelt és a trendadatok) A másik ok, hogy a változást a két számítás során nem azonos jellegűnek feltételeztük. Az eltérést látva felmerül a kérdés, melyik egyenlettípus írja le jobban a vizsgált jelenség, jelen esetben a magyarországi személygépkocsi állomány időbeli alakulását. A kérdésre ugyanazzal a módszerrel – a
legkisebb négyzetek módszerével – adhatjuk meg a választ, amivel az elvileg lehetséges megoldások közül a legjobb lineáris ill. e legjobb exponenciális egyenletet kiválasztottuk. A döntéshez szükséges adat a szerepel a 121 sz és a 122 sz. táblák utolsó oszlopában ei2 jelöléssel Az elvégzett számítások alapján, a lineáris egyenlet írja jobban a vizsgált változást. (lineáris ∑ e i2 = 32554,1 〈 exponenciális ∑ e i2 = 43841,9) A két (esetleg több) egyenlettípus közötti döntést azért fontos, mert az egyenleteket a múltban lezajló társadalmi-, gazdasági folyamatok jobb megismerésére, és ezáltal a jövőre vonatkozó mind tökéletesebb tervek elkészítésére akarjuk felhasználni. Az előrejelzésnek természetesen szigorú szabályai vannak. Ezek közül az egyik legfontosabb, hogy nem elég egy-egy gazdasági jelenséget önmagában megfigyelni, és alakulását leírni. Elemezni kell a jelenséget befolyásoló tényezőket is,
különösen azt, hogy azokban a közeljövőben várhatóak-e lényeges változások, ha igen, akkor az előrejelzés lehetősége esetleg meghiúsul, vagy az elsődleges számítási eredményeket korrigálni kell stb. 12.22 Mozgóátlagolású trendszámítás Az időben változó jelenségekben megmutatkozó alapirányzat kimutatásának másik lehetséges módszere a mozgóátlagolás. A mozgóátlagolás alapvető problémája a tagszám (= k ) meghatározása. A tagszámot úgy kell megválasztani, hogy az idősorban megmutatkozó hullámzás eltűnjön, vagyis a tagszám egy teljes periódust átfogjon. Egy teljes periódusban mindig vannak visszaesést ill kiugrást mutató időszakok, és ezek rendszeresen ismétlődnek Az ismétlődés ritmusát megtalálni olyan idősorok esetén, melyek évekre vonatkozó adatokból állnak elég nehéz és hosszadalmas feladat, ezért mi is olyan idősort esetén mutatjuk be a módszert, ahol a periódus egy év hosszúságú. A
levélpostai küldemények idősorát fogjuk elemezni. Ez azonban nem jelenti azt, hogy a mozgóátlagolás ne lenne alkalmazható bonyolultabb esetekben is.263 263 Gyakori hallgatói tévedés: hónapokra (negyedévekre stb.) vonatkozó adatokból „csak” mozgóátlagolással mutatható ki az alapirányzat; ill. az évekre vonatkozó adatokból „csak” analitikus trendszámítással. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 305 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az idősorok elemezése Vissza ◄ 306 ► A mozgóátlagolás lényege a hullámzás eltüntetésével az alapirányzat kimutatása. E feladat megoldásának menete: • • • • a tagszám (k ) megállapítása, a mozgóösszege kiszámítása, a mozgóátlagok meghatározása, (szükség esetén) centrírozás. A mozgóösszeg számítása során először a tagszámnak megfelelő első k adatot adjuk össze, az összeget
feljegyezzük, majd elhagyva az idősor első adatát ismét k adatot összegzünk. (Most az összeadás első eleme az idősor második adata, utolsó eleme pedig az idősor (k + 1) -dik eleme.) És így tovább Abban az esetben, ha k = páratlan szám (van középső időpont), akkor az összeget a középső időpont mellé írjuk; ha k = páros szám (nincs középső időpont), akkor az összeget a két „középső” időpont közé írjuk. (Az adat „lóg a levegőben".) A mozgóátlagolás a mozgóösszegeknek a tagszámmal való osztását jelenti. (Lényegében egyszerű számtani átlagokat számítunk.) Ezek az átlagszámok abban az esetben, ha k = páratlan szám, a keresett trendadatokat jelentik. Ha azonban a k = páros szám, akkor az átlagok sem tartoznak időponthoz, ez lehetetlenné teszi az eredeti és a számított adatok összehasonlítását. A probléma megoldását a centrírozás, a középre igazítás jelenti Ez tulajdonképpen egy újabb
mozgóátlagolás, ahol a tagszám mindig kettő. Tehát páros tagszám esetén a centrírozott adatok jelentik a trendértékeket. A mozgóátlagolású trendszámításnak, mint módszernek a statisztikai gyakorlat szempontjából előnyei és hátrányai is vannak. Egyik hátránya, hogy a trendadatok sora kevesebb elemből áll, mint a megfigyelt adatok sora. Ezt a jelenséget nevezzük adatvesztésnek Emiatt, bár egyes szerzők ajánlják, nagyon megfontolandó, hogy tagszám egészszámú többszöröseit használjuk az átlagok (= a trendadatok) kiszámítására. Fontos tudni, hogy ha a tagszám páratlan, akkor (k − 1) , ha pedig páros, akkor éppen (k ) adatot vesztünk. Az adatvesztés egyik fele az idősor elején, másik fele pedig az idősor végén jelentkezik. Másik hátránya, hogy eredményül nem egyenletet kapunk, azaz a változás abszolút vagy relatív nagyságát nem tudjuk egyetlen adattal jellemezni. A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 306 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 307 ► Ezen a gondon sokszor úgy segítenek, hogy a mozgóátlagokból trendegyenletet számítanak. Harmadik hátrányos tulajdonsága, hogy alkalmazásával sokkal bonyolultabbá válik az előrejelzés, (amihez az átlagos abszolút- ill. relatívváltozást ismerete szükséges) Természetesen, ha a mozgóátlagokból kiszámítottuk az előbbiekben említett egyenletet, akkor ez a gond is megoldódik Kétségtelen előnye, hogy alkalmazása kevesebb matematikai ismeretet követel, ill. segédeszközök (zsebszámológép, személyi számítógép stb) hiányában is könnyen megkapjuk a trendértékeket. Bár ez sem elhanyagolható, ennél fontosabb, hogy a trendadatok nagyságát mindig csak a környezetükben lévő megfigyelt adatok befolyásolják. Különösen igen hosszú idősorok esetén lényeges ez a szempont.
Például egy család jelenlegi és az elkövetkező néhány hónapra várható húsfogyasztását nagyon kevéssé – sőt talán mondhatjuk azt is, hogy egyáltalán nem – befolyásolja a 10 évvel ezelőtti húsfogyasztása. BEMUTATÓ PÉLDA A kapuvári postahivatal levélforgalmi adatai 2001 – 2005 havi bontásban, (db) 12.4sz tábla évek 2001. jan. 17.603 febr. 12.864 márc. 15.781 ápr. 18.570 máj. 14.973 jún. 12.632 júl. 13.811 aug. 15.869 szept. 12.994 okt. 15.636 nov. 13.944 dec. 28.418 összesen 193.095 hónapok 2002. 17.695 14.980 22.697 15.691 16.414 18.176 16.245 16.200 15.924 17.902 14912 27.703 214.539 2003. 15.848 14.530 12.866 17.665 12.492 12.265 14.548 11.261 14.859 15.864 12.583 25.893 180.674 A dokumentum használata | Tartalomjegyzék | Táblázatok 2004. 18.145 13.019 15.202 16.393 14.274 16.470 13.500 13.461 13.190 13.480 13.495 17.713 178.342 2005. 13.004 12.425 15.085 12.814 13.349 12.588 15.391 14.054 14.182 13.865 16.249 19.141 172.147
Vissza ◄ 307 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 308 ► Ha a 12.4 sz tábla adatain végignézve kétféle következtetést tudunk levonni Szeptember és november hónapokat kivéve a 2005 egyes hónapjainak levélforgalma alacsonyabb, mint 2001 azonos hónapjainak forgalma; vagyis az idősorban megmutatkozó alapirányzat = csökkenés. Erre enged következtetni az is, hogy az éves forgalmi adatok is egyre kisebbek (Lásd: összesen sor) Ha egy-egy éven belül hasonlítjuk össze a havi forgalmi adatokat, akkor pedig azt tapasztaljuk, hogy a februárban a januárinál mindig alacsonyabb a forgalom; majd egyes években már márciusban, más években pedig csak áprilisban újra magas adatokat látunk. Az újabb visszaesést egy nyári növekedés, majd decemberben egy kiugrás követi; vagyis a forgalomban szezonális ingadozást is megfigyelhetünk. A 12.4 sz tábla adatai alapján leírt
megfigyeléseinket a 123 sz ábra jól szemlélteti 12.3 sz ábra Kapuvár levélforgalmi adatai 2001 - 2005 30000 levélforgalom (db) 25000 20000 Adatsor1 15000 10000 5000 0 0 10 20 30 40 50 60 70 évek / hónapok Az idősorra jellemző alapirányzatot most (először) mozgóátlagolással határozzuk meg. A 125 sz tábla az ehhez szükséges munkatábla A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 308 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 309 ► 12.5 sz tábla levél év 2001 2002 Hónap yij centrirozott mozgó öszeg mozgóátlag adat ŷij jan. febr. márc. ápr. máj. (db) 17.603 12.864 15.781 18.570 14.973 jún. júl. aug. szept. okt. nov. dec. jan. febr. márc. ápr. máj. 12.632 193095 13.811 193187 15869 195.303 12.994 202219 15.636 199340 13.944 200781 28.418 206325 17.695 208759 14.980 209090 22.697 212020 15.691 214286 16.414 215254
16.091,25 16.098,92 16.275,25 16.851,58 16.611,67 16.731,75 17.193,75 17.396,58 17.424,17 17.668,33 17.857,17 17.937,83 – 16.095 16.187 16.563 16.732 16.672 16.963 17.295 17.410 17.546 17.763 17.898 jún. júl. aug. szept. okt. nov. dec. 2003 jan. febr. márc. ápr. 18.176 214539 16.245 212692 16.200 212242 15.924 202411 17.902 204385 14.912 200463 27.703 194552 15.848 192855 14.530 187916 12.866 186851 17.665 184813 17.878,25 17.724,33 17.686,83 16.867,58 17.032,08 16.705,25 16.212,67 16.071,25 15.659,67 15.570,92 15.401,08 17.908 17.801 17.706 17.277 16.950 16.869 16.459 16.142 15.865 15.615 15.486 A dokumentum használata | Tartalomjegyzék | Táblázatok – – – – – Vissza ◄ 309 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok 2004 2005 Vissza ◄ máj. jún. júl. aug. szept. okt. nov. dec. jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. jan. febr. márc. ápr. máj. 12.492
182484 12.265 180674 14.548 182971 11.261 181460 14.859 183796 15.864 182524 12.583 184306 25.893 188511 18.145 187463 13.019 189663 15.202 187994 16.393 185610 14.274 186522 16.470 178342 13.500 173201 13.461 172607 13.190 172490 13.480 168911 13.495 167986 17.713 164104 13.004 165995 12.425 166588 15.085 167580 12.814 167965 13.349 170719 15.207,00 15.056,17 15.247,58 15.121,67 15.316,33 15.210,33 15.358,83 15.709,25 15.621,92 15.805,25 15.666,17 15.467,50 15.543,50 14.861,83 14.433,42 14.383,92 14.374,17 14.075,92 13.998,83 13.675,33 13.832,92 13.882,33 1.3965,00 13.997,08 14.226,58 15.304 15.132 15.152 15.185 15.219 15.263 15.285 15.534 15.666 15.714 15.736 15.567 15.506 15.203 14.648 14.409 14.379 14.225 14.037 13.837 13.754 13.858 13.924 13.981 14.112 jún. 12.588 172147 14.345,58 14.286 júl. aug. szept. okt. nov. dec. 15.391 14.054 14.182 13.865 16.249 19.141 A dokumentum használata | Tartalomjegyzék | Táblázatok 310 ► 310 ► – – – – – – Vissza
◄ Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 311 ► Megjegyzések a 12.5sz táblához: • • • • A mozgóösszegek és a mozgóátlagok oszlopok adatai nem taroznak egyik időponthoz sem. Ezt úgy szokás bemutatni, hogy az adatok két sor között szerepelnek, táblánk azonban így nagyon terjedelmessé válna, ezért a rácsozat elhagyásával érzékeltetjük ezt a tény. Néhány mozgóösszeg = tény adat, egy–egy év teljes levélforgalmát mutatja, (Ezeket vastagabb betűvel kiemeltük.) bár tulajdonképpen az oszlop minden további adata éves forgalmi adat, csak ezek az „évek” nem januárral kezdődnek. Egy mozgóösszegre (200.781) vonatkozóan – a könnyebb megértés érdekében – hármas-vonallal bekereteztük azokat az adatokat, melyeket össze kellett adnunk. A centrírozott adatok (= trendadatok) a megfigyelt adatokhoz hasonlóan egy-egy időpontra vonatkoznak, és
jelentéssel bírnak. Pl: (szürke háttérrel, kerettel, vastagabb betűvel) ♥ Ha a kapuvári posta levélforgalmában nem mutatkozna szezonális ingadozás, akkor az alapirányzatnak (= csökkenés) megfelelően 2005. júniusában 14.286 levelet vettek volna föl A 12.4 és a 125sz ábrák jól szemléltetik a kétféle trendszámítási módszer különbségét. A mozgóátlagolás adatai nem folyamatos csökkenést jeleznek, a lineáris trend egyenese viszont állandónak mutatják azt 12.4 sz ábra Kapuvár levélforgalmi adatai 2001 - 2005 30000 levélforgalom (db) 25000 20000 15000 10000 5000 0 0 10 20 30 40 50 60 70 évek / hónapok az ugrálást mutató vonal = megfigyelt adatok a kisebb hullámzást mutató vonal = mozgóátlagolással számított trendadatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 311 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 312 ►
12.5 sz ábra Kapuvár levélforgalmi adatai 2001 - 2005 y = -42,411x + 16940 30000 levélforgalom (db) 25000 20000 15000 10000 5000 0 0 10 20 30 40 50 60 70 évek / hónapok az ugrálást mutató vonal = megfigyelt adatok az összefüggő egyenes vonal = az EXCEL programmal meghatározott lineáris trend 12.3 A szezonhatás vizsgálata A szezonhatás rendszeresen – egy évnél rövidebb időközönként – viszszatérő hatás. Ahogy a bevezetőben említettük, kapcsolódhat például az időjárás változásához, egyes ünnepekhez, törvényi előírásokhoz stb. Nagyságának vagy mértékének ill jellegének (= a trendtől való eltérés előjele) kimutatásához a megfigyelt (= tény) és a számított (= alapirányzat) adatok összehasonlítására van szükségünk. Ha a két adat különbségét ( yij − yˆ ij ) képezzük, akkor eredményül szezonális eltéréseket (s j ) ; ha azonban a két adat hányadosát ( yij / yˆ ij ), akkor szezonindexeket
(s ∗j ) kapunk. A szezonális eltérések ill. a szezonindexek számításához a különbségeket ill a hányadosokat egy speciális munkatáblába szokás rendezni A munkatáblák oldalrovata tartalmazza az egymást követő periódusok elnevezését. Ezeknek a sorszámát adjuk meg y futóindexének i -betűjével (i = 1,2,3.n ) A munkatáblák fejlécébe pedig a perióduson belüli szezonok (= azonos jellegű eltérést mutató időpontok, időszakok) megnevezé- A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 312 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 313 ► sét írjuk. Ezeknek a sorszámát adjuk meg y futóindexének j -betűjével ( j = 1,2,3.k ) Így egymás alá kerülnek az azonos jellegű szezonokra számított különbségek vagy hányadosok Ezekről látni fogjuk, hogy – általában – kisebb-nagyobb mértékben eltérnek egymástól Ennek oka, az idősor
harmadik összetevőjének, a véletlenhatásnak a jelenléte Ezt az eltérést átlagolással szűrhetjük ki, azaz a táblában egymás alatt sorakozó, tehát azonos jellegű szezonhoz tartozó adatokat összegezzük, majd darabszámukkal elosztjuk (= egyszerű számtani átlagot számítunk). Az előzőekben leírt átlagszámítással kapcsolatban két fontos megjegyzésünk van. • Az osztóba n (= a megfigyelt periódusok száma) csak akkor kerülhet, ha a tényadatokból egyenletet számítottunk, tehát nincs adatvesztés, és így a két adatsor azonos elemszámú, azaz minden időponthoz tartozóan van kisebbítendőnk (vagy osztandónk) ill. kivonandónk (vagy osztónk). Ha azonban a trendértékeket mozgóátlagolással határoztuk meg, azaz van adatvesztés, akkor az átlagoláskor az osztóban (n − 1) fog szerepelni • A szezonindexek esetén – elméleti megfontolások alapján – lehetséges az egyszerű számtani átlag helyett a hányadosok mértani
átlagát számítani. Ez azonban már feltétlenül szükségessé teszi valamilyen segédeszköz használatát (Ki tud úgymond „fejben” pl. tizedik gyököt vonni?) Az átlagolással kiszámított szezonális eltéréseket ill. szezonindexeket szokás még korrigálni annak érdekében, hogy a különbségek összege nulla (∑ s j = 0) , ill., hogy az indexek átlaga együtthatós formában egy egész (százalékos formában 100) legyen Gondoljon arra, hogy ∑y ij = ∑ yˆ ij ! Azaz, amennyivel magasabb (átlagosan) az egyik adat a szezon hatására, annyival alacsonyabbnak (átlagosan) kell lennie a másik adatnak. Ha pedig képezzük a kiszámított indexek (%) és a 100 % (= nincs eltérés) különbségét és ezeket összegezzük, akkor nullát kell kapnunk. (∑ s ∗j − 100 ) = 0 A korrigálás szezonális eltérés esetén úgy történik, hogy minden még korrigálatlan adathoz (a szezonra számított átlagos eltéréshez) hozzáadjuk a korrekciós
tényezőt, szezonindex esetén pedig minden korrigálatlan adatot (a szezonra számított átlagos hányadost) elosztunk a korrekciós tényezővel. Ezek (k j ill k ∗j ) számítása mindkét esetben azonos módon történik A még korrigálatlan átlagokat összeadjuk, majd az összeget elosztjuk a szezonok számával. A korrekciós tényezőnek szezonális eltérés esetén előjele is van. Ha az átlagok összege nagyobb nullánál, akkor negatív, ha pedig az átlagok összege kisebb nullánál, akkor pozitív. (Gondoljon arra, mindig a nulla irányába kell elmozdulni!) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 313 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 314 ► A szezonális eltérések azt fejezik ki, hogy különböző rendszeresen ismétlődő hatások következtében az egyes szezonokban átlagosan mennyivel tér el a tényadat a trendértéktől, azaz
mennyivel (hány Ft-tal, darabbal stb.) kisebb vagy nagyobb annál. A szezonindexek pedig ugyanezt százalékos formában adják meg. (Legalábbis megfogalmazni mindig ilyen formában – és nem a számítás közvetlen eredményeként kapott együtthatós formában – egyszerűbb jelentésüket.) Az eddig elmondottak képletszerűen: • szezonális eltérés: sj = ∑ (y − yˆ ij ) ij n + k j , ahol k j = ∑s j k (Fontos: adatvesztés esetén a nevezőben: (n-1) szerepel.) • szezonindex: s ∗j = ∑ (y ij n / yˆ ij ) / k ∗j . , ahol k j = ∑s ∗ j k (Fontos: adatvesztés esetén a nevezőben: (n-1) szerepel.) BEMUTATÓ PÉLDA A kapuvári levélforgalomra vonatkozó adatokkal dolgozunk tovább, a mozgóátlagolás trendadatait felhasználva. Először szezonális eltérést számítottunk Ennek érdekében meghatároztuk a megfigyelt és a trendadatok különbségét (= yij − yˆ ij ) , majd berendeztük azokat a 13.6 sz táblába, ahol az azonos
szezonokra vonatkozó adatok egy-egy oszlopba egymás alá kerültek. Ezután elvégeztük az átlagolást és a szükséges korrigálást 12.6a) sz tábla hó év↓ jan. febr. márc. ápr. máj. jún. 2001 – – – – – – 2002 400 -2.430 5151 -2072 -1.484 -1.556 2003 -294 -1.335 -2.749 2.179 -2.812 -2.867 2004 2.479 -2.695 -534 826 -1.232 1.267 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 314 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok 2005 össz. -750 1.835 -1.433 -7.893 1.161 Vissza -1.167 3.029 -234 -763 ◄ 315 ► -1.698 -6.290 -4.854 átlag 458,79 -1.973,26 757,27 -58,40 -1.572,47 -1.213,41 korrigált átlagok 551 -1.881 850 34 -1.480 -1.121 nov. dec. 12.6b) sz tábla hó év↓ júl. aug. szept. okt. 2001 -2.284 -318 -3.569 -1.096 -2.728 11.455 2002 -1.556 -1.506 -1.353 952 -1.957 11.244 2003
-604 -3.924 -360 601 -2.702 10.359 2004 -1.148 -948 -1.189 -745 -542 3.876 2005 – – – – – – össz. -5.592 -6.695 -6.472 -288 -7928 36.934 átlag -1.397,97 -1.673,74 -1.617,92 -71,9583 -1.982,08 9.233,54 korrigált átlagok -1.305 -1.581 -1.525 21 -1.889 9.326 Magyarázatok és megjegyzések a 12.6 a) és b) sz táblához: • • • • • • • A számításokat az EXCEL-programmal végeztük. A program az összes tizedest megtartva (ami itt nem is látszik) dolgozott. A táblát terjedelme miatt helyeztük el kettéosztva. Az első kiemelt adat (2002. jan) számítása: y 2,1 − yˆ 2,1 = 17695 − 17295 = 400 (A tábla valamennyi belső adatát (400 –tól 3.876-ig) azonos módon számítottuk ki) 2001 első hat, ill. 2005 utolsó hat hónapjában az adatvesztés miatt nincsenek különbség adatok Az oszlopok adatainak összegzése az előjelek figyelembevételével történt, és történik mindig. Az oszlopok adatainak
átlagolása során – az adatvesztés miatt – néggyel osztottunk. Pl.: május: − 7928 / 4 = −1982 (Az átlag a rovatban 1982,08 szerepel – ahogy utaltunk is rá – a háttérben lévő tizedesek miatt.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 315 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok • Vissza ◄ 316 ► A korrekciós tényező számítása: 458,79 + (−1.973,26) + + (−1982,08) + 9233,54 ≅ −92,6337 12 • A korrekciós tényező előjele mutatja, hogy pozitív irányban kell elmozdulni annak érdekében, hogy az átlagok összege nulla legyen. Pl júliusban: − 1.397,97 + 92,6337 ≅ −1305 A szezonális eltérések alapján az év hónapjait három csoportba oszthatjuk. Vannak hónapok, amikor gyakorlatilag az alapirányzat érvényesül: április és október. (A 34 és a 21 db levélnyi eltérés sokkal inkább a véletlen, mint valamilyen
visszatérő és rendszeres hatás.) Az alapirányzathoz képest kevesebb levelet adtak föl az ügyfelek februárban, májusban, júniusban, júliusban, augusztusban, szeptemberben és novemberben A legnagyobb negatív eltérés februárban és novemberben figyelhető meg. (A nyári hónapok negatív szezonális eltérései jól jelzik, hogy a város nem nyaralóhely és nem is idegenforgalmi célpont. Egy Balaton környéki postahivatal forgalmát vizsgálva, egészen biztos más eredményre jutottunk volna) Az alapirányzatnál nagyobb forgalom jellemezte januárt, márciust és decembert. Ezek a pozitív eltérések részben az adófizetési határidőknek, részben a karácsonyi üdvözlőlap feladásoknak köszönthető. A legnagyobb pozitív eltérést decemberben tapasztaltuk, és ezt részletesebben így fogalmazhatjuk meg. ♥ Különböző rendszeresen ismétlődő hatások következtében decemberben a vizsgált postahivatal levélforgalma átlagosan 9.326 darabbal
magasabb, mint ahogy arra az alapirányzat ismeretében számíthattunk Bár egy-egy élesben zajló vizsgálat során általában nem kerül sor a szezonális ingadozás kétféle módszerrel való bemutatására, tankönyvünk – a szemléltetés kedvéért – ugyanezen adatok segítségével a szezonindex számítását is közli. Először ismét a megfigyelt és a trendadatok összehasonlítására került sor (= yij / yˆ ij ) , majd a hányadosokat a 127 sz táblába rendeztük, ahol az azonos szezonhoz tartozó adatok egy-egy oszlopot alkotnak Ezután elvégeztük az átlagolást és a szükséges korrigálást A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 316 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 317 ► 12.7 a) sz tábla hó jan. év↓ febr. márc. ápr. máj. jún. 2001 – – – – – – 2002 1,0231 0,8604 1,2936 0,8834 0,9171 1,0150
2003 0,9818 0,9158 0,8239 1,1407 0,8163 0,8106 2004 1,1583 0,8285 0,9661 1,0531 0,9206 1,0834 2005 0,9455 0,8966 1,0834 0,9165 0,9459 0,8811 összesen 4,1086 3,5014 4,1670 3,9937 3,5999 3,7900 átlag 0,875342 1,041745 0,998418 0,899972 0,947505 1,02716 korrigált 1,0321 átlagok eltérés % +3,21 0,8795 1,0467 1,0032 0,9043 0,9520 -12,05 +4,67 +0,32 -9,57 -4,8 12.7 b) sz tábla hó júl. év↓ aug. szept. okt. nov. dec. 2001 0,8581 0,9803 0,7845 0,9345 0,8364 1,6753 2002 0,9126 0,9150 0,9217 1,0562 0,8840 1,6832 2003 0,9601 0,7416 0,9763 1,0394 0,8232 1,6669 2004 0,9217 0,9342 0,9173 0,9476 0,9614 1,2801 2005 – – – – – – 3,5711 3,5998 3,9777 3,5050 6,3054 összesen 3,6525 átlag 0,913115 0,892787 0,899957 0,994418 0,876251 1,57636 korrigált 0,9175 átlagok 0,8970 0,9043 0,9992 0,8804 1,5839 eltérés % -8,25 -10,3 -9,57 -0,08 -11,96 +58,39 A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 317 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 318 ► Magyarázatok és megjegyzések a 12.7sz táblához: • • • . A táblát terjedelme miatt helyeztük el kettéosztva A számításokat ismét az EXCEL-program segítségével végeztük. Az első kiemelt adat (2002. jan) számítása: • • • (A tábla valamennyi belső adatát (1,0231 –tól 1,2801-ig) azonos módon számítottuk ki.) 2001 első hat, ill. 2005 utolsó hat hónapjában az adatvesztés miatt nincsenek hányados adatok Az oszlopok adatainak átlagolása során – az adatvesztés miatt – néggyel osztottunk. Pl.: május: 3,79 / 4 = 0,9475 • A korrekciós tényező számítása: y2,1 / yˆ 2,1 = 17695 / 17295 = 1,0231 1,02716 + 0,875342 + . + 0,876251 + 1,57636 ≅ 0,995252 12 • A korrekciós tényezővel az átlag-sorban szereplő valamennyi adatot elosztottuk (a
korrigálást minden estben így kell megoldanunk), majd kerekítettünk. Pl: július 0,913115 / 0,995252 ≅ 0,9175 A 12.7 sz tábla adatai alapján természetesen ugyanazokat a következtetéseket vonhatjuk le, mint előző (126 sz tábla) számítások végén Egy „furcsaságot” azonban megfigyelhetünk Október hónapban (eltérő háttérrel kiemeltük) a szezonális eltérés pozitív, a szezonindex negatív = s ∗j ∗ 100 − 100% , ez azonban nem jelent ellentmondást. Már a korábbiakban jeleztük, októberben tulajdonképpen nincs is szezonhatás A látszólag ellentmondó eredmény, a módszerek különbségéből adódik Végül példaként ismét megfogalmazzuk az egyik szezonindex jelentését. ♥ Különböző rendszeresen ismétlődő hatások következtében decemberben a vizsgált postahivatal levélforgalma átlagosan ≅ 58 %-kal magasabb, mint ahogy arra az alapirányzat ismeretében számíthattunk. ( ) A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 318 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 319 ► 12.4 A véletlenhatás vizsgálata A véletlenhatás előre nem látható, nem tervezhető. Ahogy a bevezetőben is írtuk, oka mindig valamilyen társadalmi vagy gazdasági esemény v∗ v A véletlenhatást (különbség: ij ill. index: ij ) un maradéktagként számíthatjuk ki Tekintettel arra, hogy az idősorok összetevői – ezek az alapesetek – összegszerűen (= additív módon) ill szorzatszerűen (= multiplikatív módon) kapcsolódhatnak, a még nem ismert véletlentagot kivonással ill. osztással határozhatjuk meg. • Additív kapcsolat esetén: yij = yˆ ij + s j + vij vij = yij − yˆ ij − s j = véletlen eltérés • Multiplikatív kapcsolat esetén: ∗ yij = yˆ ij ∗ s ∗j ∗ v ∗ij vij = yij yˆ ij ∗ s ∗j = véletlen index A különbséggel megállapított véletlentagnak ugyanaz
a mértékegysége, mint a tényadatnak és a trendadatnak, a hányadosként megállapított véletlentagnak pedig nincs mértékegysége (= együtthatós forma), ill. %-ká alakíthatjuk A véletlen eltérés a különböző nem rendszeresen ismétlődő hatások abszolút nagyságát mutatja meg, ahhoz az adathoz képest, amit a trend- és a szezonhatás alapján vártunk, a véletlenindex ugyanezt %-os formában adja meg. Fontos tudnunk, és ezt a feladatok megoldása során ellenőrizni is kell, hogy a kiszámított véletlenhatások semmiféle szabályosságot nem mutathatnak, (sem előjelűk, sem abszolút nagyságuk nem lehet rendszeresen azonos az egyes szezonokra vonatkozóan). Ha mégis szabályszerűséget tapasztalunk, számításainkat meg kell ismételni, másféle módszerekkel. BEMUTATÓ PÉLDA A mozgóátlagolású trendszámítás bemutatásánál megkezdett és a szezonhatások számításával folytatott példánk adataival dolgozunk tovább. Meghatároztuk mind a
véletlen eltéréseket (vij ) , mind a véletlen indexeket A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 319 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 320 ► (v ) . Számításainkból kiemeltük a 2002-re vonatkozó eredményeket, eze∗ ij ket közöljük a 12.8 sz táblában 12.8 sz tábla 2002 vij vij∗ jan. febr. márc. ápr. máj. -152 -550 4.301 -2.106 -4 0,9913 0,9783 1,2358 0,8806 1,0142 jún. 1.389 1,0661 júl. aug. szept. okt. nov. dec. -251 76 172 931 -67 1.918 0,9947 1,0200 1,0193 1,0571 1,0041 1,0627 Példaként nézzük a júniusra vonatkozó véletlenhatások számítását és szöveges megfogalmazását! v26 = 18176 − 17908 − (−1121) = 1389 db v2∗, 6 = 18176 ≅ 1,0661 106,61% +6,61% 17908 ∗ 0,952 ♥ Különböző nem rendszeresen ismétlődő hatások következtében 2002. júniusában a vizsgált postahivatal levélforgalma 1389
darabbal (a másik módszer szerint 6,61 %-kal)magasabb volt, mint ahogy azt a megismert alapirányzat és a szezonhatás alapján vártuk. Fontos! Hasonlítsuk össze a szezonhatások és a véletlenhatások megfogalmazását! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 320 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Az idősorok elemezése Vissza ◄ 321 ► • A szezonhatások általában vonatkoznak egy-egy szezonra, ismétlődnek; a véletlenhatások konkrét dátumhoz kapcsolhatók. • A szezonhatások csak egy összetevőhöz (= alapirányzat), a véletlenhatások viszont két összetevőhöz (= alapirányzat + szezonhatás) hasonlított eltérést mutatnak. • Egyik adat megfogalmazásában sem szerepeltek (nem is szerepelhet!) a csökken, nő szavak, eltérésről szóltunk, írhattuk volna még pl.: júniusra vonatkozóan, hogy 1.389 darabbal több (magasabb) vagy januárra vonatkozóan, hogy 152
darabbal kevesebb (alacsonyabb) 12.5 Előrejelzés Az idősorok vizsgálatának, ahogy erről már eset szó, kettős célja van. • A múltban lezajló folyamatok alaposabb megismerése. • Előrejelzés készítése a jövőre vonatkozóan. Az előrejelzések készítése azonban soha nem történhet valamiféle automatizmus szerint. Szem előtt kell tartanunk azt a tényt, hogy az általunk éppen vizsgált időben változó jelenségeket sok-sok tényező befolyásolja. A bemutató példáinkban vizsgált postai levélforgalmat például az is befolyásolja, hogy a megfigyelt időszakban voltak-e választások; de a jövőben egészen biztos hatással lesz rá a számítógépek még nagyobb mértékű elterjedése. (A családi levelezések is áttevődhetnek az internetre, az elektronikus aláírás elfogadásával pedig egy sor hivatalos irat sem feltétlenül fog papíralapú dokumentum formájában utazni az ország egyik helyéről a másikra stb.) Ezek szerint, az
előrejelzés szerves része kell, hogy legyen a befolyásoló tényezők vizsgálata Ilyen jellegű elemzésekre azonban az oktatás keretei nem nyújtnak lehetőséget. Az el nem végzett vizsgálat szükségességét azonban a szöveges megfogalmazásban érzékeltetni tudjuk. Az előrejelzést technikája más az analitikus és más a mozgóátlagolású trendszámítás esetén. Ha egyenletekkel fejeztük ki az alapirányzatot, akkor első lépésben meg kell állapítanunk az előre jelezni kívánt időhöz tartozó t i adatot, (Továbbvezetjük a számítások során használt t i sorozatot.) majd ezt az adatot behelyettesítjük az egyenletbe Így megkapjuk a jövőre vonatkozó trendadatot Ha az alapirányzat kimutatására a mozgóátlagolás módszerét használtuk, akkor több megoldás is kínálkozik az előrejelzésre. A legegyszerűbb eljárás a következő A trendadatokból kiszámítjuk az átlagos abszolút A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 321 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 322 ► változást vagy az átlagos relatív változást, s ennek további jellemző voltát feltételezve kapjuk meg a jövőre vonatkozó trendadatot. Természetesen, ha az idősorban szezonális ingadozást is megfigyeltünk, akkor elsődleges előrejelzéseinket ennek a hatásnak a nagyságát (mértékét) kifejező adattal (szezonális eltérés vagy szezonindex) módosítani kell. BEMUTATÓ PÉLDA I. Jelezzük előre a magyarországi személygépkocsi állomány nagyságát 2006, 2007, 2008 évekre! (Lásd: 12.1 és 122 sz tábla!) Az utolsó megfigyelt év 2003 volt. Ez a t i = 15 jelzőszámot kapta, így 2004-hez t i = 16 , 2005-höz t i = 17 és az első előrejelzendő évhez t i = 18 stb. tartozik Ezeket behelyettesítve a személygépkocsik mennyiségének alakulását leíró lineáris ill. exponenciális egyenletekbe,
a következő adatokat kapjuk A lineáris egyenlet: yˆ i = 1829,2 + 50,5t i (ezer db) yˆ 2006 = 1829,2 + 50,5 ∗18 = 2738,2 ezer db yˆ 2007 = 1829,2 + 50,5 ∗19 = 2788,7 ezer db yˆ 2008 = 1829,2 + 50,5 ∗ 20 = 2839,2 ezer db Az exponenciális trendegyenlet: yˆ i = 1846 ∗1,0234 ti (ezer db) yˆ 2006 = 1846 ∗1,023418 = 2799,3 ezer db yˆ 2007 = 1846 ∗1,023419 = 2864,8 ezer db yˆ 2007 = 1846 ∗1,0234 20 = 2931,8 ezer db Jól látható, hogy a kétféle egyenlet eltérő „jóslattal” szolgál. Az exponenciális egyenlet az egyes évekre mindig nagyobb gépkocsi darabszámot mutat, mint a lineáris. Sőt a különbség az előre jelzett adatok között egyre nő A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 322 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 323 ► (+2,2264; +2,7; +3,3 %), ezért nem mindegy, hogy melyik egyenletet fogadjuk el jobbnak, és
használjuk. Tekintettel arra, hogy az eltérésnégyzet-összeg a lineáris egyenletnél kisebb (32.554,1〈43841,9), javasolt ezzel dolgozni265 BEMUTATÓ PÉLDA II. Jelezzük előre a vizsgált postahivatal levélforgalmát 2006 egyes hónapjaira, azt feltételezve, hogy a levélforgalom alapirányzata az állandó abszolút változás! (Lásd: 12.5, 126 és 127 sz táblák) A mozgóátlagolású trendszámítás eredményeként kapott első trendadat (2002. július) 16095, az utolsó (2005 június) 14286 db, ezeket alapul véve az átlagos abszolút változás: d= 14286 − 16095 ≅ −38,5 db 48 − 1 Ha ez a csökkenő tendencia folytatódik, akkor 2006 egyes hónapjaira a következő adatok várhatók: 12.9 sz tábla hónap jan. ŷij febr. márc. szept. okt. nov. dec. 14.248 14209 14171 13940 13902 13863 13825 Ha azonban a jövőre vonatkozóan csak a 12.9sz táblában sorakozó adatokat közölnénk a postahivatal vezetőivel, akkor nem tudnának alaposan
felkészülni az egyes hónapok csúcsforgalmára. (Pedig ez a szezonhatás vizsgálatának célja.) Módosítsuk előre jelzésünket a szezonhatással először abszolút, majd relatív módon! 12.10 sz tábla hónap jan. ŷij 14.248 14209 14171 13940 13902 13863 13825 yˆ ij + s j 14.779 12328 15021 10834 13923 11974 23151 ŷij ∗ s ∗j 14.705 12497 14833 12606 13891 12204 21897 264 febr. márc. szept. okt. nov. dec. 2.799,2/2738,2=1,022277102,2%+2,2%; stb 265 Természetesen a számítógépek korában már könnyen mondhatjuk, célszerűbb minden lehetsé- ges változatot végigszámolni, és a terveket (az előrejelzéseket) is több variációban elkészíteni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 323 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 324 ► A kiemelt adatok számítása: yˆ 2006. X = 13902 + 21 = 13923 db yˆ 2006. X = 13902
∗ 0,9992 = 13891 db A kiemelt adatok jelentése. ♥ Abban az esetben, ha a postai levélforgalmat befolyásoló tényezők elkövetkező időben nem változnak meg jelentős mértékben, akkor a kimutatott alapirányzat és a rendszeresen ismétlődő szezonhatások figyelembe vételével arra számíthatunk, hogy 2006. októberében a vizsgált postahivatalban 13923 db levelet fognak feladni az ügyfelek (a szezonális ingadozást eltérés formájában számítva)266 12.6 Záró példa Ahogy arról már esett szó, gyakori hallgatói tévedés, hogy a szezonokra bontott idősorokból nem lehet egyenletet számolni, ezért fontosnak tartjuk ennek bemutatását. A következőkben postai levélforgalom adatait elemezzük mindkét tanult egyenlettípussal. 12.61 Lineáris egyenlet, szezonális eltérés, véletlen eltérés 12.10sz tábla év hó 2001 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. ti yij t i2 t i yij ŷij eij eij2 1 2 3 4 5 6 7 8 9 10 11
17.603 12.864 15.781 18.570 14.973 12.632 13.811 15.869 12.994 15.636 13.944 1 4 9 16 25 36 49 64 81 100 121 17.603 25.728 47.343 74.280 74.865 75.792 96.677 126.952 116.946 156.360 153.384 16.898 16.855 16.813 16.770 16.728 16.686 16.643 16.601 16.558 16.516 16.474 705 -3.991 -1.032 1.800 -1.755 -4.054 -2.832 -732 -3.564 -880 -2.530 497.405 15.930635 1.064837 3.238205 3.080334 16.432300 8.021735 535.613 12.705271 774.461 6.398999 266 Hasonlóképpen lehet megfogalmazni a szezonindex figyelembevételével számított adatot. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 324 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok dec. 2002 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. 2003 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. 2004 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 28.418 17.695 14.980 22.697 15.691 16.414 18.176 16.245 16.200 15.924 17.902 14.912 27.703 15.848 14.530 12.866 17.665 12.492 12.265 14.548 11.261 14.859 15.864 12.583 25.893 18.145 13.019 15.202 16.393 14.274 16.470 13.500 13.461 13.190 13.480 144 169 196 225 256 289 324 361 400 441 484 529 576 625 676 729 784 841 900 961 1.024 1.089 1.156 1.225 1.296 1.369 1.444 1.521 1.600 1.681 1.764 1.849 1.936 2.025 2.116 341.016 230.035 209.720 340.455 251.056 279.038 327.168 308.655 324.000 334.404 393.844 342.976 664.872 396.200 377.780 347.382 494.620 362.268 367.950 450.988 360.352 490.347 539.376 440.405 932.148 671.365 494.722 592.878 655.720 585.234 691.740 580.500 592.284 593.550 620.080 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza 16.431 16.389 16.346 16.304 16.262 16.219 16.177 16.134 16.092 16.050 16.007 15.965 15.922 15.880 15.837 15.795 15.753 15.710 15.668 15.625 15.583 15.541 15.498 15.456 15.413 15.371 15.329
15.286 15.244 15.201 15.159 15.116 15.074 15.032 14.989 11.987 1.306 -1.366 6.393 -571 195 1.999 111 108 -126 1.895 -1.053 11.781 -32 -1.307 -2.929 1.912 -3.218 -3.403 -1.077 -4.322 -682 366 -2.873 10.480 2.774 -2.310 -84 1.149 -927 1.311 -1.616 -1.613 -1.842 -1.509 Vissza ◄ 325 ► 143.683050 1.706151 1.867028 40.870684 325.551 37.962 3.997002 12.246 11.679 15.755 3.590619 1.108170 138.785226 1.016 1.709464 8.579357 3.657108 10.357021 11.579197 1.160815 18.679690 464.565 133.825 8.252800 109.822894 7.695367 5.333960 7.077 1.320855 859.894 1.718998 2.613019 2.602005 3.391720 2.277841 ◄ 325 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok nov. dec. 2005 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. össz.: 47 48 49 50 51 52 53 54 55 56 57 58 59 60 1.830 13.495 17.713 13.004 12.425 15.085 12.814 13.349 12.588 15.391 14.054 14.182 13.865 16.249 19.141 93.8797 2.209 2.304 2.401 2.500 2.601 2.704
2.809 2.916 3.025 3.136 3.249 3.364 3.481 3.600 73.810 634.265 850.224 637.196 621.250 769.335 666.328 707.497 679.752 846.505 787.024 808.374 804.170 958.691 1.148460 27.870129 Vissza 14.947 14.904 14.862 14.820 14.777 14.735 14.692 14.650 14.608 14565 14.523 14.480 14.438 14.396 938.797 -1.452 2.809 -1.858 -2.395 308 -1.921 -1.343 -2.062 783 -511 -341 -615 1.811 4.745 0 ◄ 326 ► 2.107843 7.888063 3.452238 5.734153 94.742 3.689426 1.804662 4.251706 613.785 261.270 116.100 378.624 3.280035 22.519744 663.101798 Az egyenlet paramétereinek számítása és a levélforgalom alakulását leíró lineáris egyenlet: β1 = 27870129 − 1830 ∗ 938797 / 60 = −42,4106 db 73810 − 1830 2 / 60 β0 = 938797 1830 − (−42,4106) ∗ = 16940,14 db 60 60 yˆ ij = 16940 − 42,4t i (db ) A szezonális eltérés számítása: 12.11a) sz tábla hó jan. febr. márc. ápr. máj. jún. 2001 705 -3.991 -1.032 1.800 -1.755 -4.054 2002 1.306 -1.366 6.393 -571 195
1.999 2003 -32 -1.307 -2.929 1.912 -3.218 -3.403 2004 2.774 -2.310 -84 1.149 -927 1.311 2005 -1.858 -2.395 308 -1.921 -1.343 -2.062 összesen 2.896 -11.369 2.656 2.370 -7.049 -6.208 átlag -2.274 531 474 -1.410 -1.242 év↓ 579 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 326 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 327 ► 12.11b) sz tábla hó júl. aug. szept. okt. nov. dec. 2001 -2.832 -732 -3.564 -880 -2.530 11.987 2002 111 108 -126 1.895 -1.053 11.781 2003 -1.077 -4.322 -682 366 -2.873 10.480 2004 -1.616 -1.613 -1.842 -1.509 -1.452 2.809 2005 783 -511 -341 -615 1.811 4.745 összesen -4.632 -7.070 -6.554 -744 -6.096 41.801 átlag -1.414 -1.311 -149 -1.219 8.360 év↓ -926 A szezonális eltérések számítása most is átlagolással történt, de az osztóban 5 szerepelt (az
egyenletek számítása esetén nincs adatvesztés); korrigálásra pedig nem volt szükség, az egyes hónapokra meghatározott átlagok összege ui. mindössze 1 darabbal tér el a nullától Néhány a 12.11 sz táblában szereplő adat számítása (Szürke háttérrel és erősebb kerettel emeltük ki.): y 2001.VII − yˆ 20001VII = 13811 − 16643 = −2832 db sVII . = − 4632 ≅ −926 db 5 A véletlenhatás (eltérés) számítása: 12.12a) sz tábla hó jan. febr. márc. ápr. máj. jún. 2001 126 -1.717 -1.563 1.326 -345 -2.812 2002 727 907 5.862 -1.045 1.605 3.241 2003 -611 -611 966 -3.460 1.438 -1.808 2004 2.195 -36 -615 675 483 2.553 2005 -2.437 -121 -223 -2.395 66 -820 év↓ A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 327 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 328 ► 12.12b) sz tábla hó júl. aug.
szept. okt. nov. dec. 2001 -1.906 682 -2.254 -731 -1.310 3.627 2002 1.037 1.522 1.185 2.044 166 3.420 2003 -2.161 -151 -2.908 629 515 -1.654 2004 -690 -199 -531 -1.360 -233 -5.552 2005 1.710 903 970 -467 3.030 -3.615 év↓ A kiemelt adat számítása: v2003. I = y2003I − yˆ 2003 I − sI = 15848 − 15880 − 579 = −611 db ♥SZÖVEGES ELEMZÉS: A postai levélforgalom megfigyelt adatai alapján kiszámított, az alapirányzatot kifejező lineáris trendegyenlet szerint – ha egyéb hatások nem érvényesültek volna – 2000. decemberében 16940 (β 0 ) darab levelet adtak volna fel az ügyfelek; ill. a levélforgalom negyedévről negyedévre ≅ 42 (β1 ) darabbal csökkent, és ha a befolyásoló tényezőkben lényeges változás nem következik be, akkor ekkora csökkenésre számíthatunk az elkövetkező hónapokban is. A postai levélforgalomban – legalábbis egyes hónapokban – jelentős szezonális eltéréseket is
megfigyelhettünk, és ezek további ismétlődésére is számíthatunk. Így például februárban a trend alatti (-2274 db), decemberben pedig a trend feletti (+8360 db) forgalomra kell felkészülni A vizsgált időszak egyes hónapjaiban jelentős véletlenhatást is észleltünk, így például 2001. februárjában a szokásosnál is kisebb volt a forgalom, ill 2005 decemberében valamilyen – ezt még elemezni kell – ok miatt nem érvényesült olyan erősen a karácsony hatása, mint más években A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 328 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 329 ► 12.6sz ábra267 Kapuvár levélforgalmi adatai 2001 - 2005 y = -42,411x + 16940 30000 levélforgalom (db) 25000 20000 15000 10000 5000 0 0 10 20 30 40 50 60 70 évek / hónapok A kiugrásokat mutató vonal = megfigyelt adatok a negatív meredekségű egyenes =
lineáris egyenlet pontjainak halmaza 12.62 Exponenciális egyenlet, szezonindex, véletlen index 12.13 sz tábla t i2 lg yij t i ∗ lg yij ŷij yij / yˆ ij eij2 hó ti yij 2001 jan. 1 17.603 1 4,2456 4,2456 16.511 1191530 1,0661 febr. 2 12.864 4 4,1094 8,2188 16.471 13007039 0,7810 márc. 3 15.781 9 4,1981 12,5944 16.430 420848 0,9605 ápr. 4 18.570 16 4,2688 17,0752 16.389 4756628 1,1331 máj. 5 14.973 25 4,1753 20,8765 16.348 1891817 0,9159 jún. 6 12.632 36 4,1015 24,6088 16.308 13512511 0,7746 júl. 7 13.811 49 4,1402 28,9816 16.268 6034592 0,8490 aug. 8 15.869 64 4,2005 33,6044 16.227 128339 0,9779 év 267 Az ábrát az EXCEL-program grafikon szerkesztőjével készítettük, az egyenletet a program írta fel. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 329 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 330
► szept. 9 12.994 81 4,1137 37,0237 16.187 10195556 0,8027 okt. 10 15.636 100 4,1941 41,9413 16.147 261071 0,9684 nov. 11 13.944 121 4,1444 45,5883 16.107 4678370 0,8657 dec. 12 28.418 144 4,4536 53,4431 16.067 152545829 1,7687 2002 jan. 13 17.695 169 4,2479 55,2221 16.027 2781370 1,1041 febr. 14 14.980 196 4,1755 58,4572 15.988 1015167 0,9370 márc. 15 22.697 225 4,3560 65,3395 15.948 45549643 1,4232 ápr. 16 15.691 256 4,1957 67,1304 15.908 47284 0,9863 máj. 17 16.414 289 4,2152 71,6586 15.869 296980 1,0343 jún. 18 18.176 324 4,2595 76,6710 15.830 5504972 1,1482 júl. 19 16.245 361 4,2107 80,0037 15.791 206552 1,0288 aug. 20 16.200 400 4,2095 84,1903 15.751 201237 1,0285 szept. 21 15.924 441 4,2021 88,2431 15.712 44779 1,0135 okt. 22 17.902 484 4,2529 93,5638 15.673 4966357 1,1422 nov. 23 14.912 529 4,1735 95,9913 15.635 522213 0,9538 dec. 24 27.703 576 4,4425 106,6206 15.596
146581520 1,7763 2003 jan. 25 15.848 625 4,2000 104,9994 15.557 84517 1,0187 febr. 26 14.530 676 4,1623 108,2189 15.519 977617 0,9363 márc. 27 12.866 729 4,1094 110,9550 15.480 6834585 0,8311 ápr. 28 17.665 784 4,2471 118,9192 15.442 4941917 1,1440 máj. 29 12.492 841 4,0966 118,8023 15.404 8478036 0,8110 jún. 30 12.265 900 4,0887 122,6600 15.366 9613412 0,7982 júl. 31 14548 961 4,1628 129,0469 15.327 607602 0,9491 aug. 32 11.261 1024 4,0516 129,6505 15.290 16228981 0,7365 szept. 33 14.859 1089 4,1720 137,6757 15.252 154172 0,9743 okt. 34 15.864 1156 4,2004 142,8140 15.214 422672 1,0427 nov. 35 12.583 1225 4,0998 143,4924 15.176 6724591 0,8291 dec. 36 25.893 1296 4,4132 158,8746 15.139 115657359 1,7104 2004 jan. 37 18.145 1369 4,2588 157,5740 15.101 9265393 1,2016 febr. 38 13.019 1444 4,1146 156,3539 15.064 4180726 0,8643 márc. 39 15.202 1521 4,1819 163,0941 15.026 30846 1,0117 ápr. 40 16.393
1600 4,2147 168,5863 14.989 1970804 1,0937 máj. 41 14.274 1681 4,1545 170,3364 14.952 459707 0,9547 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 330 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 331 ► jún. 42 16.470 1764 4,2167 177,1011 14.915 2418088 1,1043 júl. 43 13.500 1849 4,1303 177,6044 14.878 1898978 0,9074 aug. 44 13.461 1936 4,1291 181,6794 14.841 1904896 0,9070 szept. 45 13.190 2025 4,1202 185,4110 14.804 2606342 0,8910 okt. 46 13.480 2116 4,1297 189,9657 14.768 1658287 0,9128 nov. 47 13.495 2209 4,1302 194,1181 14.731 1528102 0,9161 dec. 48 17.713 2304 4,2483 203,9180 14.695 9110294 1,2054 2005 jan. 49 13.004 2401 4,1141 201,5898 14.658 2736621 0,8871 febr. 50 12.425 2500 4,0943 204,7148 14.622 4826650 0,8497 márc. 51 15.085 2601 4,1785 213,1058 14.586 249257 1,0342 ápr. 52 12.814 2704 4,1077
213,5996 14.550 3012355 0,8807 máj. 53 13.349 2809 4,1254 218,6488 14.514 1356230 0,9198 jún. 54 12.588 2916 4,1000 221,3977 14.478 3570670 0,8695 júl. 55 15.391 3025 4,1873 230,2997 14.442 901058 1,0657 aug. 56 14.054 3136 4,1478 232,2768 14.406 123894 0,9756 szept. 57 14.182 3249 4,1517 236,6490 14.370 35457 0,9869 okt. 58 13.865 3364 4,1419 240,2314 14.335 220622 0,9672 nov. 59 16.249 3481 4,2108 248,4388 14.299 3801736 1,1364 dec. 19.141 3600 4,2820 256,9179 14.264 23787319 1,3419 60 össz. 1830 938.7 73810 251,1606 7641,015 921.640 668721998 – 97 Az egyenlet paramétereinek számítása és a levélforgalom alakulását leíró exponenciális egyenlet: 7641,015 − 1830 ∗ 251,1606 / 60 = −0,001077149 β1 = 0,9975 ↓ 73810 − 1830 2 / 60 99,75% -0,25% 251,1606 1830 lg β 0 = − (−0,001077149) ∗ = 4,218863 ≅ 16552,5 db 60 60 lg β1 = yˆ ij = 16552,5 ∗ 0,9975ti db A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 331 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 332 ► A szezonindex számítása: 12.14a) sz tábla hó jan. év↓ 2001 1,0661 febr. márc. ápr. máj. jún. 0,7810 0,9605 1,1331 0,9159 0,7746 2002 1,1041 0,9370 1,4232 0,9863 1,0343 1,1482 2003 1,0187 0,9363 0,8311 1,1440 0,8110 0,7982 2004 1,2016 0,8643 1,0117 1,0937 0,9547 1,1043 2005 0,8871 0,8497 1,0342 0,8807 0,9198 0,8695 összesen 5,2776 4,3683 5,2607 5,2377 4,6356 4,6948 átlag 1,0555 0,8737 1,0521 1,0475 0,9271 0,9390 korrigált 1,0367 átlag 0,8581 1,0334 1,0289 0,9106 0,9222 % -14,1915 3,3389 2,8869 -8,9411 -7,7789 3,6693 12.14b) sz tábla hó év↓ 2001 2002 2003 2004 2005 összesen átlag júl. aug. szept. okt. nov. dec. 0,8490 1,0288 0,9491 0,9070 1,0657 4,7996 0,9599 0,9779 1,0285 0,7365 0,8910 0,9756 4,6094 0,9219 0,8027 1,0135 0,9743
0,8910 0,9869 4,6683 0,9337 0,9684 1,1422 1,0427 0,9128 0,9672 5,0333 1,0067 0,8657 0,9538 0,8291 0,9161 1,1364 4,7011 0,9402 1,7687 1,7763 1,7104 1,2054 1,3419 7,8027 1,5605 korrigált 0,9428 átlag 0,9055 0,9170 0,9887 0,9234 1,5327 % -9,4550 -8,2985 -1,1287 -7,6551 53,2724 -5,7186 A szezonindexek számítása az egyszerűbb átlagolással (= az oszlopok adatainak összege osztva az évek számával) történt. Az átlagok összege azonban nem pontosan 12 volt, ezért korrigáltunk Majd meghatároztuk a 100 % (= nincs szezonhatás) –tól való pozitív (= a szezon hatására a trendadatnál nagyobb a megfigyelt adat) és negatív (= a szezon hatására a trendadatnál kisebb a megfigyelt adat) eltéréseket. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 332 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 333 ► Példa az átlagolásra: július ⎛ yij átlag =
∑ ⎜⎝ ⎞ yˆ ij ⎟⎠ n = 0,8490 + 1,0288 + . + 1,0756 4,7996 = ≅ 0,9599 5 5 Példa a korrigálásra: • korrekciós tényező = k ∗ j ∑s = ∗ j k = 1,0555 + 0,8737 + . + 0,9402 + 1,5605 ≅ 1,01815 12 • korrigálás július = ∗ sVII . = átlag 0,9599 = = 0,9428 94,28% ≅ −5,72% 1,01815 k ∗j A véletlenhatás (index) számítása: 12.15a) sz tábla hó jan. év↓ febr. márc. ápr. máj. jún. 2001 1,0284 0,9102 0,9295 1,1013 1,0058 0,8399 2002 1,0650 1,0919 1,3772 0,9587 1,1359 1,2451 2003 0,9826 1,0911 0,8043 1,1119 0,8906 0,8655 2004 1,1590 1,0072 0,9790 1,0630 1,0484 1,1974 2005 0,8557 0,9903 1,0008 0,8560 1,0101 0,9428 12.15b) sz tábla hó júl. év↓ aug. szept. okt. nov. dec. 2001 0,9005 1,0800 0,8754 0,9794 0,9375 1,1540 2002 1,0912 1,1359 1,1052 1,1552 1,0328 1,1589 2003 1,0067 0,8134 1,0624 1,0546 0,8979 1,1159 2004 0,9624 1,0017 0,9716 0,9232 0,9920 0,7864
2005 1,1304 1,0774 1,0762 0,9783 1,2306 0,8755 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 333 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 334 ► Példa a véletlenindex számítására: 2003. január: ∗ = v2003 .I yij yˆ ij ∗ s ∗ j = 15848 = 0,9826 98,26% −1,74% 15557 ∗1,0367 ♥SZÖVEGES ELEMZÉS: A postai levélforgalom megfigyelt adatai alapján kiszámított, az alapirányzatot kifejező exponenciális trendegyenlet szerint – ha egyéb hatások nem érvényesültek volna – 2000. decemberében ≅ 16553 (β 0 ) darab levelet adtak volna fel az ügyfelek. A levélforgalom negyedévről negyedévre ≅ 0,25 (β1 ) %-kal csökkent, és ha a befolyásoló tényezőkben lényeges változás nem következik be, akkor ekkora csökkenésre számíthatunk az elkövetkező hónapokban is A postai levélforgalomban – legalábbis egyes hónapokban –
jelentős szezonális eltéréseket is megfigyelhettünk, és ezek további ismétlődésére is számíthatunk. Így például februárban a trend alatti (≅ -14,2 %), decemberben pedig a trend feletti (≅ +53,3 %) forgalomra kell felkészülni A vizsgált időszak egyes hónapjaiban jelentős véletlenhatást is észleltünk, így például 2001. februárjában a szokásosnál is kisebb volt a forgalom (≅ -9,0 %), ill 2005 decemberében valamilyen – ezt még elemezni kell – ok miatt nem érvényesült olyan erősen a karácsony hatása (≅ -12,6 %), mint más években. A 12.7 sz ábrán a megfigyelt adatok közé illesztett exponenciális egyenlet görbéjét láthatjuk. Az EXCEL-porgram segítségével az egyenletet is kiírattuk az ábrára. Aki így dolgozik, annak a kitevő függvény használatára is szüksége van, mert az EXCEL a természetes alapú logaritmussal számol. (Ezért láthatunk – az előzőekben kiszámítotthoz hasonlítva – más formátumú
egyenletet az ábrán.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 334 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 335 ► 12.7sz ábra Kapuvár levélforgalom 2001 - 2005 30000 y = 16552,4294e-0,0025x levélforgalom (db) 25000 20000 Adatsor1 15000 Expon. (Adatsor1) 10000 5000 0 0 10 20 30 40 50 60 70 évek / hónapok 12.7 Gyakorló feladatok 1. feladat A sziú indiánok lélekszáma (ember fő) az 1990-es évtizedben a következőképpen alakult:: 12.16sz tábla 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 19.251 19427 19362 19513 19725 20184 20462 20591 20873 21240 1. 2. 3. 4. 5. 6. 7. 8. Nevezze meg az idősor típusát! Számítsa ki az idősor megfigyelt adatainak átlagát! Számítsa ki az évenkénti abszolút változásokat! Számítsa ki az átlagos abszolút változást (kétféleképpen)! Számítsa ki az évenkénti relatív változásokat!
Számítsa ki az átlagos relatív változást (kétféleképpen)! Számítsa ki dinamikus viszonyszámokat! Az 1994 évi bázis viszonyszámra vonatkozóan mutassa be a lánc- és bázisviszonyszámok közötti összefüggést! 9. Az 1997 évi láncviszonyszámra vonatkozóan mutassa be a lánc- és bázisviszonyszámok közötti összefüggést! 10. Fogalmazza meg az 1995 évi lánc- és bázisviszonyszám jelentését! 11. Fogalmazza meg a kiszámított átlagok jelentését 12. Ábrázolja az idősort, készítsen pontdiagramot! 13. Számítsa ki a lineáris trend paramétereinek értékét! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 335 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 336 ► 14. Számítsa ki az exponenciális trend paramétereinek értékét! 15. Fogalmazza meg mindkét trend paramétereinek jelentését! 16. Számítsa ki minden évre a trendadatokat mindkét
egyenlet-típus esetén! 17. Fogalmazza meg a egy-egy trendadat (lineáris, exponenciális) jelentését!Magyarázza meg, miért térnek el egymástól a két egyenlet alapján számított trendadatok! 18. Döntse el, hogy melyik egyenlettípus jellemzi jobban a sziú indiánok létszám alakulását! Döntését természetesen indokolja is! 19. Végezzen előrejelzést 2005-re! 20. Fogalmazza meg az előre jelzett adat jelentését! 21. Nevezze meg a munkatáblák azon oszlopait, melyek összesen adata egyenlő. Indokolja az egyenlőséget! 22. Keresse meg az utóbbi évek adatait! Csatolja azokat az eredeti idősorhoz! Végezzen el minden számítást a hosszabb idősorral is! 23. Hasonlítsa össze az utóbbi évekre vonatkozó megfigyelt adatokat és a rövidebb idősor alapján végzett előrejelzési adatait! Vonjon le következtetéseket! 2. feladat Megfigyeltük egy vállalat dolgozóinak létszámát, majd a megfigyelt adatokból kiszámítottuk mind a lineáris, mind az
exponenciális egyenletet. Az alábbi tábla ezt a három adatsort tartalmazza. Számítsa ki mindkét egyenlet paramétereit, de ne a szokásos módon, használja fel a paraméterek jelentésével kapcsolatban tanultakat! 12.17 sz tábla év megfigyelt lineáris exponenciális 1998 220 219 222 1999 238 239 239 2000 261 259 257 2001 277 279 276 A dokumentum használata | Tartalomjegyzék | Táblázatok 2002 297 299 297 2003 325 319 320 Vissza 2004 340 339 344 ◄ 336 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 337 ► 3. feladat 12.18 sz tábla Építőipari tevékenység (egy régióban) millió Ft év I. negyedév II. negyedév III. negyedév 1998 3.639,7 3.662,1 3.714,9 1999 3.759,3 3.801,8 3.832,6 2000 3.803,7 3.834,9 3.881,2 2001 3.860,0 3.859,0 3.891,0 2002 3.840,0 3.867,5 3.886,2 2001 3.859,6 3.923,9 3.952,2 2004 3.891,5 3.894,1 3.906,6 2005 3.870,6 3.891,5 3.927,6 1. 2. 3. 4. 5. 6. 7. 8.
IV. negyedév 3.765,8 3.843,6 3.904,8 3.863,1 3.888,9 3.952,3 3.909,2 3.916,4 Számítsa ki az alapirányzatot kifejező adatokat mindhárom tanult módon! Számítsa ki mindhárom estben mind a két tanult módon a szezonhatásokat! Számítsa ki mindhárom estben mind a két tanult módon a véletlenhatásokat! Végezzen előrejelzést! Írjon szöveges elemzést! Számítsa ki az átlagos abszolút- és relatív változást! (ismétlés268) Számítsa ki a tanult dinamikus viszonyszámokat! (ismétlés) Készítsen ábrát! (ismétlés) 12.8 Összefoglalás idősor = olyan statisztikai sor, melyben az ismérv az idő 1. tartam idősor fajtái 2. állapot idősor elemzése 268 1. 2. 3. 4. = mozgó sokaság, összege értelmes = álló sokaság, összege nem értelmes viszonyszámok középértékek ábrázolás összetevőkre bontás Ha szükséges, lapozzon vissza az 1., a 2 és a 3 fejezethez! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 337
► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok 1. bázis [bi ] viszonyszámok középértékek ◄ Vissza 338 ► 2. lánc [li ] Mindkét típus adataiból. 3. megoszlási [g i wi ] Csak a tartam idősor adataiból. – a megfigyelt adatokból [ y a ] – a változást kifejező adatokból d vagy [ ykr ] [ ]és/vagy [l ] i – koordináta rendszerben ⎣pont-, vonal-, oszlopdiagram⎦ – koordináta rendszeren kívül ⎣oszlop, kör stb.⎦ 1. alapirányzat (trend) 2. szezonhatás 3. véletlenhatás 4. konjunktúra hatás ⎣nem tananyag⎦ ábrázolás összetevők az alapirányzat kimutatása a szezonhatás kimutatása a véletlenhatás kimutatása 1. analitikus trendszámítás ⎣lineáris, exponenciális stb⎦ 2. mozgóátlagolású trendszámítás [ ] 1. szezonális eltérés s j [ ] véletlen eltérés [v ] véletlen index [v ] 2. szezonindex s ∗j 1. 2. ij ∗ ij β 0 = y − β 1t
lineáris egyenlet yˆ i = β 0 + β1ti β1 = ∑ t y − (∑ y )(∑ t )/ n ∑ t − (∑ t ) / n i i i i 2 2 i i lg β 0 = lg y − lg β1t exponenciális egyenlet yˆ i = β 0 β 1ti lg β1 = ∑ t lg y − (∑ lg y )(∑ t )/ n ∑ t − (∑ t ) / n i i i 2 2 i i i t i = 1,2,3,., n a legjobb egyenlet kiválasztása legkisebb négyzetek módszere A dokumentum használata | Tartalomjegyzék | Táblázatok ∑e = ∑(y 2 i − yˆ i ) min.! 2 i Vissza ◄ 338 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 339 ► β 0 mindkét típusnál a t i = 0 időpont (időszak), azaz a megfigyelés kezdete előtti időpont (időszak) trendadata β1 lineáris a paraméterek jelentése az időpontról időpontra (az időszakról időszakra) bekövetkező abszolút változás vagy így is fogalmazhatunk ( ) átlagos abszolút változás ≅ d β1 exponenciális az időpontról időpontra
(az időszakról időszakra) bekövetkező abszolút változás vagy így is fogalmazhatunk ( ) átlagos abszolút változás ≅ d az összetevőkre bontás felhasználása a múlt megismerése a jövő előrejelzése 12.9 Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy kereskedelmi vállalat forgalmának (ezer Ft) leírására 2000-2005 év elejétől – év végéig) közötti időre (negyedéves bontásban) az alábbi egyenletet találták a legjobbnak: yˆ i = 6040 + 80t i Egyes megfigyelt adatok időrendben: 2002. I né 2002. II né 2004. II né 2004. III né 6000 7600 8000 8900 Ismerjük továbbá az egyes negyedévekre vonatkozó korrigált szezonális eltérések (eFt) - 600 +680 A dokumentum használata | Tartalomjegyzék | Táblázatok -1780 Vissza ◄ 339 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 340 ► 2.1 Fogalmazza meg az egyenlet paramétereinek, valamint a
III negyedévi szezonindexnek a jelentését! 1. paraméter 2. paraméter szezonindex 2.2 Végezzen becslést, azaz határozza meg az alábbi időpontokra a trendadatokat! 1999. III né 2002. II né 2005. IV: né 2007. II né 2.3 Fogalmazza meg a 2002 II negyedévére vonatkozó adat jelentését! 2.4 Számítsa ki 22 részfeladatban megadott időpontokra a véletlenhatást! 1999 III. né 2002. II né 2005. IV: né 2007. II né 2.5 Fogalmazza meg a 24 feladatban kiszámított egyik (tetszőleges) adat jelentését! 2.6 Nevezze meg az analitikus trendszámítás és a mozgóátlagolású trendszámítás közti alapvető különbséget! Megjegyzés: a vizsgán természetesen több hely lesz a számítások és a megfogalmazások feltüntetésére. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 340 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 341 ► 2. minta Az egy főre jutó
húsfogyasztás ( = hús + húskészítmény) (kg): év hús 1990 75,8 1991 74,1 1992 75,2 1993 70,5 1994 69,0 1995 65,2 1996 61,9 1997 60,8 1998 63,7 1999 63,3 2000 73,2 2001 70,4 2002 75,4 összesen 2.1 Írja fel az alapirányzatot kifejező lineáris trendfüggvényt! 2.2 Fogalmazza meg a változást kifejező paraméter pontos jelentését! 2.3 Az idősor alapirányzatát kifejezendő az alábbi egyenletet is kiszámították: yˆ i = 71,469 * 0,9948t Fogalmazza meg itt is a változást kifejező paraméter pontos jelentését! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 341 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 342 ► 2.4 Végezzen előrejelzést! 2006 2007 2010 2.5 Mit kellett volna másképp tenniük az adatokat összegyűjtő szakembereknek, hogy havi bontásban adhassunk előrejelzést! 2.6 Hogyan lehet előrejelzést végezni, ha
az egyes hónapok eltérő jellegét is figyelembe akarjuk venni? Kétféle megoldást kérek 3. minta Egy hazánkba érkező külföldire jutó idegenforgalmi bevétel (USD) alakulása: év bevétel 1990 21,7 1991 30,2 1992 36,8 1993 29,1 1994 35,8 1995 43,7 1996 56,4 1997 69,2 1998 78,4 1999 93,4 2000 110,0 2001 124,5 2002 109,7 2003 101,2 összesen A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 342 ► Statisztika Az idősorok elemezése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 343 ► 3.1 Írja fel az alapirányzatot kifejező exponenciális trendfüggvényt! 3.2 Fogalmazza meg a változást kifejező paraméter pontos jelentését! 3.3 Az idősor alapirányzatát kifejezendő az alábbi egyenletet is kiszámították: yˆ i = 6,68 + 8,06 xi (∑ t i ≠ 0 )Fogalmazza meg itt is a változást kifejező paraméter pontos jelentését! 3.4 Végezzen előrejelzést! 2006 2007 2010
4. minta Egy gázszolgáltató vállalat bevételeiről (millió Ft) az 1998-2005 között időszakra negyedéves bontásban az alábbiakat ismerjük: yˆ i = 200 * 1,024 ti (ti = 1,2,3., n ) a korrigált szezonindexek (időrenben): 135, 95, 75,. % 4.5 Számítsa ki a 4 szezonindexet és fogalmazza meg jelentését! 4.6 Becsülje meg a 2006 év egyes negyedéveinek várható bevételeit! 2006. I né 2006. II né 2006. III né 2006. IV né 4.7 Fogalmazza meg a becsült adatok egyikének jelentését! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 343 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 344 ► 13. Korreláció-, regresszió-számítás 13.1 Bevezetés A korrelációszámítással már a 7. fejezetben foglalkoztunk, így a fogalom jelentése – mennyiségi ismérvek közötti kapcsolat – már ismert. Sőt arról is esett szó, hogy ha a megfigyelt
adatokat kombinációs (korrelációs) táblába rendezzük, akkor az elemzéshez felhasználhatjuk a vegyes kapcsolat szorossági mutatóit H , H 2 , s ezeket – a változók szerepének felcserélése révén – kétféle szemléletben is kiszámíthatjuk. Ebben a fejezetben a kapcsolat vizsgálatának további szorossági mutatóival ismerkedünk meg, illetve azokkal az egyenlettípusokkal, melyeket leggyakrabban használnak a kapcsolat matematikai jellegű leírására. Ezekhez a számításokhoz az adatokat azonban már nem kombinációs táblába rendezve, hanem listaszerűen adjuk meg. A kétváltozós modellekben adat-párokat, a háromváltozósban pedig adat-hármasokat sorakoztatunk fel egymás alatt. A korreláció- és regresszió-számítás témakörét a szakirodalom általában két részre tagolva – kétváltozós és többváltozós modellek – tárgyalja, tankönyvünk is ezt a felosztást alkalmazza. A kétváltozós kapcsolatok egyik szereplője a magyarázó
változó (matematikai szóhasználattal: a független változó, befolyásoló tényező), a másik pedig az eredményváltozó (matematikai szóhasználattal: a függő változó, befolyásolt tényező). A kétváltozós egyenletek statisztikai felhasználásnak egyik sajátossága, hogy a változók szerepe felcserélhető Ha a kérdést úgy tesszük fel, milyen mértékben járult hozzá egy országban a GDP növekedéséhez a szállítási ágazat, akkor magyarázó változónak tekinthetjük pl. a járműállomány valamely jellemzőjét (darabszámát, teherbíró-képességét stb), és eredményváltozónak a GDP nagyságát. A kérdést azonban fordítva is feltehetjük, milyen mértékben járult hozzá a GDP növekedése az ország és azon belül a szállítási ágazat gépjárműállományának növekedéséhez. Ez utóbbi esetben a GDP értéke (növekedése) a magyarázó változó, és természetesen a gépjárműállomány nagysága az eredményváltozó Így a
kapcsolatot pl lineárisnak feltételezve, két egyenletet írhatunk fel: yˆ y x = β 0( y x ) + β1( y x ) xi ill. xˆ y x = β 0( x y ) + β1( x y ) yi és több ( ) szorossági mutatót is. (Erről majd a későbbiekben szólunk részletesen) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 344 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Korreláció-, regresszió-számítás Vissza ◄ 345 ► A társadalmi-, gazdasági élet eseményeit elemezve azonban rendszeresen azt tapasztaljuk, hogy egy-egy vizsgált jelenség nagyságát nem egyetlen tényező befolyásolja. Pl: a paradicsom termésátlaga függ a felhasznált vetőmag, növényvédő szer, műtrágya minőségétől, mennyiségétől; az eső ill. a kiöntözött víz mennyiségétől; a napsütéses órák számától, és egyéb időjárási tényezőktől; a földeken végzett munka mennyiségétől, az odafigyeléstől (= a munka minőségétől), a
kártevők elszaporodásától vagy éppen hiányától stb. De hozhatunk példát az élet egészen más területéről is Egy család életszínvonala függ a keresők és eltartottak számától (arányától), jövedelmük nagyságától, az adózási és társadalombiztosítási elvonásoktól (a bruttó jövedelemből mennyi a szabadon felhasználható rész), a család által fogyasztott javak és szolgáltatások árának változásától stb. Példáink – remélhetőleg – mindenki számára egyértelműen bizonyították, hogy valóban szükség van több változó együttes vizsgálatára. Az ilyen modellekben a magarázó változók száma lehet egynél több, de a különböző lehetséges tényezők modellbe való bevonásának logikai, matematikai, számítástechnikai és pénzügyi korlátai is vannak. A többváltozós modellek közül tananyagunk csak a háromváltozós lineáris egyenletet tartalmazza. 13.2 Kétváltozós elemzések A matematikából ismert
különböző egyenlettípusok közül elsődlegesen a megfigyelt adatok ábrázolásának segítségével tudunk választani. Az ábrát, egy pontdiagramot a koordinátarendszer pozitív negyedében helyezzük el. A vízszintes tengelyen tüntetjük fel a magyarázó változó, a függőleges tengelyen pedig az eredményváltozó értékeit. • Ha a megfigyelt pontok közé leginkább egy egyenest tudunk illeszteni, akkor a lineáris egyenlet paramétereinek kiszámítását érdemes elkezdeni. • Ha a megfigyelt pontok közé leginkább egy görbét tudunk illeszteni, akkor a célszerű újabb ábrát készíteni, ahol vagy csak az eredményváltozó vagy mindkét változó logaritmusai szerepelnek. Ha a görbe így „kiegyenesedik”, akkor vagy az exponenciális- (csak az eredményváltozó megfigyelt értékeinek logaritmikus átalakítását végeztük el), vagy a hatványkitevős (mindkét változó megfigyelt értékeinek logaritmikus átalakítását elvégeztük) egyenlet
paramétereinek kiszámítását célszerű elvégezni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 345 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Korreláció-, regresszió-számítás Vissza ◄ 346 ► • Ha az ábrán a pontok vonulata egy olyan görbét mutat, melyen minimum vagy maximum helyet fedezünk fel, akkor a parabola egyenlet (= másodfokú polinom) használata indokolt. • Ha pedig az ábrán elhelyezkedő pontok vonulata mindkét tengelyt aszimptotikusan közelíti (többnyire intenzitási viszonyszámok megfigyelése esetén találkozunk ilyen ábrákkal), akkor hiperbolára kell gondolnunk. Természetesen az ábrák elkészítése nem kis feladat, – bár a számítógépek ebben is segítségünkre vannak –, de semmiképpen nem felesleges tevékenység. Pl: ha a megfigyelt pontok alapján elkészített ábránkba beillesztjük a regressziós egyenlet vonalát, abból további
következtetéseket vonhatunk le; vagy egyszerűen ellenőrizhetjük addigi számításainkat. (Ha pl, a görbe vagy az egyenes teljes terjedelmében a pontok fölött vagy alatt fut, akkor biztos, hogy hibát követtünk el.) Az egyenletekkel kapcsolatban elsőként ugyanaz a probléma merül fel, mint amiről a trendszámítás során már szóltunk: a pontok közé illeszthető, elvileg végtelen sok egyenes vagy görbe közül melyiket fogadjuk el a legjobbnak. Most is az un legkisebb négyzetek módszerét269 alkalmazzuk Azt az egyenletet fogadjuk el a kapcsolat jellemzésére legjobbnak, amelyiknek pontjai legközelebb vannak a megfigyelt pontokhoz,270 azaz meg2 keressük a ∑ ( yi − yˆ i ) függvény minimum helyét. Ennek érdekében képezzük a függvény első deriváltját, ahol ez a nulla értéket felveszi, ott van a minimum hely. A szükséges matematikai műveletek, és a lehetséges egyszerűsítések után kapjuk meg az un normálegyenleteket A keresett egyenlet
paramétereit közvetlenül ezekből is meghatározhatjuk, de a statisztikában inkább a képletek alkalmazása és értelmezése a szokásos megoldás. A normálegyenletekből kétféle módon alakíthatunk ki képleteket • Az egyenletek rendezésével. Ekkor ugyanazokhoz a formulákhoz jutunk, mint a trendszámításnál, csak t i helyett xi szerepel az összefüggésekben • A másik lehetséges módszer a koordinátatengelyek x és y -val való eltolása. Ennek következtében normálegyenleteink „rövidülnek” (= egyes tagok „kiesnek”), és az előző módszer képleteinél egyszerűbbekhez jutunk. 269 270 Természetesen egyéb módszerek is léteznek, de ez a legegyszerűbb. Lásd: 12.21 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 346 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 347 ► Az exponenciális és a hatványkitevős egyenleteket – a
trendszámításoz hasonlóan – a logaritmikus átalakítás következtében lineáris összefüggésként kezeljük. A parabola egyenlet megoldását a háromváltozós egyenletre vezetjük vissza. A hiperbola egyenlet esetén pedig a reciprokképzés teszi lehetővé a lineáris egyenlet értelemszerű alkalmazását. Lineáris egyenlet: yˆ i = β 0 + β1 xi • ha nincs tengelyeltolás, és a magyarázó változó = x: β1 = ∑ xi yi − (∑ xi )(∑ yi )/ n ∑ x − (∑ x ) 2 2 i i ahol y = ∑y β 0 = y − β1 * x , /n és x = i n ∑x i n • tengelyeltolással, ha a magyarázó változó = x: β1 = ∑d d ∑d x β 0 = y − β1 * x , y 2 x ahol d x = ( xi − x ) és d y = ( yi − y ) Exponenciális egyenlet: yˆ i = β 0 * β1xi • lg yˆ i = lg β 0 + xi ∗ lg β1 ha nincs tengelyeltolás, ha a magyarázó változó = x: lg β1 = ∑ x lg y − (∑ x )(∑ lg y )/ n ∑ x − (∑ x ) / n i i i 2 i i 2 lg β 0 = lg y − (lg β1
)* x , i ahol lg y = ∑ lg y i n • tengelyeltolással, a magyarázó változó = x: A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 347 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok lg β1 = ∑d d ∑d x Vissza ◄ 348 ► lg β 0 = lg y − (lg β1 )* x , v 2 x ahol vi = lg yi és d v = (vi − v ) 271 Hatványkitevős egyenlet272: lg yˆ i = lg β 0 + β1 (lg xi ) yˆ i = β 0 * xiβ1 • ha nincs tengelyeltolás, ha a magyarázó változó = x: β1 = ∑ (lg xi )(lg yi ) − (∑ lg xi )(∑ lg yi )/ n 2 2 ∑ (lg xi ) − (∑ lg xi ) / n lg β 0 = lg y − β1 * lg x , ahol ↓ lg y = ∑ lg y n i = v és lg x = ∑ lg x n i =u • tengelyeltolással, a magyarázó változó = x: β1 = ∑d d ∑d u 2 u v lg β 0 = lg y − β1 ∗ u , ahol ↓ vi = lg yi és d v = (vi − v ) és ui = lg xi és d u = (ui − u ) 271 A segédváltozó
(vi ) bevezetésére a képletek egyszerűbb felírása érdekében kerül sor. 272 Erre az egyenlettípusra bemutató példát nem talál, a részletes tárgyalás nem képezi tananyagunk részét. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 348 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 349 ► Parabola – egyenlet273: yˆ i = β 0 + β1 ∗ xi + β 2 ∗ xi2 yˆ i = β 0 + β1 ∗ x1 + β 2 ∗ x2 , ahol ↓ x1i = xi ( parabola ) és x2i = xi2( parab.) Hiperbola – egyenlet274: yˆ i = 1 zˆi = β 0 + β1 xi , β 0 + β 1 ∗ xi ahol z i = 1 yi • ha nincs tengelyeltolás, ha a magyarázó változó = x: β1 = ∑ xi zi − (∑ xi )(∑ z i )/ n β 0 = z − β1 * x , ∑ xi2 − (∑ xi ) / n 2 ahol z = ∑z i n és x = ∑x i n • tengelyeltolással, ha a magyarázó változó = x: β1 = ∑d d ∑d x z 2 x ahol d x = (
xi − x ) β 0 = z − β1 * x , és d z = ( yi − z ) 273 Részletezésére a háromváltozós egyenletnél kerül sor. Erre az egyenlettípusra bemutató példát nem talál, a részletes tárgyalás nem képezi tananyagunk részét. 274 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 349 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 350 ► A képletekben szereplő betűk jelentése: β0 = β1 = n= matematika: metszéspont az ytengelyen statisztika: lásd a szöveges magyarázat matematika: a kapcsolatot kifejező tényező statisztika: lásd a szöveges magyarázat a megfigyelések darabszáma xi = yi u i , vi , z i = a magyarázó változó az eredményváltozó segédváltozók megfigyelt értékei megfigyelt értékei x, y, u , v, z= egyszerű számtani átlagok d x , d y , du , dv , d z = ŷi = a változók egyes értékeinek és átlaguknak
különbsége (= eltérése) regresszióérték, a kapcsolatot leíró egyenletek xi helyeken vett értékei, melyek rajta vannak a megfigyelt pontok közé illeszkedő egyenesen vagy görbéken 13.21 Lineáris kapcsolat (egyenlet) A lineáris egyenlet β 1 paramétere a magyarázó változó egységnyi abszolút változásához tartozó, és az eredményváltozóra vonatkozó abszolút változás275. Mértékegysége a megfigyelt yi mértékegységével azonos (Pl.: ha a családok összes bevétele276 (ezer Ft / év) = év) = xi és szórakozási kiadásaik összege (ezer Ft / yi , akkor β 1 megmutatja, hogy az összes bevétel ezer forintos emelkedése – pozitív kapcso- latot feltételezve – hány ezer forinttal emeli meg szórakozási kiadásaik nagyságát.) A lineáris egyenlet β 0 paramétere elvileg az xi = 0 helyen vett regresszió érték, de gyakorlatilag igen kevés esetben van konkrét statisztikai jelentése. (Előző példánkat folytatva: olyan család,
amelyiknek összes bevétele a vizsgált évben nulla, nyilván nincs; tehát β 0 paraméternek statisztikai jelentése nincs.) 275 276 Lásd: 12. fejezet, a lineáris trend paramétereinek jelentése Bevétel = bér + családi pótlék + ösztöndíj + kamatjövedelmek + stb. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 350 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 351 ► BEMUTATÓ FELADAT Néhány európai ország lakosságának születéskori várható élettartama277 (év) 2003-ban: 13.1sz tábla országok Ausztria Belgium Bulgária Csehország Dánia Finnország Franciaország Görögország Hollandia Írország Lengyelország Magyarország Nagy-Britannia Németország Norvégia Olaszország Portugália Románia Spanyolország Svájc Svédország Szlovákia Szlovénia Törökország összesen átlag: 277 élettartam (év) xi yi 75,8 75,1 68,6 72,1
74,8 74,9 75,6 75,4 76,0 75,2 70,4 68,3 75,5 75,6 76,4 76,8 73,8 67,6 75,7 77,8 77,7 69,9 72,3 66,2 1.767,5 81,7 81,1 75,3 78,4 79,5 81,5 82,9 80,7 80,7 80,3 78,8 76,5 80,2 81,3 81,5 82,9 80,5 74,9 83,1 83,0 82,1 77,6 79,9 70,9 1.915,3 73,6458 79,8041 d x d y d x2 2,2 1,5 -5,0 -1,5 1,2 1,3 2,0 1,8 2,4 1,6 -3,2 -5,3 1,9 2,0 2,8 3,2 0,2 -6,0 2,1 4,2 4,1 -3,7 -1,3 -7,4 0,0 1,9 1,3 -4,5 -1,4 -0,3 1,7 3,1 0,9 0,9 0,5 -1,0 -3,3 0,4 1,5 1,7 3,1 0,7 -4,9 3,3 3,2 2,3 -2,2 0,1 -8,9 0,0 d y2 4,6 3,6 2,1 1,7 25,5 20,3 2,4 2,0 1,3 0,1 1,6 2,9 3,8 9,6 3,1 0,8 5,5 0,8 2,4 0,2 10,5 1,0 28,6 10,9 3,4 0,2 3,8 2,2 7,6 2,9 9,9 9,6 0,0 0,5 36,6 24,1 4,2 10,9 17,3 10,2 16,4 5,3 14,0 4,9 1,8 0,0 55,4 79,3 262,0 203,7 szórás 3,3754 2,9764 dxd y ŷi ei2 4,0839 1,8843 22,7273 2,1706 -0,3511 2,1269 6,0498 1,5714 2,1089 0,7706 3,2594 17,6635 0,7339 2,9231 4,6706 9,7648 0,1073 29,6500 6,7702 13,2760 9,3077 8,2564 -0,1290 66,2989 215,6954 81,6 81,0 75,7 78,5 80,8 80,8 81,4 81,2 81,7 81,1 77,1 75,4
81,3 81,4 82,1 82,4 79,9 74,8 81,5 83,2 83,1 76,7 78,7 73,7 1.915,3 rez. szórás: 0,0150 0,0098 0,1230 0,0174 1,5730 0,4402 2,2120 0,3004 1,0857 0,6138 2,7809 1,2017 1,2778 0,0127 0,3263 0,2495 0,3237 0,0052 2,5759 0,0500 1,0843 0,7730 1,4488 7,7017 26,20193 1,091328 Magyar statisztikai évkönyv 2003 (KSH – 2004; 554. old) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 351 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 352 ► Megjegyzések a 13.1 sz táblához: • A tábla első oszlopa a megfigyelt országokat abc sorrendben tartalmazza, ennek az egyenlet paraméterei, a kapcsolat szorossága és jellege szempontjából nincs befolyásoló szerepe. • A feladat megoldása során a tengelyeltolásos módszerrel dolgoztunk. (Így kisebb számokat kell feljegyeznünk, és a következő műveleteknél ismét bebillentyűzni a zsebszámológépbe.) A módszer
következménye, – és ez egy ellenőrzési pont is – hogy ∑d = ∑d x y = 0 , az ettől való esetleges (néhány tizednyi vagy még ki- sebb értékű) eltérés a kerekítések következménye. • Figyeljék meg! ∑ y = ∑ yˆ i i Ez az egyezőség mindig fennáll, legfeljebb a kerekí- tések miatt adódhat csekély eltérés. • • x , y = egyszerű számtani átlag, azaz x = σy = • i (n − 2) pedig ∑(y − y) 2 i n −1 és σe = n és y = ∑y i n A két változó szórásának számításakor a nevezőben (n − 1) , a reziduális szórás számításakor • ∑x szerepelt, azaz σx = ∑ (x − x) 2 i n −1 , ( yi − yˆ i )2 n−2 A feladatot EXCEL-programmal oldottuk meg. A számítások során a számítógép az összes tizedest megtartva dolgozott, így ha az összesen oszlop számadatait (kerekített értékek) behelyettesítjük a képletekbe, akkor a 3. – 4 tizedestől némi eltérést tapasztalunk)
FONTOS! Tanulja meg zsebszámológépe statisztikai programját használni, úgy sokkal gyorsabban, a munkatábla kitöltögetése nélkül, a számok újra és újra történő billentyűzése nélkül eredményhez juthat. Például, a SHARP ElL-531WH típusú zsebszámológéppel így kellene dolgozni: o Bekapcsoljuk a zsebszámológépet. ON/C o Átállítjuk a megfelelő (lineáris egyenlet) statisztikai programra. MODE 1 1 o Bebillentyűzzük a magyarázó változó (x) első megfigyelt adatát (itt az Ausztriára vonatkozó 75,8-t), majd megnyomjuk a STO feliratú műveleti billentyűt. o Bebillentyűzzük az eredményváltozó (y) első megfigyelt adatát (itt az Ausztriára vonatkozó 81,7-t), majd megnyomjuk az M+ feliratú műveleti billentyűt. o Az utóbbi két műveletet addig ismételgetjük (természetesen felváltva, és mindig ebben a sorrendben), amíg az összes adat-párt be nem vittük a zsebszámológép memóriájába. A dokumentum használata | Tartalomjegyzék
| Táblázatok Vissza ◄ 352 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok o Vissza ◄ 353 ► Ezután következik a eredmények és a részeredmények kinyerése. Ehhez mindig két műveleti billentyűt kell használnunk, és az első mindig az RCL β 0 paraméter ← RCL ( bemutató példánkban: 19,18329212 paraméter ← RCL ) bemutató példánkban: 0,823140587 r szorossági mutató ← RCL ÷ bemutató példánkban: 0,933488779 x ← RCL 4 bemutató példánkban: 73,64583333 y ← RCL 7 bemutató példánkban: 79,80416667 A magyarázó változó szórása, nevezőben: (n − 1) RCL 5 bemutató példánkban: 3,375355591 Az eredményváltozó szórása, nevezőben: (n − 1) ← RCL 8 bemutató példánkban: 2,97635306 β1 ∑ x ← RCL tizedespont ∑ xi2 ← RCL + / i bemutató példánkban: 1767,5 bemutató példánkban: 130431,05 ∑y i ∑y
2 i ← RCL 2 bemutató példánkban: 1915,3 ← RCL 3 bemutató példánkban: 153052,67 ∑ xy ← RCL 1 bemutató példánkban: 141269,56 n ← RCL 0 o bemutató példánkban: 24 A zsebszámológép a tengelyeltolás nélküli módszerrel dolgozik, de az alábbi matematikai összefüggéseket felhasználva megkaphatjuk a tengelyeltolásos módszerhez szükséges részeredményeket is. ∑x i − n ∗ x 2 = ∑ d x2 ∑y − n ∗ y 2 = ∑ d y2 ∑x y i i i − n ∗ x ∗ y = ∑ dxd y A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 353 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok o o Vissza ◄ 354 ► A zsebszámológép segítségével az adatok egyszeri bevitelével mindkét egyenlet – a változók szerepe felcserélve – felírható. A zsebszámológép segítségével a regresszió-értékeket is könnyen meghatározhatjuk. Bebillentyűzzük
a magyarázó változó azon értékét, amelyikhez a regresszió-értéket meg akarjuk határozni, majd megnyomjuk a 2ndF ) billentyűket. (A zárójel-billentyű bal felső sarkában látjuk is a szokásos statisztikai jelet.) Ha valamennyi regresszió-értéket meg akarjuk ismerni, akkor természetesen ezt a művelet-sort minden xi érték számológépbe billentyűzése mellett el kell végezni. • megoldás tengelyeltolással, ha a magyarázó változó = x: (13.11 sz ábra) β1( y x ) = ∑d d ∑d x = y 2 x 215,6954 = 0,823141 ≅ 0,82 év 262 β 0( y x ) = y − β1( y x ) x = 79,80417 − 0,823141 ∗ 73,64583 = 19,18239 ≅ 19,2 év yˆ i = 19,2 + 0,82 xi év • megoldás tengelyeltolással, ha a magyarázó változó = y: (13.12 sz ábra) β1(x y ) = ∑d d ∑d x 2 y y = 215,6954 = 1,05863 ≅ 1,06 év 203,7 β 0( x y ) = x − β1( x y ) y = 73,64583 − 79,80417 ∗1,05863 = −10,8372 ≅ −10,8 év xˆi = −10,8 + 1,06 yi év Az első egyenlet –
yˆ i = 19,2 + 0,82 xi év – paramétereinek kiszámításánál magyarázó változónak tekintettük a férfiak születéskori várható életkorát, ennek megfelelően a ♥ β 0 paraméternek nincsen statisztikai jelentése (Egyik országban sem szerepelt x megfigyelt értékei között nulla, vagy ahhoz nagyon közeli érték.) ♥ β1 paraméter szerint pedig abban az országban, ahol 1 évvel több a férfiak születéskori várható élettartama, 0,82 évvel magasabb a nők születéskori várható élettartama. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 354 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Korreláció-, regresszió-számítás Vissza ◄ 355 ► A második egyenlet szerint – xˆi = −10,8 + 1,06 yi év – paramétereinek kiszámításánál magyarázó változónak tekintettük a nők születéskori várható életkorát, és ennek megfelelően a β 0 paraméternek most nincsen
statisztikai jelentése (Egyik országban sem szerepelt y megfigyelt értékei között nulla, vagy ahhoz nagyon közeli érték.) ♥ β1 paraméter szerint pedig abban az országban, ahol 1 évvel több a nők születéskori várható élettartama, 1,06 évvel magasabb a férfiak születéskori várható élettartama. Ahogy a trend-egyenesre (görbére) illeszkedő értékeknek, úgy regreszszió-egyenesre illeszkedő pontoknak is van statisztikai jelentése. A megfogalmazás azonban nem olyan egyszerű, mint a trendértékek jelentésének leírása. A trendszámítás során a magyarázó változó (= az idő) folyamatosan halad előre, nincs két azonos t i adat, így ha lineáris egyenlet esetén β1 ≠ 0 , akkor ŷi értékek mind különböznek egymástól. A regresszió-számítás során azonban a magyarázó változó értékei nem mind különböznek egymástól Egy végtelen elemszámú (vagy véges, de kellően nagy elemszámú) sokaság több egysége is felvehet
azonos xi értéket, így az ŷi értékek sem egyetlen sokasági egységhez tartozhatnak. Számpéldánkban ez azt jelenti, hogy nemcsak Dániára lehet jellemző férfiak esetén a 74,8 év, mint születéskori várható élettartam, tehát a regresszió-értéket semmiképpen sem vonatkoztathatjuk csak Dániára. A megfogalmazás tehát így helyes ♥ Azokban az országokban, ahol a férfiak születéskori várható élettartama 2003-ban 74,8 év – a lineáris regresszió szerint – a 2003-ban világra jött nők születésükkor 80,8 éves élettartamra számíthatnak. A bevezetőben említett és a zsebszámológép statisztikai programjának ismertetésénél szereplő szorossági mutató(k)ra később térünk vissza. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 355 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 356 ► a nőkre vonatkozó adat (év)
Néhány európai ország férfi és női lakosásságának születéskori várható élettartama (2003) y = 0,8231x + 19,183 R2 = 0,8714 84,0 82,0 80,0 78,0 Adatsor1 76,0 Lineáris (Adatsor1) 74,0 72,0 70,0 65,0 70,0 75,0 80,0 a férfiakra vonatkozó adat (év) magyarázó változó = a férfiak születéskori várható élettartama 13.11 sz ábra278 a férfiakra vonatkozó adatok (év) Néhány európai ország férfi és női lakosságának születéskori várható élettartama (2003) y = 1,0586x - 10,837 R2 = 0,8714 79,0 77,0 75,0 73,0 Adatsor1 71,0 Lineáris (Adatsor1) 69,0 67,0 65,0 70,0 75,0 80,0 85,0 a nőkre vonatkozó adatok (év) magyarázó változó = a nők születéskori várható élettartama 13.12 sz ábra 278 Az EXCEL-program minden szorossági mutatót R betűvel jelöl. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 356 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 357 ► 13.22 Exponenciális kapcsolat (egyenlet) BEMUTATÓ FELADAT ország 13.2 sz tábla 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. élettartam (év) xi 75,8 75,1 68,6 72,1 74,8 74,9 75,6 75,4 76 75,2 70,4 68,3 75,5 75,6 76,4 76,8 73,8 67,6 75,7 77,8 77,7 69,9 72,3 66,2 1.767,5 Σ átl. 73,65 yi 81,7 81,1 75,3 78,4 79,5 81,5 82,9 80,7 80,7 80,3 78,8 76,5 80,2 81,3 81,5 82,9 80,5 74,9 83,1 83,0 82,1 77,6 79,9 70,9 1.915,3 79,80 dx 2,1542 1,4542 -5,0458 -1,5458 1,1542 1,2542 1,9542 1,7542 2,3542 1,5542 -3,2458 -5,3458 1,8542 1,9542 2,7542 3,1542 0,1542 -6,0458 2,0542 4,1542 4,0542 -3,7458 -1,3458 -7,4458 0 dx 4,6404 2,1146 25,4604 2,3896 1,3321 1,5729 3,8188 3,0771 5,5421 2,4154 10,5354 28,5779 3,4379 3,8188 7,5854 9,9488 0,0238 36,5521 4,2196 17,2571 16,4363 14,0313 1,8113 55,4404 262,04 lg yi dv d xdv ŷi ei2 1,9122 1,9090 1,8768 1,8943 1,9004 1,9112 1,9186 1,9069 1,9069
1,9047 1,8965 1,8837 1,9042 1,9101 1,9112 1,9186 1,9058 1,8745 1,9196 1,9191 1,9143 1,8899 1,9025 1,8506 45,6414 1,9017 0,0105 0,0073 -0,0249 -0,0074 -0,0014 0,0094 0,0168 0,0051 0,0051 0,0030 -0,0052 -0,0181 0,0024 0,0084 0,0094 0,0168 0,0041 -0,0272 0,0179 0,0174 0,0126 -0,0119 0,0008 -0,0511 0,0000 0,0226 0,0106 0,1258 0,0115 -0,0016 0,0118 0,0329 0,0090 0,0121 0,0046 0,0169 0,0966 0,0045 0,0163 0,0260 0,0531 0,0006 0,1647 0,0367 0,0721 0,0512 0,0444 -0,0011 0,3803 1,2018 81,6 81,0 75,6 78,5 80,7 80,8 81,4 81,2 81,8 81,1 77,1 75,4 81,3 81,4 82,1 82,5 79,9 74,8 81,5 83,3 83,2 76,7 78,6 73,7 1.915,1 rez.sz 0,0135 0,0137 0,0967 0,0033 1,5056 0,4729 2,2145 0,2917 1,1162 0,5909 3,0210 1,2729 1,2678 0,0125 0,3631 0,2024 0,3856 0,0069 2,5667 0,1059 1,2938 0,8910 1,6290 7,9450 27,28 1,1136 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 357 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok
Vissza ◄ 358 ► Megjegyzések a 13.2 sz táblához: • • • A tábla ugyanazoknak az országoknak – és ugyanazon sorrendben – a megfigyelt adatait tartalmazza, mint a 13.1 sz A számítási munkát most is az EXCEL programmal végeztük. A feladat megoldása során a tengelyeltolásos módszerrel dolgoztunk. A módszer következménye, hogy ∑d = ∑d x v = 0 , az ettől való esetleges (néhány tizednyi vagy még kisebb értékű) eltérés a kerekítések következménye. • Figyeljék meg! ∑ y = ∑ yˆ i i Ez az egyezőség mindig fennáll, legfeljebb a kerekí- tések miatt adódhat csekély eltérés. Bár az exponenciális egyenlet esetében, főleg ha manuálisan dolgoztunk (és rendszeresen kerekítettünk) az eltérés nagyobb is lehet, mint a lineáris egyenletnél. ∑x x , v = egyszerű számtani átlag, azaz x = • Az EXCEL program az ábrára természetes alapú logaritmust alkalmazva írja ki az egyenletet, ezért látunk részben
más számokat a 13.2sz ábrán és a képletek alapján végzett számítások között. Ha össze akarjuk hasonlítani a tízes alapú logaritmust alkalmazó megoldást (132sz tábla) és a számítógépes megoldást, akkor az EXCEL program kitevő függvényét kell alkalmazni. A korábban megnevezett (lineáris megoldás) zsebszámológép segítségével is meg- • i n és y = ∑ lg y = ∑ v • i n i n kaphatjuk az exponenciális egyenlet paramétereit. Ekkor a MODE 1 3 programot kell választanunk A megoldás során a zsebszámológép is a természetes alapú logaritmusnak megfelelően írja ki β1 paraméter értékét, ezért ha a tízes alapú logaritmussal számított értékre van szükségünk (értelmezni ezt tudjuk), akkor azt a következő billentyűsorozat segítségével kapjuk meg: RCL • ) 2ndF ln = A zsebszámológép segítségével a regresszió-értékeket is könnyen meghatározhatjuk. Bebillentyűzzük a magyarázó változó azon
értékét, amelyikhez a regresszió-értéket meg akarjuk határozni, majd megnyomjuk a 2ndF ) billentyűket. Ha valamennyi regresszió-értéket meg akarjuk ismerni, akkor természetesen ezt a művelet-sort minden xi érték számológépbe billentyűzése mellett el kell végezni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 358 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 359 ► a nőkre vonatkozó adatok (év) Néhány európai ország lakosságának születéskori várható élettartama 2003 y = 36,6414e0,0106x 84 82 80 78 Adatsor1 76 Expon. (Adatsor1) 74 72 70 65 70 75 80 a férfiakra vonatkozó adatok (év) magyarázó változó = a férfiak születéskori várható élettartama279 13.2sz ábra Az európai országok férfi (= magyarázó változó) és női lakóinak (= eredményváltozó) születéskori várható élettartama között
exponenciális kapcsolatot feltételezve, a tengelyeltolásos módszert alkalmazva a következő egyenlethez jutunk. lg β1 = ∑d d ∑d x v 2 x = 1,2018 = 0,00458619 ↓ 262,0396 β1 = 1,01061605 101,061605% ≅ +1,06% lg β 0 = lg y − (lg β1 ) * x = = 1,901726 − 0,00458619 ∗ 73,64583& = 1,56397178 ↓ β 0 = 36,64137625 ≅ 36,6 év 279 A lineáris egyenletet kivéve minden esetben (exponenciális, hatványkitevős stb.) a „görbe” kifejezést használtuk az egyenletek képére utalva. Ezzel szemben a 132 és később a 13.3 ábrán a megfigyelt adatokat ábrázoló pontok közé az EXCEL-program által illesztett vonal nem tűnik görbének. Ennek kettős oka van, egyrészt az ábra mérete, de ennél is fontosabb a másik ok. Igen kevés adat-párral dolgoztunk az átláthatóság (oktatási cél) érdekében. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 359 ► Statisztika Korreláció-, regresszió-számítás A
dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 360 ► yˆ i = 36,6 ∗1,0106 xi év A lineáris egyenlet paramétereinek jelentését taglaló magyarázatunkat, és a trendszámítással kapcsolatban tanultakat figyelembe véve: az exponenciális egyenlet ♥ β 0 paraméterének sincs statisztikai jelentése, ♥ a β1 paraméter szerint pedig abban az országban, ahol a férfiak születéskori várható élettartama (2003) egy évvel nagyobb, az adott évben született nők születéskori várható élettartama 1,06 %-kal magasabb. Példaként ismét megfogalmazzuk egy regresszió-értének a jelentését is. ♥ Azokban az országokban, ahol a férfiak születéskori várható élettartama 76,8 év (így Olaszországban is), a nők születésükkor – a változók között szabályos exponenciális kapcsolatot feltételezve – arra számíthatnak, hogy 82,5 évet fognak élnek. 13.23 Hatványkitevős kapcsolat (egyenlet) BEMUTATÓ FELADAT 13.3sz tábla
élettartam (év) xi yi 75,8 75,1 68,6 72,1 74,8 74,9 75,6 75,4 76,0 75,2 70,4 68,3 75,5 81,7 81,1 75,3 78,4 79,5 81,5 82,9 80,7 80,7 80,3 78,8 76,5 80,2 lg xi du d u2 lg yi dv d u d v ŷi ei2 1,8797 1,8756 1,8363 1,8579 1,8739 1,8745 1,8785 1,8774 1,8808 1,8762 1,8476 1,8344 1,8779 0,0130 0,0089 -0,0304 -0,0088 0,0072 0,0078 0,0118 0,0107 0,0141 0,0095 -0,0191 -0,0323 0,0112 0,0002 0,0001 0,0009 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002 0,0001 0,0004 0,0010 0,0001 1,9122 1,9090 1,8768 1,8943 1,9004 1,9112 1,9186 1,9069 1,9069 1,9047 1,8965 1,8837 1,9042 0,0105 0,0073 -0,0249 -0,0074 -0,0014 0,0094 0,0168 0,0051 0,0051 0,0030 -0,0052 -0,0181 0,0024 0,0001 0,0001 0,0008 0,0001 0,0000 0,0001 0,0002 0,0001 0,0001 0,0000 0,0001 0,0006 0,0000 0,0119 0,0073 0,0879 0,0164 1,6048 0,4233 2,1713 0,3155 1,1144 0,6350 2,8613 1,3374 1,3090 A dokumentum használata | Tartalomjegyzék | Táblázatok 81,6 81,0 75,6 78,5 80,8 80,8 81,4 81,3 81,8 81,1 77,1 75,3 81,3 Vissza ◄
360 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok 75,6 76,4 76,8 73,8 67,6 75,7 77,8 77,7 69,9 72,3 66,2 1.767,5 ◄ Vissza 361 ► 81,3 1,8785 0,0118 0,0001 1,9101 0,0084 0,0001 81,4 0,0160 81,5 1,8831 0,0164 0,0003 1,9112 0,0094 0,0002 82,1 0,3416 82,9 1,8854 0,0187 0,0003 1,9186 0,0168 0,0003 82,4 0,2373 80,5 1,8681 0,0014 0,0000 1,9058 0,0041 0,0000 79,9 0,3137 74,9 1,8299 -0,0368 0,0014 1,8745 -0,0272 0,0010 74,8 0,0218 83,1 1,8791 0,0124 0,0002 1,9196 0,0179 0,0002 81,5 2,5319 83,0 1,8910 0,0243 0,0006 1,9191 0,0174 0,0004 83,2 0,0539 82,1 1,8904 0,0237 0,0006 1,9143 0,0126 0,0003 83,2 1,1031 77,6 1,8445 -0,0222 0,0005 1,8899 -0,0119 0,0003 76,7 0,8292 79,9 1,8591 -0,0076 0,0001 1,9025 0,0008 0,0000 78,7 1,4529 70,9 1,8209 -0,0458 0,0021 1,8506 -0,0511 0,0023 73,6 7,1066 1.915,3 44,8008 0 0,0095 45,6414 0 0,0073 1915,1 25,9035 átlag: átlag: reziduális 1,8667 1,9017 szórás:1,085096 Megjegyzések
a 13.3 sz táblához: • • • A tábla ugyanazoknak az országoknak – és ugyanazon sorrendben – a megfigyelt adatait tartalmazza, mint a 13.1 sz A számítási munkát most is az EXCEL programmal végeztük. A korábban megnevezett (lineáris megoldás) zsebszámológép segítségével is megkaphatjuk a hatványkitevős egyenlet paramétereit. Ekkor a MODE 1 4 progra- • mot kell választanunk. A feladat megoldása során a tengelyeltolásos módszerrel dolgoztunk. A módszer következménye, hogy ∑d = ∑d u v = 0 , az ettől való esetleges (néhány tizednyi vagy még kisebb értékű) eltérés a kerekítések következménye. • Figyeljék meg! ∑ y = ∑ yˆ i i Ez az egyezőség mindig fennáll, legfeljebb a kerekí- tések miatt adódhat csekély eltérés. • u,v = v= egyszerű ∑ v = ∑ lg y i n számtani átlag, azaz u= ∑ u = ∑ lg x i n i és n i n A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 361
► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 362 ► a nőkre vonatkozó adatok (év) Néhány európai ország lakosságának születéskori várható élettartama (2003) 84 y = 2,9817x 0,7646 82 80 78 Adatsor1 76 Hatvány (Adatsor1) 74 72 70 65 70 75 80 a féfiakra vonatkozó adatok (év) magyarázó változó = a férfiak születéskori várható élettartama 13.3sz ábra Az európai országok férfi (= magyarázó változó) és női lakóinak (= eredményváltozó) születéskori várható élettartama között hatványkitevős kapcsolatot feltételezve, a tengelyeltolásos módszert alkalmazva a következő egyenlethez jutunk. β1 = ∑d d ∑d u 2 u v = 0,0073 = 0,764595 ≅ 0,76 0,0095 lg β 0 = lg y − β1 ∗ u = 1,9017 − 0,764595 ∗ 1,8667 = 0,474457 ↓ β 0 = 2,981652 ≅ 3 év yˆ i = 3 ∗ xi0, 76 év Az egyenlet ♥ β 0 paraméterének ebben az esetben
sincs jelentése, (A férfiak várható élettartama minden országban lényegesen nagyobb egy évnél280.) 280 yˆ i = β 0 , ha xi = 1 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 362 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 363 ► ♥ β1 paramétere szerint pedig, amelyik országban 1 %-kal magasabb a férfiak születéskori várható élettartama, ott a nők születéskori várható élettartama 0,76 %-kal magasabb. A hatványkitevős egyenlet β1 paramétere tehát nem más, mint az elaszticitás (= rugalmasság). Ennek általános értelmezése: az egyik változó (pl.: az eladásra kínált áruk árának) 1 %-os változása, a másik változó (pl: a megvásárolt áruk mennyiségének) hány %-os változását vonja maga után. Általánosságban: E (%) = ∆y ∆x : y x 281, ahol a törtek számlálójában a megfigyelt jelenségek abszolút
változása, a nevezőben pedig azok bázis értéke található, azaz maguk a törtek a relatív változásokat fejezik ki. A rugalmasság rendkívül fontos közgazdasági kategória, lehetővé teszi a legkülönbözőbb mértékegységű és abszolút értékű jelenségek változásának összehasonlítását. A mutató rendkívüli fontossága miatt a lineáris egyenlethez kapcsolódó számítását is meg kell ismernünk. egyedi xi − yi adat-pár mellé: E = β1 xi yˆ i ill. x − y adat-páros mellé: Elin = β1 281 x y A hatványkitevős egyenlet jelöléseit β β yˆ − yˆ1 x2 − x1 β 0 x2 − β 0 x E= 2 : = : 0,01 ≅ β1 yˆ1 x1 β 0 x1β (0,01= a magyarázó változó 1%-os változása együtthatós formában) 1 alkalmazva: 1 1 1 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 363 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 364 ► A
hatványkitevős egyenlet β1 paramétere és a lineáris egyenlethez kapcsolódó rugalmassági együttható(k) között azonban alapvető különbség van. A görbe vonalú egyenlet ívrugalmasságot ad, ezzel szemben az egyenes vonalú kapcsolatot csak pontrugalmasságokkal tudjuk jellemezni, vagyis elméletileg annyi különböző E-értéket tudunk meghatározni, ahány pontja van az egyenesnek. (13.4 sz tábla) Az egyes országokra vonatkozó megfigyelt adatokat most a magyarázó változó szerint növekvő sorrendben adtuk meg, így a szabályosságot is észrevehetjük. Az alacsonyabb xi értékekhez kisebb, a magasabb xi értékekhez pedig nagyobb rugalmasság tartozik, az x -átlaghoz tartozó rugalmasság pedig (134 sz tábla, vastagabb számokkal írtuk, szürke háttérrel kiemeltük) megközelítőleg azonos a hatványkitevős egyenletből ismert ívrugalmassággal. Elin = β1 x = 0,75962 ≅ β1( hatv.) = 0,764595% y ♥ A magyarázó változó átlagához tartozó
rugalmasság jelentése: Ha az európai országok férfi lakosságának születéskor várható átlagéletkorának (≅ 73,7 év) környezetében 1 %-os változás történik, akkor – a változók között lineáris kapcsolatot feltételezve – arra számíthatunk, hogy a nők születéskor várható átlagéletkorának (≅ 79,8 év) környezetében ≅ 0,76 %-os változás történik. (A kapcsolat az egységnyi rugalmasságnál kisebb) Hasonlóképpen lehet megfogalmazni a több kiszámított adatot. Pl: ♥ A nők születéskori várható élettartamának (≅ 73,7 év) környezetében ≅ 0,74 %-os változásra számíthatnak azokban az országokban, ahol a férfiak születéskori várható élettartamának (≅ 66,2 év) környezetében 1 %-os változás történik. (A két élettartam között lineáris kapcsolatot feltételezve) 13.4sz tábla xi yi ŷi E (%) 66,2 67,6 68,3 68,6 69,9 70,9 74,9 76,5 75,3 77,6 73,7 74,8 75,4 75,7 76,7 0,739623 0,743633 0,745592
0,746423 0,74996 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 364 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok 70,4 72,1 72,3 73,64583 73,8 74,8 74,9 75,1 75,2 75,4 75,5 75,6 75,6 75,7 75,8 76,0 76,4 76,8 77,7 77,8 78,8 78,4 79,9 79,80417 80,5 79,5 81,5 81,1 80,3 80,7 80,2 82,9 81,3 83,1 81,7 80,7 81,5 82,9 82,1 83 77,1 78,5 78,7 79,9 80,8 80,8 81,0 81,1 81,2 81,3 81,4 81,4 81,5 81,6 81,7 82,1 82,4 83,1 83,2 Vissza ◄ 365 ► 0,751294 0,755726 0,756237 0,75962 0,760002 0,762448 0,76269 0,763173 0,763413 0,763892 0,764131 0,76437 0,76437 0,764608 0,764845 0,765319 0,76626 0,767194 0,769269 0,769497 13.24 A kétváltozós kapcsolatok szorossági mutatói A megfigyelt változók között egyenes vonalú kapcsolatot feltételezve a lineáris korrelációs együttható (r ) és a korrelációs index (I ) , görbe vonalú kapcsolatot feltételezve pedig csak a korrelációs
index (I ) számítására van lehetőségünk. Ezek fejezik ki a kapcsolat szorosságát A lineáris korrelációs együttható alapgondolata a következő. • Ha két változó között pozitív kapcsolat van, akkor o az egyik átlagos értékéhez a másik átlagos értéke; o az egyik átlag feletti értékéhez, a másik átlag feletti értéke, és o az egyik átlag alatti értékéhez a másik átlag alatti értéke tartozik. • Ha a két változó között negatív kapcsolat van, akkor o az egyik átlagos értékéhez a másik átlagos értéke; o az egyik átlag alatti értékéhez a másik átlag feletti értéke, és o az egyik átlag feletti értékéhez a másik átlag alatti értéke tartozik. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 365 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 366 ► A fentiek alapján logikus, ha a változók értékeinek
saját átlaguktól való eltérését (d x , d y d x d y ) használjuk a kapcsolat szorosságának kimutatására. Az eltérés szorzatok összegének előjele a kapcsolat jellegét adja meg. Ez negatív, ha a változók „ellenkező irányban mozognak” (Például, ha a családok egy főre jutó jövedelmének alakulását vizsgáljuk az eltartottak számának függvényében) A kapcsolat pedig pozitív, ha a változók „azonos irányban mozognak”. (Például, ha a szórakozási kiadások értékét vizsgáljuk a jövedelmek nagyságának függvényében.) Határértékkel rendelkező mutatóhoz pedig akkor jutunk, ha az eltérés szorzatok összegét (= az együttes szórást) annak maximális értékéhez viszonyítjuk. r= ∑d d ∑d ∑d x 2 x y 2 y = (∑ x ∑x y i 2 i − nx 2 i − nx y )(∑ y 2 i − ny 2 ) = β1 σx σy 282 A lineáris korrelációs együttható (= r ) négyzetét determinációs együtthatónak = r 2 nevezzük és %-os
formában értelmezzük. Ez a mutató a befolyásolás mértékét mutatja meg. ( ) A lineáris korrelációs együttható és a determinációs együttható határértékei, és azok jelentése azonos a H ill. a H 2 mutatóknál megtanultakkal A nulla r esetén itt is a kapcsolat hiányát az egy ill. az ahhoz közeli érték a szoros kapcsolatot jelzi; r 2 (% ) esetén a nulla érték azt jelzi, hogy a magyarázó változó növekedése vagy csökkenése nincs befolyásoló hatással az eredményváltozóra, míg a 100 % vagy az ahhoz közeli érték azt jelenti, hogy a magyarázó változón kívüli tényezők nem nagyon befolyásolják az eredményváltozó alakulását. A lineáris korrelációs együttható és az abból számított determinációs együttható sajátossága, hogy nagyságukat a változók szerepének felcserélése nem befolyásolja.283 A korrelációs index (= I ) a H mutatóhoz hasonlóan a teljes szórás (=az eredményváltozó megfigyelt értékeinek
szórása) összetevőkre bontá282 A mutatóban szereplő betűk jelentése korábbról már ismert. A mutatónak egyéb felírásai is ismertek. 283 Matematika: a szorzás tényezőinek sorrendje A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 366 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 367 ► sán (= a regresszió-értékek szórása és a rezídiumok (e = yi − yˆ i ) szórása) alapszik. Határértékei és azok jelentése pedig az előzőekben leírtakkal (r ) azonos Ugyanez igaz korrelációs index négyzetére is, melyet szin- tén determinációs együtthatónak (= I ) nevezünk. A korrelációs indexnek előjele nincs, így a kapcsolat jellegét nem mutatja meg. 2 I = 1− σe = ∑e σ y2ˆ σ e2 ∑ ei2 ,284 ahol = ≅ 1 − σ y2 σ y2 ∑ d y2 2 i 285 , σy = n−2 ∑d 2 y n −1 és σ yˆ = ∑ ( yˆ − y) 2 i n −1
BEMUTATÓ FELADAT Az előzőek folytatása (13.1, 132, 133 táblák alapján) Lineáris kapcsolat: ∑d d ∑d ∑d r= x 2 x y 2 y = 0,823140587 ∗ I = 1− = 215,6954 σ = β1 x = σy 262 ∗ 203,7 3,375356 ≅ 0,933 r 2 ≅ 87% 2,976353 σ y2ˆ 1,0913282 2,7783922 σ e2 = 1 − = = ≅ 2,9763532 2,9763532 σ2 σ y2 y ≅ 1− 284 sül. 285 A ∑e ∑d σ y2 = σ y2ˆ + σ e2 2 i 2 y = 1− 26,2093 ≅ 0,93 I 2 ≅ 86,6% 203,7 összefüggés tökéletesen csak a lineáris kapcsolat esetén érvénye- σ e = reziduális szórás, a nevezőben (n − 2 ) = a szabadságfok. (A másik két szórás- ban (n − 1) szintén a szabadságfok. Lásd: becslés) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 367 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 368 ► Exponenciális kapcsolat: σ y2ˆ 1,0913282 2,801424 2 σ e2 I = 1− 2 = 1− = = ≅
2,9763532 2,9763532 σ σ y2 y ≅ ∑e 1− ∑d 2 i 2 y = 1− 27,2827 ≅ 0,93 I 2 ≅ 86,6% 203,7 Hatványkitevős kapcsolat: σ y2ˆ 1,0850962 2,8103782 σ e2 I = 1− 2 = 1− = = ≅ 2,9763532 2,9763532 σ σ y2 y ≅ 1− ∑e ∑d 2 i 2 y = 1− 25,9035 ≅ 0,931 I 2 ≅ 86,7% 203,7 ♥Az európai országok férfi és női lakóinak születéskori várható élettartama (2003) közötti kapcsolatot mind a három mutató (gyakorlatilag) egyformán szorosnak jelzi. A férfiak születéskori várható élettartama erősen, ≅ 87 %-ban befolyásolja a nők születéskori várható élettartamát.286 Milyen következtetést vonhatunk le a mutatók számértékének (itt csekély) eltéréséből? Az egyenesen (lineáris kapcsolat) és a görbéken (exponenciális, hatványkitevős kapcsolat) lévő pontok nem egyforma távolságra vannak a megfigyelt pontoktól, azaz a három egyenlet nem egyformán jól jellemzi a kapcsolatot. A különbség jelen esetben ugyan
igen kicsi, de ∑ ei2 a hatványkitevős kapcsolatnál a legkisebb (≅ 25,9 ) , ezért I itt a legnagyobb (≅ 0,931) , vagyis ha további (pl.:becslési287) feladatokat kell végeznünk, akkor azokhoz célszerű a hatványkitevős egyenletet felhasználni. 286 A lineáris korreláció együttható jelentését így is megfogalmazhatjuk: a nők születéskori várható élettartama 87 %-ban befolyásolja a férfiak születéskori várható élettartamának alakulását (szóródását). Sőt így is fogalmazhatunk: a vizsgált változók kölcsönösen 87 %ban magyarázzák meg egymás alakulását (szóródását) 287 Becslési feladatokat tananyagunk azonban csak a lineáris egyenlethez kapcsolódóan tartalmaz. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 368 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Korreláció-, regresszió-számítás Vissza ◄ 369 ► 13.25 Betekintés a lineáris kapcsolathoz tartozó
becslési és ipotézisellenőrzési feladatokba Tekintettel arra, hogy a mennyiségi változók közötti kapcsolatok vizsgálatához sem tudunk teljes körű adatgyűjtést végezni, azaz számításainkat szinte minden esetben mintasokaságok alapján végezzük, a paramétereket és a regresszió-értékeket egyaránt valószínűségi változónak kell tekintenünk. A valószínűségi változókról pedig tudjuk, hogy azok értéke mintáról mintára kisebb nagyobb mértékben ingadozik, ezért célszerűnek látszik azt az intervallumot is megismerni, melyben ezek a becsült értékek adott valószínűség mellett megtalálhatóak. Továbbá célszerű kételkedni a kapcsolat szignifikáns jellegében, és ellenőrizni azt. A paraméterek és a regresszió-értékek intervallumának becslése hasonló módon történik, mint a számtani átlag becslése. • Pontbecslés (= a tanult képletek alapján). • A standardhiba kiszámítása. • Az adott valószínűség és
szabadságfok alapján a megfelelő táblabeli érték kikeresése. • A hibahatár kiszámítása. • Az intervallum határaink felírása. A standardhibák képleteinek felsorakoztatása előtt egy kis kitérőt kell tennünk. A regresszió-értékeket ugyanis kétféle felfogásban kezelhetjük A férfiak és nők születéskori várható élettartamára vonatkozó többféleképpen is megoldott példánkban szerepelő adat a ≅ 75 éves férfiakra vonatkozó életkor felfogható a környezetében elhelyezkedő értékek (Belgium 75,1 év; Dánia 74,8 év; Finnország 74,9 év; Görögország 75,4 év; Írország 75,2 év stb.) átlagának, és felfogható egyedi értéknek Az átlagos értékek becslése kisebb, az egyedi értékek becslése pedig nagyobb hibával végezhető, így a regresszió értékek becsléséhez két standardhiba képletre van szükségünk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 369 ► Statisztika Korreláció-,
regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 370 ► A lineáris egyenlet β 0 paraméterének standardhibája: σβ =σe 0 ∑x n∑ d 2 i 2 x A lineáris egyenlet β1 paraméterének standardhibája: 1 = ∑ d x2 σβ =σe 1 σe ∑d 2 x Az átlagos regresszió érték ( ŷi ) standardhibája: 1 ( xi − x ) + n ∑ d x2 2 σ yˆ = σ e i Az egyedi regresszió érték ( ŷi ) standardhibája: 1 ( xi − x ) + + 1 288 n ∑ d x2 2 σ yˆ = σ e i A hibahatár – ahogy azt a becsléssekkel kapcsolatban már bemutattuk – egy táblabeli érték és a standard hiba szorzataként számítható ki. A szükséges tábla jelen esetben a Student-féle t-eloszlás. A becslés szabadságfoka ( v = a tábla oldalrovatában találhatjuk értékeit) = (n − m − 1) 289, tekintettel arra, hogy a regresszió egyenleteknek két mintáról mintára ingadozó paramétere (β 0 , β1 ) van. A táblában való keresésnél a
becslés valószínűségének (értékei a fejlécből olvashatók le együtthatós formában) figyelembe vétele 1− P ⎞ ⎛ ugyanúgy történik, mint az átlagok kétoldalú becslésénél, azaz ⎜ P + ⎟. 2 ⎠ ⎝ 288 Az egyedi és az átlagos regresszió érték standard hibájának számítása mindössze a négyzetgyök jel alatti „+1” tagban tér el. Ez a látszólag csekély eltérés azt eredményezi, hogy az egyedi regresszió érték standard hibája nagyobb, az átlagos regresszió érték standard hibája pedig kisebb a reziduális szórásnál. 289 m = az egyenlet magyarázóváltozóinak száma A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 370 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 371 ► Az eddigiek alapján a becsült értékek intervallumának képletei: A lineáris egyenlet β 0 paraméterének kétoldalú intervalluma: ⎡ [β
0 ± ∆] = ⎢β 0 ± t⎛ P+1− P ⎞ ∗ σ β ⎢⎣ ⎜ ⎝ ⎟ 2 ⎠ ⎤ ⎥ 0 ⎥⎦ A lineáris egyenlet β1 paraméterének kétoldalú intervalluma: ⎤ ⎡ [β1 ± ∆] = ⎢β1 ± t⎛ P+1−P ⎞ ∗ σ β ⎥ ⎢⎣ ⎜ ⎝ 1 ⎟ 2 ⎠ ⎥⎦ Az átlagos és az egyedi regresszió érték ( ŷi ) kétoldalú intervalluma: ⎤ ⎡ [ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ⎢⎣ ⎜ ⎝ ⎟ 2 ⎠ i ⎥⎦ A kapcsolat jelentősségének ellenőrzése is hasonlóan folyik, mint ahogy azt a korábbiakban (lásd: két számtani átlag, két szórás stb. összehasonlítása) ismertettük A hipotézisek felírása A megfelelő próbafüggvény kiválasztása, aktuális értékének kiszámítása. A próbafüggvényhez illő táblából az adott ellenőrzési szinthez és adott szabadságfokhoz tartozó érték kikeresése. A próbafüggvény értékének és a táblabeli értéknek összehasonlítása alapján döntéshozatal. 1. A
kapcsolat szignifikáns voltának ellenőrzésére az alábbi két hipotézis írjuk fel. H 0 : β1 = 0 H 1 : β1 ≠ 0 Emlékezzünk matematikai tanulmányainkra! Ha egy függvény meredeksége = 0, akkor a függvény a vízszintes tengellyel párhuzamosan halad, és teljesen mindegy, hogy a független változó (= statisztikában a magyarázó változó) milyen értéket vesz fel, a függő változó (statisztikában az eredményváltozó) értékei rendre azonosak, vagyis y teljesen független x -től. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 371 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 372 ► 2. Az elméletben előforduló próbafüggvények közül kettővel ismerkedünk meg, az egyik (= t − próba ) a vizsgált paraméternek a saját standard hibájához való viszonyára alapozza a döntést, a másik (= F − próba ) pedig tulajdonképpen
varianciaanalízis290, azaz az eredményváltozó szórásnégyzetét összetevőire bontja, majd ezeket hasonlítja egymáshoz. t= β1 σβ 1 SSR MSR = 1 = F= MSE SSE n−2 ∑ ( yˆ − y) 2 i 1 ∑ ( y1 − yˆ1 )2 n−2 3. A szükséges tábla a próbafüggvény betűjeléből egyértelműen leolvasható. Ha az ellenőrzést a t − próbával akarjuk megoldani, akkor az adott valószínűségi értéket a táblában való kereséshez éppúgy át kell alakítani (= kétoldalú próba), mint ahogy azt pl. a számtani átlagok összehasonlításakor megtettük. (Az átalakított valószínűségi értéket pedig együtthatós formában a Student-tábla fejlécében találjuk meg.) A hipotézisellenőrzés szabadságfoka: (v = n − 2 ) . Ennek magyarázatát a becsléssel kapcsolatban már leírtuk. (A szabadságfokot a nevezett tábla oldalrovatában találjuk meg.) Ha az ellenőrzést a F − próbával akarjuk megoldani, akkor az adott valószínűségi értéket a
táblában való kereséshez nem kell átalakítani (= egyoldalú próba), de ezt az értéket most a tábla címében kell keresnünk. (Lásd: 10 és 11. fejezetek Emlékezzen, a tábla fejlécét és oldalrovatát a számlálóra (v1 = 1) ill. a nevezőre (v2 = n − 2 ) vonatkozó szabadságfokok foglalják el) 4. Döntésünket tökéletesen úgy hozzuk meg, mint a korábbiakban • Ha a próbafüggvény számított értéke kisebb, mint a táblából kikeresett érték, akkor a null-hipotézist, • ha pedig a próbafüggvény számított értéke nagyobb, mint táblából kikeresett érték, akkor az alternatív-hipotézist fogadjuk el. 290 Tekintettel arra, hogy szinte minden tankönyv közli a képletben szereplő adatok angol megnevezésének rövidítését, mi is közöljük Vegyük észre a számlálóban tulajdonképpen a regresszió szórásnégyzete, a számlálóban pedig a reziduális szórásnégyzet szerepel. A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 372 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 373 ► BEMUTATÓ FELADAT Az előzőek folytatása (13.1 sz tábla alapján) A lineáris egyenlet β 0 paraméterének standardhibája: σβ =σe 0 ∑x n∑ d 2 i 2 x =1,091328 130431,05 = 4,97037924 24 ∗ 262 A lineáris egyenlet β1 paraméterének standardhibája: σβ =σe 1 1 = ∑ d x2 σe ∑d 2 x = 1,091328 = 0,067422469 262 A Student táblából kikeresett érték P = 95% valószínűség mellett: −2 t 024.975 = 2,07 A lineáris egyenlet β 0 paraméterének kétoldalú intervalluma: [β 0 ± ∆] = [19,18 ± 2,07 ∗ 4,97] ≅ [8,9〈 β 0 〈 29,5] év A lineáris egyenlet β1 paraméterének kétoldalú intervalluma: [β1 ± ∆] = [0,82 ± 2,07 ∗ 0,067] ≅ [0,68〈 β1 〈0,96] év Az intervallumok határainak jelentése: ♥ A 24 elemű EV minta alapján 95 %-os valószínűséggel
állíthatjuk, hogy az európai férfiak és nők születéskori várható élettartama közötti kapcsolatot leíró lineáris regresszió egyenlet β 0 paramétere legalább 8,9 és legfeljebb 29,5; β1 paramétere pedig legalább 0,68 és legfeljebb 0,96 év. De így is fogalmazhatunk: ♥ A férfiak és a nők születéskori várható élettartama között lineáris kapcsolatot feltételezve, a 24 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy ha az európai férfiak születéskori várható élettartama 1 évvel változik, akkor a nők születéskori várható élettartama legalább 0,68 és legfeljebb 0,96 évvel változik. A regresszió értékek intervallumai: A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 373 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 374 ► ország 13.5sz tábla σ ŷ i átlagos ∆ ŷi az átlagos
intervallum σ ŷi határai egyedi alsó felső ∆ ŷi az egyedi intervallum határai alsó felső 1. 0,265925 0,551495 81,0 82,1 1,12326 2,329499 79,2 2. 0,243384 0,504748 80,5 81,5 1,118138 2,318876 78,7 3. 0,406627 0,843292 74,8 76,5 1,164621 2,415276 73,2 4. 0,245939 0,510046 78,0 79,0 1,118697 2,320035 76,2 5. 0,235965 0,489361 80,3 81,2 1,116547 2,315576 78,4 6. 0,238273 0,494148 80,3 81,3 1,117037 2,316592 78,5 7. 0,258808 0,536735 80,9 81,9 1,121596 2,326049 79,1 8. 0,252211 0,523055 80,7 81,8 1,120093 2,32293 78,9 9. 0,273522 0,56725 81,2 82,3 1,125083 2,333279 79,4 10. 0,357855 0,742146 82,5 84,0 1,148502 2,381848 80,8 11. 0,246177 0,51054 80,6 81,6 1,118749 2,320144 78,8 12. 0,312265 0,647598 76,5 77,8 1,135124 2,354103 74,8 13. 0,423692 0,878682 74,5 76,3 1,170688 2,427859 73,0 14. 0,255442 0,529754 80,8 81,9 1,120824 2,324448 79,0 15. 0,258808 0,536735 80,9 81,9 1,121596 2,326049 79,1 16. 0,290002 0,601428 81,5 82,7 1,129203 2,341823 79,7 17. 0,307966 0,638682 81,8
83,0 1,133949 2,351666 80,0 18. 0,223009 0,462492 79,5 80,4 1,113881 2,310047 77,6 19. 0,464498 0,963309 73,9 75,8 1,186067 2,459752 72,4 20. 0,262304 0,543985 81,0 82,0 1,122408 2,327732 79,2 1,146877 2,378477 80,8 21. 0,352604 0,731255 82,4 83,9 1,142101 2,368573 74,4 22. 0,336747 0,69837 76,0 77,4 1,117521 2,317598 76,4 23. 0,240535 0,49884 78,2 79,2 1,221722 2,533696 71,1 24. 0,549188 1,138946 72,5 74,8 Az országok sorrendje azonos, mint a 13.1, 132 és 133 sz táblában A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza 83,9 83,3 78,1 80,9 83,1 83,2 83,7 83,6 84,1 85,6 83,4 79,5 77,8 83,7 83,7 84,4 84,8 82,2 77,3 83,8 85,5 79,1 81,0 76,2 ◄ 374 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 375 ► Az Ausztriára vonatkozó adatok számítása, jelentése: • Átlagos: ⎤ ⎡ [ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ≅ [81,6 ± 2,07 ∗ 0,266]
≅ [81,6 ± 0,55] ⎣⎢ ⎜ ⎝ ⎟ 2 ⎠ ⎦⎥ i ♥ A 24 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy azokban az európai országokban, ahol a férfiak születéskori élettartama átlagosan 75,8 év (13.1 sz tábla) ott a nők születéskori várható élettartama – a változók között lineáris kapcsolatot feltételezve –legalább 81 és legfeljebb 82,1 év. (Az intervallum szélessége = 2 ∗ ∆ = 1,1 ) • Egyedi: ⎤ ⎡ [ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ≅ [81,6 ± 2,07 ∗1,123] ≅ [81,6 ± 2,33] ⎣⎢ ⎜ ⎝ ⎟ 2 ⎠ i ⎦⎥ ♥ A 24 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy abban az európai országoban, ahol a férfiak születéskori élettartama 75,8 év (13.1 sz tábla) ott a nők születéskori várható élettartama – a változók között lineáris kapcsolatot feltételezve –legalább 79,2 és legfeljebb 83,9 év. (Az intervallum szélessége = 2 ∗
∆ = 4,7 Jól látható tehát, hogy az egyedi becslés intervalluma, a nagyobb standard hibának köszönhetően – azonos becslési valószínűség mellett – 0,82 β1 t = = ≅ 12,24 lényegesen nagyobb.) σ β1 0,067 Ellenőrizzük 2,5; 5 ill. 10 %-os szignifikancia szinten, hogy szignifikáns-e a kapcsolat a férfiak és a nők születéskori várható élettartama között az európai országokban! A hipotéziseket nem ismételjük meg, hiszen azok példa-függetlenek (állandóak). SSR MSR = 1 = F= MSE SSE n−2 ∑ ( yˆ − y) 2 i 1 2 ∑ ( y1 − yˆ1 ) n−2 177,5477 1 = = 155,85 26,20193 23 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 375 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 376 ► a 13.3 sz tábla kiegészítése A nők születéskori várható élettartamára vonatkozó lineáris regresszióértékek szórásának
mellékszámítása. (Az adatok az eredeti táblában szereplő sorrendben – 1 sor, 2 sor, 3 sor – kerültek feltüntetésre: Ausztria Törökország) 3,1442 1,6366 1,4328 7,1384 17,251 19,3633 1,6191 2,3294 0,9026 2,5875 1,0658 5,1396 2,8590 11,6927 11,1366 9,5070 1,2272 37,5642 2,5875 2,0849 6,7409 0,0161 összeg: 177,5477 3,7551 24,7663 A t − próbához kikeresett, a megadott szignifikancia-szintekhez tartozó táblabeli értékek: t 023,95 = 1,71 t 023,975 = 2,07 t 023,9875≈0,99 = 2,12 Az F − próbához kikeresett, a megadott szignifikancia-szintekhez tartozó táblabeli értékek: F01,;923 = 2,92 F01,;9523 = 4,28 23 F01,;975 = 5,75 A próbafüggvények értékei valamennyi táblából kikeresett értéknél nagyobbak, így minden esetben ugyanazt a döntést kell hoznunk. H 0 : β1 = 0 elvetve H 1 : β1 ≠ 0 elfogadva ♥ A 24 elemű minta alapján 2,5; 5,0 és 10,0 %-os szignifikancia-szinten is állíthatjuk, hogy az európai országokban a
férfiak és a nők születéskori várható élettartama között nem elhanyagolható lineáris kapcsolat áll fenn. 13.3 Háromváltozós elemzések 13.31 Három változó regresszió-számítás Tananyagunk, elsősorban technikai okok miatt, a többváltozós összefüggések közül csak azzal az esettel foglalkozik, amikor az eredményváltozó ( yi ) alakulását két magyarázó változó (x1 , x2 ) alakulásával hozza összefüggésbe. A témakör további szűkítését jelenti, hogy csak a lineáris kapcsolatot leíró egyenletet ill. az ahhoz tartozó szorossági mutatókat tárgyaljuk A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 376 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 377 ► A háromváltozós lineáris regresszió-egyenlet: yˆ i = β 0 + β1 x1i + β 2 x2i A képletben szereplő betűk jelentése az eddigiek alapján egyértelmű. (Lásd:
132sz fejezet) A magyarázó változók ( x1 , x2 ) futóindexében szereplő 1 ill. 2 a változó sorszáma, az i pedig a megfigyelések sorszáma. A megfigyelt pontok közé ebben az esetben is a legkisebb négyzetek módszerével illesztjük az egyenest. A parciális deriválás és a lehetséges matematikai egyszerűsítések után most három normálegyenletet kapunk. ∑y ∑x ∑x A (x tengelyeltolás d x2 = x 2 i − x 2 egyszerűsödnek. 2i i = nβ 0 + β1 ∑ x1i + β 2 ∑ x2i 1i yi = β 0 ∑ x1i + β1 ∑ x12i + β 2 x1i x2i 2i yi = β 0 ∑ x2i + β1 ∑ x1i x2i + β 2 x22i ) módszerét (y és 1 alkalmazva y = β1 ∑ d12 + β 2 ∑ d1d 2 ∑d d y = β1 ∑ d1d 2 + β 2 ∑ d 22 2 ) d y = yi − y ) – a normálegyenletek így ∑d d 1 ( – x1i d x1 = x1i − x1 , β 0 = y − β1 x1 − β 2 x2 A harmadik „maradék-egyenlet” már képlet, logikailag azonos a kétváltozós egyenlet β 0 paraméterének képletével. Újabban291
szokás a másik két „maradék-egyenlet” átrendezésével β1 és β 2 regressziós együtthatókra is képletet292 felírni. 291 A régebbi tankönyvek kivétel nélkül az egyenletek matematikai megoldásával dolgoznak. 292 Ennek elsősorban technikai jelentősége van. A munkatábla összesen oszlopaiban szereplő adatokat a megfelelő műveleti jelek és a szükséges zárójelek közbeiktatásával folyamatosan billentyűzhetjük be a zsebszámológépbe, majd az egyenlőségjel billentyű lenyomása után azonnal megkapjuk a regressziós paraméter értékét. (Elmarad az A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 377 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d ∑d d − β ∑d d = ∑d d − β ∑d = ∑d ∑d d β2 = 1 1 y 1 2 2 1 β1 Vissza y 2 2 1 2 378 ► 2 1 y 2 2 2 1 2 ◄ 2 1
2 y 2 1 2 2 2 A háromváltozós lineáris egyenlet β 0 paraméterének statisztikai értelmezéséhez nem egyszerűen azt kell megvizsgálnunk, hogy a magyarázó változók felvehetik-e és felveszik-e (a megfigyelt értékek között szerepel-e) a nulla értéket (lásd: kétváltozós), hanem arra is figyelnünk kell, hogy megtörténik-e ez egyszerre. Ha igen, akkor β 0 = (x1 = x2 = 0) - helyen vett regresszióérték. Ha nem, akkor β 0 -nak statisztikai jelentése nincs. Az egyenlet β1 paramétere csak constans (= állandó) második magyarázóváltozó mellett ill. a β 2 paramétere csak constans (= állandó) első magyarázó változó mellett lehetséges. Így β1 megmutatja, hogy az első magyarázóváltozó egységnyi abszolút változása mekkora abszolút változást okoz az eredményváltozóban, β 2 pedig megmutatja, hogy a második magyarázóváltozó egységnyi abszolút változása mekkora abszolút változást okoz az eredményváltozóban. (Ezért
szokás parciális regressziós együtthatónak nevezni a β1 és a β 2 paramétereket.) egyenletek papíron való rendezgetése.) Hasonló segítséget jelentenek a képletek az EXCEL-programmal való munkavégzés esetén is. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 378 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 379 ► BEMUTATÓ FELADAT 13.6/1 sz tábla A rendszeres szociális segélyben részesülők (= 1.), az alkalmazásban állók havi nettó átlagkeresete (= 2.) és a regisztrált munkanélküliek (= 3 ) száma megyénként, 2003293 1. 2. 3. d y = yi − y d1 = x1i − x1 d 2 = x2i − x2 sor-szám megye ezer fő ezer Ft ezer fő 1 Pest 3,1 85,6 16,8 -3,931578947 5,605263 -1,14736842 2 Fejér 2,4 87,1 13,2 -4,631578947 7,105263 -4,74736842 3 Komárom-E. 1,4 83,9 7,6 -5,631578947 3,905263 -10,3473684 4 Veszprém 2,4 79,1 12,4 -4,631578947 -0,89474
-5,54736842 5 Győr-M.-S 0,8 86,1 8,1 -6,231578947 6,105263 -9,84736842 6 Vas 0,9 80,3 6,7 -6,131578947 0,305263 -11,2473684 7 Zala 2,2 78,9 9,8 -4,831578947 -1,09474 -8,14736842 8 Baranya 8,8 80,8 19,7 1,768421053 0,805263 1,75263158 9 Somogy 7,1 75,4 17,6 0,068421053 -4,59474 -0,34736842 10 Tolna 3,4 81,0 11,4 -3,631578947 1,005263 -6,54736842 11 Borsod-A.-Z 33,3 79,6 53,6 26,26842105 -0,39474 35,6526316 12 Heves 5,8 80,4 13,1 -1,231578947 0,405263 -4,84736842 13 Nógrád 5,5 77,7 13,3 -1,531578947 -2,29474 -4,64736842 14 Hajdú-B. 12,9 78,3 27,9 5,868421053 -1,69474 9,95263158 15 Jász-N.-Sz 6,7 77,0 17,9 -0,331578947 -2,99474 -0,04736842 16 Szabolcs-Sz.-B 20,7 75,5 36,9 13,66842105 -4,49474 18,9526316 17 Bács-K. 5,5 76,3 22,1 -1,531578947 -3,69474 4,15263158 18 Békés 7,8 76,1 17,2 0,768421053 -3,89474 -0,74736842 19 Csongrád 2,9 80,8 15,7 -4,131578947 0,805263 -2,24736842 összesen 133,6 1519,9 341 0 0 0 átlag 7,031579 79,99474 17,94737 Azt feltételezve, hogy szociális
segélyt azok kérnek, akik munkanélküliek (= korábbi jövedelmüket a munkanélküli segély meg sem közelíti, vagy nem is kapnak segélyt), ill. akik alacsony keresetből kénytelenek élni, családot fenntartani, kerestük a kapcsolatot: 293 Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004, 108., 109 és 175 old A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 379 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 380 ► • a rendszeres szociális segélyben részesülők (= eredményváltozó = yi ) száma (ezer fő) és • a nettó átlagkeresetek (ezer Ft / hó) (= első magyarázó változó = x1 ) valamint • a regisztrált munkanélküliek száma (= ezer fő) (= második magyarázó változó = x 2 ) között. A számításokhoz a normálegyenletekben ill. a képletekben szereplő adatoknak megfelelően állítottuk össze a munkatáblát (1361
és 1362 sz) tekintettel arra, hogy a tengelyeltolásos módszert alkalmaztuk, kiszámítottuk (= egyszerű számtani átlag) a megfigyelt adatok számtani középértékét. ♥ 2003-ban egy-egy magyar megyében átlagosan ≅7030 fő részesült rendszeres szociális segélyben. ♥ 2003-ban egy-egy magyar megyében az alkalmazottak átlagosan ≅80 ezer Ft nettó átlagbért kaptak havonta. ♥ 2003-ban egy-egy magyar megyében átlagosan ≅17950 fő munkanélkülit tartottak nyilván. 13.6/2 sz tábla A 13.6/1 tábla folytatása (= a tábla jobb oldalára)294 d y2 d12 d 22 d y d1 d yd2 d1 d 2 ŷi ei2 = ( yi − yˆ i ) 15,4573 21,4515 31,7147 21,4515 38,8326 37,5963 23,3442 3,1273 0,00468 13,1884 690,0300 31,4190 50,4848 15,2511 0,8006 37,2742 0,0932 1,1984 0,6484 21,1116 1,0106 0,1558 1,3165 22,5375 107,0680 30,7733 96,9707 126,5033 66,3796 3,0717 0,1207 42,8680 1.271,1101 -22,0375 -32,9086 -21,9928 4,1440 -38,0454 -1,8717 5,2893 1,4240 -0,3144 -3,6507 -10,3691
4,5110 21,9878 58,2720 25,6931 61,3647 68,9641 39,3647 3,0994 -0,0238 23,7773 936,5383 -6,4313 -33,7313 -40,4092 4,9634 -60,1208 -3,4334 8,9192 1,4113 1,5961 -6,5818 -14,0734 5,8848 3,3399 -0,2567 3,3199 -0,0609 -0,6327 1,5659 8,1700 7,0963 2,5159 31,2887 7,7551 0,8833 2,7446 0,8462 0,7411 2,3491 0,4021 0,3969 1,36E-05 0,781713 4,0454 2 294 Ahogy már többször jeleztük, a számításokat az EXCEL-program végezte, majd kerekítettünk (négy tizedesre). (Ha az adatok összegzését ellenőrizni akarja, ezt vegye figyelembe.) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 380 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 381 ► 1,5168 0,1642 23,4970 -0,4991 5,9699 -1,9644 3,7105 4,3658 2,3457 5,2658 21,5980 3,5146 7,1178 10,6645 4,0232 2,1808 34,4384 2,8721 99,0549 -9,9454 58,4062 -16,8671 13,9068 1,0137 0,1099 8,9684 0,0022 0,9930 0,0157 0,1419 7,1955 0,2455
186,8257 20,2027 359,2022 -61,4360 259,0526 -85,1871 20,2070 0,2431 2,3457 13,6511 17,2443 5,6588 -6,3601 -15,3429 10,0958 21,1214 0,5905 15,1690 0,5586 -2,9930 -0,5743 2,9108 6,7786 1,0432 17,0700 0,6484 5,0507 -3,3270 9,2852 -1,8097 5,4514 6,5098 1141,4412 226,3895 2.294,9274 -188,3668 1576,4616 -255,34526 133,6000 57,6688 A számtani középértékek meghatározását követte az átlagtól való eltérések számítása ( ∑ d y = ∑ d1 = ∑ d 2 ); majd az eltérésnégyzetek (= ezekből meghatároztató mindegyik változó szórása), és a az eltérés szorzatok meghatározása. y-ra: σ = 7,96 1141,44105 ≅ 7,96efő v = 113,2% 7,03 18 x1 –re: σ = 12,58 226,38947 ≅ 12,58eFt v = 15,7% 79,99 18 x2 –re: σ = 2294,92737 11,29 ≅ 11,29efő v = 62,9% 18 17,95 A relatív szórások – az eltérő mértékegységek és jelentés miatt csak ezek hasonlíthatók össze – nagyon különbözőek. Ha végigtekintünk a megfigyelt adatokon ez mindjárt érthetővé
válik A nettó átlagkeresetek egy viszonylag szűk ( T = x1max − x1min = 87,1 − 75,4 = 11,7 ) intervallumban helyezkednek el, ezzel szemben a rendszeres segélyben részesülők száma egy igen széles ( T = y max − y min = 33,3 − 0,8 = 32,5 ) intervallumban található. (A kiszámított szórások felhasználhatóak a szorossági mutatók meghatározásához is.) A mellékszámítások elvégzése után a képletek segítségével meghatároztuk a háromváltozós lineáris regresszió-egyenlet paramétereinek értékét. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 381 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok β2 = Vissza ∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d 1 1 y 2 2 1 2 2 y 2 2 2 1 2 1 ◄ 382 ► = (− 188,36684) ∗ (− 255,34526) − 1576,46158 ∗ 226,38947 = 0,679649 ≅ 0,68 (− 255,34526)2 − 2294,92737 ∗
226,38497 = β1 ∑d d = 1 y − β 2 ∑ d1 d 2 ∑d 2 1 ∑d d − β ∑d = ∑d d 2 y 2 1 2 2 2 = − 188,36684 − 0,679649 ∗ (− 255,34526) = −0,06547 ≅ −0,065 226,38947 = = 1576,46158 − 0,679649 ∗ 2294,92737 = −0,06547 ≅ −0,065 − 255,34526 β 0 = y − β1 x1 − β 2 x2 = = 7,031579 − (−0,06547) ∗ 79,99474 − 0,679649 ∗ 17,94737 = 0,070963 ≅ 0,071 A keresett egyenlet: yˆ i = 0,071 − 0,065 x1i + 0,68 x2i (ezer Ft) ♥ β 0 ≅ 0,071 , tekintettel arra, hogy a magyarázó változók megfigyelt értékei között nem szerepelt 0, ennek a paraméternek ebben az egyenletben nincs statisztikai jelentése. ♥ β1 ≅ −0,065 , ha két megyében azonos a regisztrált munkanélküliek száma (= constans a 2. magyarázó változó), akkor abban, ahol ezer forinttal (= egy egységgel) nagyobb a nettó havi átlagkereset 65 fővel kevesebben részesülnek rendszeres szociális segélyben ♥ β 2 ≅ 0,68 , ha két megyében azonos a
nettó havi átlagkereset (= constans az 1. magyarázó változó), akkor abban, ahol ezer fővel (= egy egységgel) nagyobb a regisztrált munkanélküliek száma 680 fővel többen részesülnek rendszeres szociális segélyben. A paraméterek előjeléből arra következtethetünk – és ezt tapasztaljuk majd a szorossági mutatók számításakor is, és ezt látjuk akkor is, ha az A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 382 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 383 ► eredményváltozót csak az egyik ill. csak a másik magyarázóváltózóval párban ábrázoljuk (134 és 135 sz ábrák) –, hogy a nettó átlagkereset és a rendszeres segélyben részesülők száma között negatív kapcsolat van (= a nettó átlagkereset növekedése a segélyt kérők és kapók számának csökkenését vonja maga után, és fordítva). A regisztrált
munkanélküliek és a rendszeres segélyben részesülők száma között pedig pozitív kapcsolat van (= a regisztrált munkanélküliek számának növekedése a segélyt kérők és kapók számának növekedését vonja maga után, és fordítva. a segélyezettek száma (ezer fő) A rendszeres segélyben részesülők és a nettó átlagkereset kapcsolata (2003, Magyaro.) y = -0,832x + 73,591 R2 = 0,1373 35 30 25 20 Adatsor1 15 Lineáris (Adatsor1) 10 5 0 70 75 80 85 90 nettó átlagkereset (ezer Ft/fő/fó) 13.4sz ábra A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 383 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 384 ► rendszeres segélyben részesülők (ezer fő) A regisztrált munkanélküliek és a rendszeres segélyben részsülők kapcsolata (2003, Magyaro.) y = 0,6869x - 5,2971 R2 = 0,9487 35 30 25 20 Adatsor1 15 Lineáris (Adatsor1)
10 5 0 -5 0 10 20 30 40 50 60 regisztrált munkanélküliek (ezer fő) 13.5sz ábra A vizsgált változók közötti kapcsolatot leíró egyenletbe rendre behelyettesítettük a magyarázó változók megfigyelt értékeit, így jutottunk a regreszszió-értékekhez (= ŷi ), ezek jelentéssel bíró adatok. Pl: ♥ Azokban a megyékben, ahol a nettó átlagkereset 87.100 Ft/fő/hó és a regisztrált munkanélküliek száma 13.200 fő – a változók között lineáris kapcsolatot feltételezve – a rendszeres segélyben részesülők száma 3.300 fő A munkatábla utolsó oszlopa a rezidium-négyzeteket (= ei2 ) tartalmazza, ezek összegét részben egy szorossági mutató (= I), részben pedig a kapcsolódó becslési feladatokhoz295 használjuk. 295 A háromváltozós egyenlethez kapcsolódóan ezekkel nem foglalkozunk részletesen. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 384 ► Statisztika Korreláció-,
regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 385 ► 13.32 Háromváltozós korreláció-számítás A vizsgált változók kapcsolatát nemcsak egyenlettel, hanem szorossági mutatókkal is jellemezhetjük. A kiszámítható mutatókat három csoportba oszthatjuk: • páronként számítottak, (mintha csak kétváltozós kapcsolatot vizsgálnák) = totális korrelációs együtthatók; • páronként számítottak, az éppen nem vizsgált változók hatásának kiszűrésével = parciális korrelációs együtthatók; • az összes magyarázó változó eredményváltozóra gyakorolt hatását együtt bemutatva = többszörös korrelációs együttható. Az első csoportba tartozó mutatók a kétváltozós lineáris korrelációs együttható mintájára írhatók fel. ry1 = ∑d d ∑d ∑d 1 2 1 ry 2 = y 2 y ∑d d ∑d ∑d 2 r12 = y 2 2 2 y ∑d d ∑d ∑d 1 2 2 1 2 2 Az r betű futóindexében azoknak a
változóknak a jele szerepel, melyek között a kapcsolatot vizsgáljuk. A jelek feltüntetési sorrendjének gyakorlatilag nincs jelentősége (a kapcsolat kölcsönös, 13.24sz fejezet), de általában az itt alkalmazott sorrendet használjuk. A második csoportba tartozó mutatók csak háromváltozós esetben határozhatók meg képlettel, ha a változók száma ennél több, a mátrixalgebrát296 kell segítségül hívnunk. ry1.2 = ry1 − ry 2 r12 (1 − r )(1 − r ) 2 y2 2 12 ry 2.1 = ry 2 − ry1r12 (1 − r )(1 − r ) 2 y1 2 12 r12. y = r12 − ry1ry 2 (1 − r )(1 − r ) 2 y1 2 y2 A harmadik csoportba tartozó mutatók közül van már ismert (= I) és új is (= R). S mert mind a két mutató négyzetgyökvonással számítható, előjelük nincs; így a kapcsolat irányát nem, csak annak szorosságát mutatják meg. I = 1− 296 σ y2ˆ σ e2 ∑ ei2 = ≅ 1 − σ y2 σ y2 ∑ d y2 R= ry21 + ry22 − 2ry1ry 2 r12 1 − r122 Nem képezi tananyagunk
részét. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 385 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 386 ► A statisztikai gyakorlatban a kapcsolatok jellemzésére valamennyi felsorolt szorossági mutatónak a négyzetét (= determinációs együttható) is használjuk, általában %-ban kifejezve. BEMUTATÓ FELADAT A 13.31 fejezet bemutató példáját folytatjuk ry1 = ∑d d ∑d ∑d 1 y 2 1 2 y = − 188,36684 = −0,37055 ry21 ≅ 13,7% 226,38347 ∗1141,44105 ♥ A 2003 évi nettó átlagkeresetek nagysága és a rendszeres szociális segélyben részesülők száma között lineáris összefüggést feltételezve – figyelmen kívül hagyva, hogy a modellben egy másik magyarázó változó is szerepel – gyengének mondható negatív kapcsolatot tártunk fel. A változók kölcsönösen 13,7 %-ban befolyásolják egymás alakulását (egymás
szóródását297). (Hasonlítsuk össze a β1 regressziós együtthatóval és a 134 sz. ábrával!) ry 2 = ∑d d ∑d ∑d 2 2 2 y 2 y = 1576,46158 = 0,97403 ry21 ≅ 94,9% 2294,92737 ∗1141,44105 ♥ 2003-ban a munkanélküliek száma, mint magyarázó változó és a rendszeres szociális segélyben részesülők száma, mint eredményváltozó között az összefüggést lineárisnak feltételezve – figyelmen kívül hagyva, hogy a modellben egy másik magyarázó változó is szerepel – erős pozitív kapcsolatot mutattunk ki. A változók kölcsönösen ≅95 %-ban magyaráz- 297 A zárójelben olvasható megfogalmazás az elméletileg pontosabb, de a hétköznapi gyakorlatban nem ezt szokták használni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 386 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 387 ► zák meg egymás alakulását.298
(Hasonlítsuk össze a β 2 regressziós együtthatóval és a 135 sz ábrával!) r12 = ∑d d ∑d ∑d 1 2 2 1 2 2 = − 255,34526 = −0,35425 ry21 ≅ 12,5% 226,38947 ∗ 2294,92737 ♥ A két magyarázó változó között lineáris összefüggést feltételeztünk. A számítás során – figyelmen kívül hagyva, hogy a modellben egy másik magyarázó változó is szerepel – gyenge negatív kapcsolatot fedeztünk föl. A változók mindössze 12,5 %-ban befolyásolják egymás alakulását (Lásd: 136sz ábra) Gondoljon az elméleti közgazdaságtanban tanultakra! A munkaerőpiacon magas munkanélküliség esetén nagy a munkaerő kínálat, ami lefelé viszi a munkaerő-áru árát. nettó átlagkereset (ezer Ft/fő/hó) A regiszrált munkanélküliek és a nettó átlagkereset összefüggése (2003, Magyaro.) 88 y = -0,1113x + 81,992 R2 = 0,1255 86 84 82 Adatsor1 80 Lineáris (Adatsor1) 78 76 74 0 10 20 30 40 50 60 regisztrált munkanélküliek
(ezer fő) 13.6sz ábra 298 Az előző és ezen szöveges megfogalmazás közötti különbségekkel akartuk érzékeltetni, hogy nincs kötelező szabvány szöveg. A tartalom legyen igaz A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 387 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ry1.2 = ry1 − ry 2 r12 (1 − r )(1 − r ) 2 y2 2 12 − 0,37055 − 0,97403 ∗ (− 0,35425) (1 − 0,97403 )∗ (1 − (− 0,35425) ) 2 2 Vissza ◄ 388 ► = = −0,12042 ry21.2 ≅ 1,5% ♥ A 2003 évi nettó átlagkeresetek nagysága és a rendszeres szociális segélyben részesülők száma között lineáris összefüggést feltételezve – kiszűrve a modellben szereplő másik magyarázó változó hatását – még gyengébb negatív kapcsolat mutatható ki. A változók kölcsönösen 1,5 %-ban (mondhatni, alig) befolyásolják egymás alakulását. ry 2.1 = ry 2 −
ry1r12 (1 − r )(1 − r ) 2 y1 2 12 0,97403 − (− 0,37055) ∗ (− 0,35425) (1 − (− 0,37055) )∗ (1 − (− 0,35425) ) 2 2 = = 0,970276 ry22.1 ≅ 94,1% ♥ 2003-ban a munkanélküliek száma, mint magyarázó változó és a rendszeres szociális segélyben részesülők száma, mint eredményváltozó között az összefüggést lineárisnak feltételezve – kiszűrve a modellben szereplő másik magyarázó változó hatását – erős pozitív kapcsolatot mutattunk ki. A változók kölcsönösen ≅94 %-ban magyarázzák meg egymás alakulását.299 r12. y = = r12 − ry1ry 2 (1 − r )(1 − r ) 2 y1 − 0,35424 − (− 0,37055) ∗ 0,97403 (1 − (− 0,37055) )∗ (1 − 0,97403 ) 2 2 2 y2 = 0,031738 r122 . y ≅ 0,1% ♥ A két magyarázó változó között lineáris összefüggést feltételeztünk. A számítás során – kiszűrve a modellben szereplő eredményváltozó hatását – csak igen gyenge negatív kapcsolatot mutattunk ki. A
változók mindössze 0,1 %-ban befolyásolják egymás alakulását. (Gyakorlatilag line299 Az előző és ezen szöveges megfogalmazás közötti különbségekkel akartuk érzékeltetni, hogy nincs kötelező szabvány szöveg. A tartalom legyen igaz A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 388 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 389 ► áris kapcsolat nincs köztük, mondhatnánk, de ezt biztosan csak a szükséges hipotézisellenőrzés után állíthatjuk, akkor is csak egy adott szignifikanciaszint mellett.) σ y2ˆ ei2 σ e2 ∑ I = 1− 2 = ≅ 1− = σy σ y2 ∑ d y2 = 1− 1,84 2 7,76 2 57,66880 = ≅ 1− ≅ 0,97 I 2 ≅ 95% 2 2 7,96 7,96 1141,44105 ry21 + ry22 − 2ry1ry 2 r12 R= 1 − r122 (− 0,37055)2 + 0,974032 − 2 ∗ (− 0,37055) ∗ 0,97403 ∗ (− 0,35425) = 2 1 − (− 0,35425) = = 0,974411 R 2 ≅ 95% ♥ A
magyarázó változók együttesen igen nagy mértékben, 95 %-ban befolyásolják az eredményváltozó alakulását. Más tényezők mindössze 5 %-ban játszanak szerepet. A többszörös korrelációs együtthatókban szereplő és a korábbiakban300 még ki nem számított szórások: 13.7 sz tábla (A 136/2sztábla kiegészítése) A regresszió-értékek szórásának mellékszámítása, ( yˆ i − y ) adatok 2 Pest 1,3151 1,2961 0,0269 13,6288 53,1186 13,7766 50,3030 58,7406 29,8736 0,0042 20,3918 588,4070 9,3895 0,0640 9,0501 Ösz.: 1.083,7723 47,2690 173,5912 11,0293 Csongrád 2,4968 ŷ -ra: σ = 300 ∑ ( yˆ − y )i 2 i n −1 = 1083,7723 = 7,7594826 ≅ 7,76 18 A megfigyelt változók szórásainak számítása a 13.6/2 sz tábla alatt található meg A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 389 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 390 ► 13.33 Multikollinearitás A többváltozós regressziós vizsgálatok (modellek) egyik legnagyobb problémája a multikollinearitás. A szó a magyarázó változók között fennálló, és ezzel az eredetileg vizsgálandó kapcsolat többszöröződésére utal. Jelenlétét már az un totális korrelációs együtthatók (r12 ) is jelzik, a parciális korrelációs együtthatók (r12. y ) pedig megerősítik (A totális és a parciális korrelációs együttható számértékének eltérése, néha előjeleik különbsége301 is utal a multikollinearitásra.) Nagyságát pedig egy erre a célra szerkesztett mutató jelzi. ( M = R 2 − ∑ R 2 − ryi2 ) A mutató a többszörös determinációs együttható összetevőkre bontásán alapszik. Minden újabb, a modellbe kerülő magyarázó változóra vonatkozóan meg tudjuk határozni, hogy mennyivel növeli R 2 értékét, ha az aktuális változót utolsónak vonjuk be a vizsgálatba Ha
ezeket a hatásokat összeadjuk, és az így kapott érték egyenlő a többszörös determinációs együtthatóval, akkor a multikollinearitás nulla, azaz nincs jelen a modellben. Ebből logikusan következik, hogy M minél nagyobb értéket vesz fel, a magyarázó változók között fennálló kapcsolat annál jelentősebb. A magyarázó változók közötti kapcsolat azonban nem minden esetben zavaró. Ha az egyenletet nem akarjuk más célra felhasználni, csak adott x1i , x2i , stb. értékek mellett az eredményváltozó meghatározására, akkor jelenléte elviselhető, hiszen minden ŷi értékben egyformán szerepel, így azok arányait nem torzítja. Ha azonban a kiszámított egyenletet egy egyenletrendszer tagjaként akarjuk használni, akkor már mindenképpen meg kell oldani kiszűrését, ha M alapján túl nagynak ítéljük mértékét. A kiszűrés igen munka- és időigényes feladat El kell hagynunk az egymással szoros kapcsolatban lévő magyarázóváltozók
egyikét, majd minden számítást ismét el kell végezni, hogy kiderüljön, megszűnt-e a multikollinearitás avagy sem. A változók elhagyását pedig mindaddig kell folytatnunk, amíg M ≅ 0 . 301 Ha a totális és a parciális korrelációs együttható előjele eltérő, akkor rejtett negatív multikollinearitásról beszélünk. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 390 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 391 ► BEMUTATÓ FELADAT A 13.31 fejezetben elkezdett és a 1332 fejezetben továbbvitt bemutató példáját folytatjuk. ( M = R 2 − ∑ R 2 − ryi2 ( ) ) ( ) = 0,9744112 − 0,9744112 − (− 0,37055) − 0,9744112 − 0,974032 = 2 = 0,974411 − 0,812168 − 0,000743 = 0,136566 2 Példánkban a multikollinearitás nem jelentős, hisz az összhatásnak R 2 ≅ 0,95 mindössze 0,14-ed részét teszi ki. A mutató (= M )
felbontásából jól látszik, hogy az egyik ill. a másik magyarázó változó milyen mértékben járul hozzá a többszörös determinációs együtthatóhoz ( x1 annak lényegesen nagyobb, x2 pedig lényegesen kisebb részét teszi ki). ( ) 13.34 Betekintés a háromváltozós lineáris kapcsolathoz tartozó becslési és hipotézisellenőrzési feladatokba A kétváltozós lineáris egyenlettel kapcsolatban már leírtuk, azok az adatok, melyekkel a korrelációs, regressziós számításokat végezzük mintából származók, így a regressziós paraméterek, és az ezek alapján meghatározott regresszió-értékek becsült értékek, melyek csak egy adott valószínűség mellett igazak. Sőt a kapcsolat meglétében is kételkednünk kell, hiszen előfordulhat, hogy szélsőséges mintából dolgoztunk. Kételkedésünkre pedig a hipotézisellenőrzésekre alapozva kaphatunk választ, természetesen ezt is csak adott szignifikancia-szinten. A három- vagy még
többváltozós egyenletek esetén a becslési feladatok, a paraméterek ill. a regresszió-értékek konfidencia intervallumának kiszámítása csak a mátrixalgebra302 segítségével történhet meg, így ezeket a számításokat tankönyvünk nem tartalmazza A hipotézisellenőrzés elvégzéséhez azonban a nevezett matematikai ismertekre nincs szükségünk, így erre röviden kitérünk. A hipotéziseket felírhatjuk egyenként mindegyik magyarázó változónkhoz kapcsolódóan a regressziós paraméterekre, tökéletesen ugyanúgy, 302 A tanterv szerit az ehhez szükséges matematikai ismeretek a Statisztika tárgy lezárása után kerülnek sorra. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 391 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 392 ► mint a kétváltozós esetben, és ellenőrzésüket ugyanazon próbafüggvényekkel végezhetjük el; de
tesztelhetjük a paramétereket együttesen is (= globális F-próba). Az egyedi tesztelések hipotézisei és próbafüggvényei: H 0 =: β1 = 0 t= H 1 : β1 ≠ 0 SSR MSR 1 = = F= SSE MSE n − m −1 β1 σβ 1 ∑ ( yˆ − y) 2 i 1 ∑ ( y1 − yˆ1 )2 n − m −1 A harmadik változó bevezetése következtében megváltozik a próbák szabadságfoka. A t-próba303 esetében: (v = n − m − 1) , az F-próba esetében pedig csak a nevezőre vonatkozik a változás: (v2 = n − m − 1) A globális F-próba hipotézisei és próbafüggvényei: SSR H 0 =: β1 = β 2 = 0 MSR 2 = = F= SSE H1 : β i ≠ 0 MSE n − m −1 ∑ ( yˆ − y) 2 i 2 ∑ ( y1 − yˆ1 )2 n − m −1 A hipotéziseket most csak az általunk tárgyalt háromváltozós esetre írtuk fel, ha a magyarázó változók száma ennél több, akkor a nullhipotézis hosszabb lesz, további paraméterek kerülnek az egyenlőségjelek közé. Az alternatív hipotézis azonban ugyanez marad, szavakkal
megfogalmazva: a magyarázó változók között legalább egy olyat találunk, aminek értéke nem nulla. Ez a megfogalmazás arra is figyelmezett, hogy egy „laza” próbával van dolgunk, ami már akkor is kapcsolatot jelezhet, ha csak egyetlen (esetleg sokból csak egy) x -tényezővel van kapcsolatban az y − tényező. 303 Ezt a próbát – mivel tananyagunk a becslési feladatokra nem tér ki – olvasóink csak akkor tudják elvégezni, ha a nevezőben szereplő standardhiba értékét megadja a példa szerkesztője. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 392 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 393 ► BEMUTATÓ FELADAT A 13.31 fejezetben elkezdett, a 1332 és a 1333 fejezetben továbbvitt bemutató példáját folytatjuk. Ellenőrizzük 5 ill. 10 %-os szignifikancia szinten, hogy szignifikáns-e a kapcsolat a rendszeres szociális
segélyben részesülők száma, a netttó átlagkereset és a munkanélküliek száma között 2003-ban! A hipotéziseket nem ismételjük meg, hiszen azok példa-függetlenek (állandóak). Globális F-próba: SSR MSR 2 = = F= SSE MSE n − m −1 ∑ ( yˆ − y) 2 i 2 2 ∑ ( y1 − yˆ1 ) n − m −1 177,5477 2 = ≅ 54,21 26,20193 16 Az F-táblából kikeresett értékek: ;16 F02,9;16 = 2,67 F02,95 = 3,63 Döntésünk mindkét valószínűségen azonos, ui. mindkét táblabeli érték kisebb, mint a próbafüggvény értéke. H 0 : β1 = β 2 = 0 elvetve H 1 : β i ≠ 0 elfogadva ♥ A 19 elemű minta alapján 5,0 és 10,0 %-os szignifikancia-szinten is állíthatjuk, hogy – lineáris összefüggést feltételezve – a vizsgált magyarázó változók közül legalább az egyik nem elhanyagolható kapcsolatban van az eredményváltozóval. 13.35 Különböző, a korreláció- és regresszió-számításhoz kapcsolódó kérdések 1. Az idősorok korrelációja
2. A minőségi ismérvek bevonása a modellbe 3. Diagnosztikai tesztelés304 304 Tananyagunkban a diagnosztikai tesztelésre bemutató feladatot nem találnak (kevés elemszámú mintákkal dolgoztunk), éppen ezért ez az anyagrész megoldandó feladat formájában számonkérésre sem kerül. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 393 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Korreláció-, regresszió-számítás Vissza ◄ 394 ► 1. A társadalmi, gazdasági eseményeket vizsgálva igen sok idősor áll rendelkezésünkre. Az idősorok adatai mennyiségi jellegűek, kínálkozik tehát a lehetőség, vizsgáljuk meg kapcsolatukat. Az ilyen esetekben azonban óvatosnak kell lennünk Előfordul ui, hogy a korrelációs együtthatók akkor is kapcsolatot jeleznek, ill. az egyenletek regressziós paraméterei akkor is eltérnek nullától, ha a vizsgált változók között nincs jelentős kapcsolat. Ennek
oka, hogy az általunk éppen vizsgált időben változó adatokat egy a modellbe be nem vont harmadik tényező azonos módon befolyásolja, és ez mutatkozik meg elsődlegesen számításainkban úgy, hogy az együtthatók kapcsolatot jeleznek. A rejtett tényező hatását többféleképpen is kiszűrhetjük: • Mindkét idősor adataiból kiszámítjuk az abszolút305 vagy a relatív306 változásokat. Majd ezeket az adatokat d x ill d y adatnak tekintve kiszámítjuk a lineáris korrelációs együtthatót Ha ez most is jelentősen eltér nullától, akkor gyanúnk helytelen volt, a változók között valóban van kapcsolat. • Mindkét idősor adataiból kiszámítjuk a változásukat jellemező trendegyenleteket, majd trendértékeket, végül pedig a rezidiumokat307. Ezután munkánkat úgy folytatjuk, mint az előző esetben • Kétváltozós egyenletünket háromváltozóssá alakítjuk. A harmadik változó, azaz a második magyarázó változó az idő: t i = 1,2,3,.n
Majd kiszámítjuk a magyarázó változók közötti parciális korrelációs együttható, ill. a multikollinearitás mérőszámát, és ezek számértékeinek ismeretében tudjuk megmondani, hogy igazi-e a kapcsolat az eredetileg vizsgált idősorok között. • Diagnosztikai tesztelést végzünk, és a kapott ábránk alapján döntünk. Természetesen a fent leírt módszereknek szigorú alkalmazási feltételei vannak, amikről a szakkönyvekben részletesen olvashatunk. 305 d x = xi − xi −1 ill., a d y = yi − yi −1 hol xi = az egyik és yi = a másik idősor megfigyelt adatai. 306 307 y xi és l y = i xi−1 yi −1 e x = xi − xˆi ill. e y = yi − yˆ i , ahol x̂i = az egyik és ŷi = a másik változóra volx = natkozó trendérték. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 394 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Korreláció-, regresszió-számítás Vissza ◄ 395 ► 2.
Mindennapi tapasztalataink gyakran azt mutatják, hogy egy-egy mennyiségi adat nagyságát, alakulását nemcsak más mennyiségi adatok nagysága, alakulása, hanem minőségi ismérvek is befolyásolják. Pl: a dolgozók bére – statisztikai felmérések bizonyítják – azonos munkakörökben, végzettség, gyakorlottság esetén is eltérés mutatnak nemenként (a nők kárára). Ezért célszerű bevonni a korrelációs-regressziós számításokba minőségi változókat is. Pl: a férfi – nő minőségi ismérvváltozatok 0 és 1 kóddal vonhatók be. Gondot azok az esetek okoznak, amikor egy minőségi ismérvnek többféle kimenetele (= ismérvváltozata van), tananyagunk ennek a problémának a megoldására azonban nem tér ki. 3. A diagnosztikai tesztelés ábrák készítését jelenti, és ezen ábrák alapján következtetések levonását a korrelációs kapcsolatokra vonatkozóan Alkalmazhatjuk idősorokból végzett számítások esetében és csak mennyiségi
változókat tartalmazó kapcsolatokra vonatkozóan is. Ábrázolásra – a koordináta rendszerben – mindkét esetben a rezidiumok308 kerülnek (a függőleges tengelyen), mégpedig előjeles alakban. A vízszintes tengelyen pedig a magyarázó változó (idősorok korrelációja estén az idő) adatait tüntetjük föl. A módszer alapján azonban csak akkor vonható le egyértelmű következtetés, ha meglehetősen sok változót figyeltünk meg A rezidium-pontok ábrái négy típusba sorolhatók. • A pontok a vízszintes tengely mentén úgy helyezkednek el, hogy mindkét oldalon (pozitív és negatív negyed) egy-egy az x-tengellyel párhuzamos egyenessel határolhatók. • A pontok egy olyan sávban helyezkednek el, mely tölcsérformát képez, és ennek a tölcsérformának az x-tengely a szimmetria tengelye. • A pontok egy olyan sávban helyezkednek el, mely α (0〈α 〈90 ) szögben metszi a koordinátarendszer vízszintes tengelyét. • A pontok egy parabola
vonalak által határolt sávban helyezkednek el, és ez a sáv két helyen is metszi az x-tengelyt. Az ábrák közül az elsőként említett azt jelenti, hogy a rezidiumok függetlenek a vízszintes tengelyen felmért adattól. (x alacsony értékeinél is találunk pozitív és negatív, kis és nagy értékű rezidiumokat; és ugyanezt 308 ei = yi − yˆ i , ahol yi = a regressziós egyenlet eredményváltozója, ŷi = pedig a regresszióérték. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 395 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 396 ► mondhatjuk el x magas stb. értékeiről is) Ebből arra következtethetünk, hogy a változók kapcsolata valódi. A másik három ábra problémát jelez, a rezidiumoknak ui. vagy az előjele, vagy nagysága, vagy mindkettő függvénye a vízszintes tengelyen ábrázolt adatnak A jelzett probléma lehet az, hogy
nem jó egyenlettípust választottunk, hogy nem jó illesztési módszert alkalmaztunk stb309 BEMUTATÓ FELADAT I. Vizsgáljuk meg a kapcsolatot a feladott postai csomag-küldemények (xi ) és a feladott táviratok ( yi ) 2001 és 2005 évi mennyiségei között! 13.8sz tábla csomag távirat csomag távirat csomag távirat év t ezer db ezer db mozgáótl. Trend különbségek n.é i xi 2001 1 2.740 I. II. 2 2737 III. 3 2433 IV. 4 3172 2002 5 2.661 I. II. 6 2536 III. 7 2846 IV. 8 3020 2003 9 2.398 I. II. 10 2358 III. 11 2152 IV. 12 2463 2004 13 1.960 I. II. 14 1742 309 xi − xˆi yi − yˆ i yi x̂i ŷi 102 – – 121 114 104 – – 2.760,6 109,9 -327,6 4,1 2.725,6 108,4 446,4 -4,4 107.338,1 17,0 199.250,6 19,1 -1.351,45 -1.952,89 99 2.752,1 105,6 -91,1 8.303,8 603,7031 112 101 84 2.784,8 101,5 -248,8 10,5 2.732,9 96,8 113,1 4,3 2.677,8 91,6 342,3 -7,6 61.876,6 110,3 -2611,88 12.797,3 18,1 480,7813 117.135,1 58,1 -2609,66 81 2.568,8 86,0 -170,8 -5,0
29.155,6 25,0 89 79 64 2.412,4 80,8 2.288,0 79,9 2.156,3 89,5 -54,4 8,3 -136,0 -0,9 306,8 -25,5 2.956,6 68,1 -448,594 18.496,0 0,8 119 94.095,6 650,3 -7822,13 94 2.005,4 120,3 -45,4 153 1.852,9 164,6 -110,9 -11,6 dx dy -6,6 -26,3 d y2 d x2 2.058,9 dxd y 43,9 853,75 689,1 1.191,094 12.293,3 135,1 1288,922 Részletesebben: az irodalomjegyzékben felsorolt vagy más szakkönyvekben. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 396 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok III. 15 1561 IV. 16 1834 2005 17 1.748 I. II. 18 1793 III. 19 1749 IV. 20 2468 Vissza ◄ 397 ► 261 237 1.747,8 203,4 -186,8 57,6 1.727,6 234,0 106,4 3,0 34.875,6 3320,6 -10761,5 11.315,6 9,0 319,125 231 1.757,5 248,5 -9,5 -17,5 90,3 261 269 212 1.860,3 246,4 -67,3 – – – – – – 14,6 – – 4.522,6 213,9 -983,531 716.561,4 5684,6 -23519 306,3 166,25 Megjegyzések
a 13.8 sz táblához: xi -vel, yi -vel jelöltük megfigyelt változókat (= csomagforgalom, táviratforgalom), • • • melyek között a kapcsolatot kerestük. Az adatokat ábrázoltuk, az egyenletet és a determinációs együtthatót az ábra alapján az EXCEL-program adta meg. (Lásd: 137 sz ábra) A megfigyelt adatokból mozgóátlagolású trendet számítottunk. A számítás lépéseit EXCEL-programmal végeztük, ide csak az eredményeket, a trendadatokat x̂i és ŷi (= centrírozott mozgóátlagok, lásd. 12 sz fejezet) másoltuk át A szürke háttérrel és a vastagabb kerettel kiemelt adatok a második korrelációszámítás „szereplői”. Egyes postai teljesítmények kapcsolata (2001 2005, negyedéves bontásban, Magyaro.) felvett táviratok (ezer db) 300 y = -0,1053x + 387,4842 R2 = 0,4900 250 200 Adatsor1 150 Lineáris (Adatsor1) 100 50 0 0 1000 2000 3000 4000 f elvett csomagok (ezer db) 13. 7 sz ábra A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 397 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 398 ► A megfigyelt adatokból számított regresszió egyenlet: yˆ i = 387,5 − 0,11xi (ezer db) ill. korrelációs együttható: r ≅ −0,7 310 A számítás tehát elég szoros negatív kapcsolatot sejtet a változók között Tekintettel azonban arra, hogy idősorokkal, ráadásul szezonális ingadozást is tartalmazó idősorokkal dolgoztunk, további számításokat végeztünk a kapcsolat meglétének ellenőrzésére. A 13 8 sz munkatábla utolsó három oszlopának összesen adatait felhasználva ismét kiszámítottuk a lineáris korrelációs együtthatót r= ∑d d ∑d ∑d x 2 x y 2 y = − 23519 ≅ −0,356 r 2 ≅ 12,7% 766561,4 ∗ 5684,6 A mutató a kapcsolatot ugyanolyan irányúnak, de már lényegesen gyengébbnek mutatja. BEMUTATÓ FELADAT II. csomag ezer db x1i
2.740 2.737 2.433 3.172 2.661 2.536 2.846 3.020 2.398 2.358 2.152 2.463 1.960 310 idő t i = x2i 1 2 3 4 5 6 7 8 9 10 11 12 13 távirat 13.9/1 sz tábla ezer db yi d1 d2 dy 102 121 114 104 99 112 101 84 81 89 79 64 94 421,5 418,5 114,5 853,5 342,5 217,5 527,5 701,5 79,4 39,4 -166,6 144,5 -358,6 -9,5 -8,5 -7,5 -6,5 -5,5 -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 -41,4 -22,4 -29,4 -39,4 -44,4 -31,4 -42,4 -59,4 -62,4 -54,4 -64,4 -79,4 -49,4 Az EXCEL-program a determinációs együtthatót adta meg, de a regressziós egyenes lejtéséből, és a β1 paraméter előjeléből egyértelmű, hogy a korrelációs együttható negatív előjelű. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 398 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok 1.742 1.561 1.834 1.748 1.793 1.749 2.468 4.6371 átlag: 2.318,55 14 15 16 17 18 19 20 210 153 261 237 231 261 269 212 2868 10,5 143,4 -576,6
-757,6 -484,6 -570,6 -525,6 -569,6 149,5 0,0 ◄ Vissza 3,5 4,5 5,5 6,5 7,5 8,5 9,5 0,0 399 ► 9,6 117,6 93,6 87,6 117,6 125,6 68,6 0,0 13.9/2 sz tábla (a 139/1 folytatása – jobb oldali oszlopok) d12 d 22 d y2 d1 d y d2d y d1 d 2 177.620,1 175.100,4 13.098,8 728376,9 117.272,0 47.284,5 278.203,5 492032,1 6.312,3 1.556,3 27.738,9 20.865,8 128558,1 332409,9 573.882,0 234.788,7 325.527,3 276.202,8 32.4387,2 22335,3 4303553,0 90,3 72,3 56,3 42,3 30,3 20,3 12,3 6,3 2,3 0,3 0,3 2,3 6,3 12,3 20,3 30,3 42,3 56,3 72,3 90,3 665,0 1.714,0 501,8 864,4 1.552,4 1.971,4 986,0 1.797,8 3.528,4 3.893,8 2.959,4 4.147,4 6.304,4 2.440,4 92,2 1.3829,8 8.761,0 7.673,8 1.3829,8 1.5775,4 4.706,0 97.328,8 -17.448,0 -9.373,3 -3.364,8 -33.625,9 -15.204,8 -6.827,9 -22.363,9 -41.666,1 -4.957,7 -2.146,1 10.725,8 -11.469,3 17.712,4 -5.534,9 -89.087,9 -45.353,9 -49.980,2 -61.804,7 -715.35,5 102.52,3 -453.054,4 393,3 190,4 220,5 256,1 244,2 141,3 148,4 148,5 93,6 27,2 -32,2 -119,1 -123,5 33,6
529,2 514,8 569,4 882,0 1067,6 651,7 5837,0 -4.003,8 -3.556,8 -858,4 -5.547,4 -1.883,5 -978,5 -1.846,1 -1.753,6 -119,2 -19,7 -83,3 216,7 A dokumentum használata | Tartalomjegyzék | Táblázatok -896,4 -2.017,9 -3.409,0 -2.665,0 -3.708,6 -3.941,6 -4.841,2 1.419,8 -40.493,5 Vissza ◄ 399 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 400 ► A 13.9sztábla utolsó előtti sorában a vastagon szedett adatok = összesen adatok; az utolsó sor adatai pedig az adott oszlopban szereplő adatok számtani átlagai. A tábla összesen adatainak felhasználásával kiszámítottuk a totális, a parciális és a többszörös körrelációs együtthatót, valamint a multikollinearitás mérőszámát. ry1 = ry 2 = r12 = ∑d d ∑d ∑d 1 y 2 1 ∑d d ∑d ∑d 2 y 2 2 ∑d d ∑d ∑d 1 2 1 2 2 2 − 453054,4 = 0,70 ry21 ≅ 49,0% 4303553 ∗ 97328,8 = 2 y = 2 y = 5837,0 ≅
0,73 ry22 = 52,6% 665,0 ∗ 97328,8 − 40493,5 ≅ 0,76 r122 ≅ 57,3% 4303553,0 ∗ 665,0 ry1.2 = ry1 − ry 2 r12 (1 − r )(1 − r ) 2 y2 − 0,700029 − 0,725535 ∗ (− 0,756939) (1 − 0,725535 )(1 − (− 0,756939 )) 2 2 ry 2.1 = 2 12 ≅ −0,34 ry21.2 = 11,3% ry 2 − ry1r12 (1 − r )(1 − r ) 2 y1 2 12 0,725535 − (− 0,700029) ∗ (− 0,756939) (1 − (− 0,700029) )(1 − (− 0,756939) ) 2 = 2 A dokumentum használata | Tartalomjegyzék | Táblázatok = = 0,42 ry22.1 ≅ 17,6% Vissza ◄ 400 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok r12. y = r12 − ry1ry 2 (1 − r )(1 − r ) 2 y1 2 y2 − 0,756939 − (0,700029) ∗ 0,725535 (1 − (− 0,700029) )(1 − 0,725535 ) 2 R= Vissza 2 ◄ 401 ► = = −0,51 r122 . y ≅ 25,7% ry21 + ry22 − 2ry1ry 2 r12 1 − r122 (− 0,700029)2 + 0,7255352 − 2 ∗ (− 0,700029) ∗ 0,725535 ∗ (−
0,756939) ≅ 2 1 − (− 0,756939 ) ≅ 0,76 R 2 ≅ 58% ( M = R 2 − ∑ (R 2 − ryi2 ) = ) ( ) 0,761369 2 − 0,761369 2 − (0,700029) − 0,761369 2 − 0,725535 2 ≅ 0,44 2 A számítások ugyanazt mutatják, amit már az I. bemutató példában is láttunk A magyarázó változók között meglehetősen szoros kapcsolat van, a multikollinearitás mértéke is jelentősen eltér a nullától, így nem ajánlott ezen változók között a kapcsolatot a megtanult korrelációs, regressziós módszerekkel elemezni, és azok eredményeiből következtéseket levonni. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 401 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 402 ► BEMUTATÓ FELADAT III. Vizsgáljuk meg a kapcsolatot a megfigyelt ágazat (oktatás) véletlenül kiválasztott dolgozóinak (18 fő) bruttó bére ( yi , Ft ) , szolgálati ideje (x1i , év
) , neme (x2i , férfi = 0, nő = 1) között! év nem br. bér 13.101sz tábla (folyt 13102) s.sz x1i x2i yi d1 d2 dy d12 d 22 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11 12 13 14 15 16 17 18 Σ átl. 20 20 15 17 15 12 19 20 25 30 12 15 10 12 30 32 30 35 369 20,5 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 9 0,5 203.825 193.792 174.261 169.368 169.500 149.634 189.432 182.226 253.010 221.996 143.936 141.195 137.243 148.804 271.319 268.613 210.839 193.797 3.422790 190.155 -0,5 -0,5 -5,5 -3,5 -5,5 -8,5 -1,5 -0,5 4,5 9,5 -8,5 -5,5 -10,5 -8,5 9,5 11,5 9,5 14,5 0 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 0 13.670 3.637 -15.894 -20.787 -20.655 -40.521 -723 -7929 62.855 31.841 -46.219 -48.960 -52.912 -41.351 81.164 78.458 20.684 3.642 0 0,25 0,25 30,25 12,25 30,25 72,25 2,25 0,25 20,25 90,25 72,25 30,25 110,25 72,25 90,25 132,25 90,25 210,25 1.066,5 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 4,5 A
dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 402 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 403 ► 13.102sz tábla A 13.11 sz tábla folytatása (jobb oldali oszlopok) d y2 d1 d y d2d y d1 d 2 ŷi ei2 186.868900 -6.835 -6.835 0,25 196.837,0 48.832581,6 13.227769 -1.818,5 1.818,5 -0,25 178.931,1 220.846297,0 252.619236 87.417,0 7.947,0 2,75 174.127,3 17.870,1 432.099369 72.754,5 -10.393,5 -1,75 165.305,3 16.505424,9 426.629025 113.602,5 10.327,5 2,75 174.127,3 21.412098,9 1.641951441 344.428,5 -20.260,5 -4,25 142.595,7 49.538155,0 522.729 1.084,5 361,5 0,75 192.295,0 8.196993,1 62.869041 3.964,5 -3.964,5 -0,25 178.931,1 10.856354,4 3.950751025 282.847,5 -31.427,5 -2,25 219.546,6 1.119798038,0 1.013849281 302.489,5 15.920,5 4,75 224.350,4 5.543186,61 2.136195961 392.861,5 23.109,5 4,25 160.501,5
274.416859,0 2.799679744 555.576,0 26.456,0 5,25 151.417,7 200.921359,0 1.709905201 351.483,5 -20.675,5 -4,25 142.595,7 38.543419,4 6.587594896 771.058,0 -40.582,0 -4,75 242.256,3 844.642611,0 6.155657764 902.267,0 39.229,0 5,75 233.434,3 1.237544001,0 427.827856 196.498,0 -10.342,0 -4,75 242.256,3 987.044491,0 13.264164 52.809,0 1.821,0 7,25 247.060,0 2.836951969,0 -41.970,0 8,5 3.422790,0 8147406029,0 30.208595002 4691768 ry1 = ry 2 = ∑d d ∑d ∑d 1 y 2 1 2 y = ∑d d ∑d ∑d 2 2 2 y 2 y 4691768 = 0,83 ry21 ≅ 68,3% 1066,5 ∗ 30208595002 = − 41970 ≅ −0,11 ry22 = 1,3% 4,5 ∗ 30208595002 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 403 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok r12 = ∑d d ∑d ∑d 1 2 2 1 2 2 = ry1.2 = ry1 − ry 2 r12 (1 − r )(1 − r ) 2 y2 2 12 (1 − (− 0,11383) )(1 −
0,122697 ) 2 2 (1 − r )(1 − r ) 2 y1 2 12 (1 − 0,826591 )(1 − 0,122697 ) 2 r12. y = r12 − ry1ry 2 (1 − r )(1 − r ) 2 y1 2 y2 (1 − 0,826591 )(1 − (− 0,11383) ) 2 = = = = 0,39 r122 . y ≅ 15,0% ry21 + ry22 − 2ry1ry 2 r12 R= ► = −0,39 ry22.1 ≅ 15,0% 0,122697 − 0,826591∗ (− 0,11383) 2 404 ≅ 0,85 ry21.2 = 72,7% ry 2 − ry1r12 − 0,11383 − 0,826591∗ 0,122697 2 ◄ 8,5 ≅ 0,12 r122 ≅ 1,5% 1066,5 ∗ 4,5 0,826591 − (− 0,11383) ∗ 0,122697 ry 2.1 = Vissza 1 − r122 = 0,8265912 + (− 0,11383) − 2 ∗ 0,826591 ∗ (− 0,11383) ∗ 0,122697 ≅ 1 − 0,122697 2 2 ≅ 0,85 R 2 ≅ 73,3% A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 404 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 405 ► σ e2 23305,8 2 = − = 0,833267 I 2 ≅ 70% , ahol 1 σ y2 42154,2 2 I = 1− ∑e 2 i σe = =
8147406029 = 23305,8 és 15 = 30208595002 = 42154,2 17 n − m −1 ∑d σy = 2 y n −1 M = R 2 − ∑ (R 2 − ryi2 ) = ) ( ( ) 0,8545732 − 0,8545732 − 0,8265912 − 0,8545732 − (− 0,11383) ≅ 0,034 β2 = 2 ∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d 1 1 y 2 2 2 1 2 2 2 y 2 1 2 1 = 4691768 ∗ 8,5 − (− 41970) ∗ 1066,5 = 17905,9 8,52 − 4,5 ∗1066,5 β1 = ∑d d 1 y − β 2 ∑ d1 d 2 ∑d 2 1 = 4691768 − (− 17905,9) ∗ 8,5 = 4541,93 1066,5 vagy β1 = ∑d d − β ∑d ∑d d 2 2 y 1 2 2 2 = − 41970 − (− 17905,9 ) ∗ 4,5 = 454193 8,5 β 0 = y − β1 x1 − β 2 x2 = 190155 − 4541,93 ∗ 20,5 − (− 17905,9) ∗ 0,5 = 105998,4 A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 405 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 406 ► yˆ i = 105998,4 + 4541,93 ∗ x1i + (−
17905,9) ∗ x2i (Ft ) A 13.101 és a 13102 sz táblák alapján kiszámított mutatók jelentése ♥ Az egyenlet β 0 paraméterének, tekintettel arra, hogy olyan dolgozó, aki 0 forint bruttó bért kapna nem volt a megfigyeltek között, nincs jelentése, annak ellenére, hogy a másik magyarázóváltozó felveheti a nulla értéket (= férfi), de a feltétel, hogy a két magyarázó változó egyszerre legyen nulla, semmiképpen nem teljesül. ♥ Az egyenlet β1 (≅ 4542 ) paramétere szerint, ha két dolgozó azonos nemű (= állandó a második magyarázó változó), akkor az, amelyik egy évvel hosszabb ideje áll alkalmazásban ≅ 4542 forinttal több bruttó bért kap. ♥ Az egyenlet β1 (≅ −17906 ) paramétere szerint, ha két dolgozó azonos ideje áll alkalmazásban, akkor a női dolgozó bruttó bére ≅ 18.000 forinttal alacsonyabb ♥A dolgozók szolgálati idejének hossza (x1i ) és bruttó bére ( yi ) között – a dolgozók nemének (x2i ) , mint
második magyarázó változónak a hatását figyelmen kívül hagyva – szoros (0,83) pozitív (= a szolgálati idő növekedése a bruttó bér növekedését vonja maga után, és fordítva) kapcsolat figyelhető meg, a változók ≅ 68 %-ban befolyásolják egymást. Ha a második magyarázó változó hatását kiszűrjük a kapcsolat még szorosabbnak mutatkozik (0,85). ♥ A dolgozók neme (x2i ) és bruttó bére ( yi ) között – a dolgozók szolgálati idejének (x1i ) hatását figyelmen kívül hagyva igen gyenge (0,11), negatív (a férfi dolgozók többet, a női dolgozók azonos szolgálati idő mellett kevesebbet keresnek) kapcsolatot tártunk fel. A másik magyarázó változó hatásának kiszűrése után a kapcsolat már lényegesen erősebbnek (0,39) mutatkozik, a dolgozók neme 15 %-ban befolyásolja bruttó bérük alakulását. ♥ A magyarázó változók között – az eredményváltozó hatásának figyelmen kívül hagyásával – a számítások
gyenge, pozitív hatást jeleznek; a zavaró hatás kiszűrése után ebben a relációban is erősebb hatást figyelhetünk meg, a változók 39 %-ban befolyásolják egymást. ♥ A többszörös determinációs együttható R 2 szerint a két magyarázó változó ( (x1i ) és (x2i ) ) együtt erős hatást gyakorol az eredményváltozóra ( yi ) . ( ) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 406 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 407 ► A bruttó bér ≅ 73 %-ban függ a szolgálati időtől és a dolgozó nemétől. Alakulásában azonban még egyéb, most nem vizsgált tényezők is szerepet játszanak (Ui.: R 2 〈1 ) A magyarázó változók eredményváltozóra gyakorolt együttes hatását mutatja a kétváltozós korrelációszámítás során megismert korrelációs index (I ) mutató is. Számértéke I 2 = 70% kissé alacsonyabb, de ez
az eltérő számítási módból adódóan természetes. ♥ A vizsgált változók kapcsolatát leíró háromváltozós lineáris regreszszió-egyenletben igen gyenge (M ≅ 0,035) multikollinearitást tártunk fel, ami gyakorlatilag nem zavaró. ( ) 13.4 Gyakorló feladatok 1. feladat Vizsgálja meg van-e kapcsolat az európai országok lélekszáma311 és a törvényhozás (országgyűlés) létszáma között! 13.11 sz tábla sorszám ország 1. 2. Ausztria Belgium BoszniaHercegovina Csehország Dánia Észtország Görögország Litvánia Magyarország Németország Spanyolország Ukrajna 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 311 lélekszám millió fő 8,1 10,3 a törvényhozás létszáma tagok (fő) 183 150 4,2 56 10,2 5,3 1,3 11,0 3,4 10,0 82,4 42,7 48,5 200 179 101 300 141 386 603 350 130 A Föld országai (Zsebvilág 2004, HVG Kiadó, Budapest 2004) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 407 ► Statisztika Korreláció-,
regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 408 ► 1. Számítsa ki mind a három tanult egyenlettípus paramétereit! 2. Számítsa ki a tanult szorossági mutatókat és determinációs együtthatókat! 3. Válassza ki a legjobban illeszkedő egyenletet! 4. Végezze el a tanult hipotézisellenőrzéseket! (A szignifikanciaszint: 5 ill. 10 %) 5. Becsülje meg a lineáris egyenlet paramétereinek intervallumát, P = 90 % és P = 95% 6. Ábrázolja a megfigyelt adatokat, illessze közéjük a legjobbnak talált egyenlet vonalát! 7. Minden kiszámított adatnak fogalmazza meg a jelentését! 2. feladat Néhány európai ország munkanélküliségi312 (ráta) és gazdasági növekedési (előző évhez) adata: 13.12 sz tábla ország m.n gazd. növ ország % m.n gazd. növ. % Albánia 18 6,1 Magyarország 5,5 2,9 Bulgária 14,3 4,8 Nagy-Britannia 5,0 2,1 Dánia 1,4 5,5 Olaszország 8,9 1,1 Finnország 2,1
9,0 Oroszország !,3 4,3 Hollandia 3,7 -0,5 Portugália 6,4 -0,3 Izland 3,3 1,6 Svédország 4,8 1,6 Lengyelország 19,3 3,7 Szerbia és Montenegro 32 3 Szlovénia 6,4 3,2 312 A Föld országai (Zsebvilág 2004, HVG Kiadó, Budapest 2004) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 408 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 409 ► A munkanélküliség és a gazdasági növekedés kapcsolata (2004) y = -0,2714x + 5,3781 R2 = 0,234 gazdasági növekedés az előző évhez (%) 10 8 6 Adatsor1 4 Lineáris (Adatsor1) 2 0 0 5 10 15 20 -2 m unkanélküliségi ráta (%) 13.8sz ábrát A 13.12 sz tábla adatai alapján szerkesztettük EXCEL-programmal a 138 sz ábrát, olvasson le minden információt az ábráról, és töltse ki az alábbi táblát! sorsz. feladat 1. Milyen típusú egyenlet vonalát ill. képletét látja
az ábrán? 2. Melyik változót tekintette az ábra készítője magyarázó tényezőnek? (Honnan tudhatjuk?) 3. Melyik változót tekintette az ábra készítője eredmény tényezőnek? (Honnan tudhatjuk?) 4. Mit jelent az egyenlet β 0 paramétere? 5. Mit jelent az egyenlet β1 paramétere? 6. Milyen szoros a kapcsolat a változók között? 7. Határozza meg a regresszió-értékeket! Egynek fogalmazza meg a jelentését! 8. Számítsa ki a paraméterek standard hibáját! 9. Végezze el a tanult statisztikai próbákat! Fogalmazza meg eredményüket! 10. megoldás Természetesen itt nincs elég hely a válaszok rögzítésére, de ha a vizsgán ilyen jellegű feladattal találkozik, lesz elegendő helye. Melyik – a munka közben kiszámított – adat szükséges ahhoz, hogy ennek és a többi tanult egyenlettípusnak az illeszkedését összehasonlíthassa! (Indokolja döntését! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄
409 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 410 ► 3. feladat A 2. feladatban szereplő országokra vonatkozóan újabb adatot (= infláció, %) vontunk be az egyenletbe. A számításokat ismét elkezdtük A 13141 és a 13.142 sz tábla eddigi eredményeinket tartalmazza 13.141 sz tábla sorszám 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. ország x1i m.n % Albánia 18 Bulgária 14,3 Dánia 1,4 Finnország 2,1 Hollandia 3,7 Izland 3,3 Lengyelország 19,3 Magyarország 5,5 Nagy-Britannia 5 Olaszország 8,9 Oroszország 8,6 Portugália 6,4 Svédország 4,8 Szerbia és Montenegró 32 Szlovénia 6,4 összesen 139,7 átlag 9,313333 x2i yi gazd. növ % 6,1 4,8 5,5 9 -0,5 1,6 3,7 2,9 2,1 1,1 4,3 -0,3 1,6 3 3,2 48,1 3,206667 infláció % 3 5,6 2 2 2,4 2,2 1,1 4,7 2,8 2,8 12 3,2 2,7 13,4 5,6 65,5 4,366667 A dokumentum használata | Tartalomjegyzék | Táblázatok d1 d 2 d y 8,7 5,0
-7,9 -7,2 -5,6 -6,0 10,0 -3,8 -4,3 -0,4 -0,7 -2,9 -4,5 22,7 -2,9 0,0 Vissza 2,9 1,6 2,3 5,8 -3,7 -1,6 0,5 -0,3 -1,1 -2,1 1,1 -3,5 -1,6 -0,2 0,0 0,0 ◄ -1,4 1,2 -2,4 -2,4 -2,0 -2,2 -3,3 0,3 -1,6 -1,6 7,6 -1,2 -1,7 9,0 1,2 0,0 410 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 411 ► 13.142sz tábla sorszám d12 d 22 d y2 d1 ∗ d y d 2 ∗ d y d1 ∗ d 2 ŷi ei2 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. összesen 75,5 24,9 62,6 52,0 31,5 36,2 99,7 14,5 18,6 0,2 0,5 8,5 20,4 514,7 8,5 968,2 8,4 2,5 5,3 33,6 13,7 2,6 0,2 0,1 1,2 4,4 1,2 12,3 2,6 0,0 0,0 88,2 1,9 1,5 5,6 5,6 3,9 4,7 10,7 0,1 2,5 2,5 58,3 1,4 2,8 81,6 1,5 184,4 -11,8718 6,150222 18,72822 17,07156 11,03956 13,02889 -32,6231 -1,27111 6,757556 0,647556 -5,44511 3,398889 7,522222 204,9362 -3,59311 234,4767 -3,95422 1,965111 -5,42756 -13,7109 7,289778 3,481111 -1,61156 -0,10222 1,733778 3,300444 8,345778
4,091111 2,677778 -1,86689 -0,00822 6,203333 6,5 5,6 2,4 2,6 3,0 2,9 6,8 3,4 3,3 4,3 4,2 3,7 3,3 9,9 3,7 65,5 11,95392 0,001074 0,191914 0,34892 0,390034 0,514669 32,30898 1,577126 0,277619 2,180779 61,01936 0,228275 0,337402 12,49776 3,760569 127,5884 25,13342 7,945422 -18,1479 -41,7892 20,80676 9,661422 4,926756 1,169422 4,773422 0,870756 -0,77991 10,21609 7,251422 -4,68858 0,019422 27,36867 1. Fejezze be a megkezdett számításokat! (egyenlet, szorossági mutatók, hipotézisellenőrzés, multikollinearitás) 2. Írjon szöveges elemzést! 4. feladat Ismét a 2. feladatban szereplő adatokkal dolgozunk Hollandia és Portugália adatai azonban kimaradtak (A negatív gazdasági növekedés miatt313) A 13.13 sz tábla egy megkezdett számítás részeredményeit tartalmazza 1. Döntse el, milyen típusú kapcsolatot feltételezve dolgoztunk, majd folytassa a számítást! 2. Számoljon ki mindent, amit tanult az adott egyenlettípussal kapcsolatban! 3. Végül minden adat
jelentését fogalmazza meg! 13.13 sz tábla összesen 313 xi yi ui vi du dv d u2 du ∗ dv 129,6 48,9 10,9988 6,5794 0,0000 0,0000 1,8423 -0,07846 Vissza ◄ Emlékezzen! Matematika – logaritmusra vonatkozó szabályok. A dokumentum használata | Tartalomjegyzék | Táblázatok 411 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 412 ► 13.5 Összefoglalás314 korreláció = a mennyiségi ismérvek közötti kapcsolat kimutatása szorossági mutatóval regresszió = a mennyiségi ismérvek közötti kapcsolat kimutatása egyenletekkel 1. lineáris korrelációs együttható kétváltozós 2. korrelációs index 1. totális korrelációs együtthatók szorossági mutatók háromváltozós kifejezi: korrelációs index kifejezi: 3. többszörös korrelációs együttható 4. korrelációs index (Mint előző) minden szorossági mutató négyzete = a befolyásolás
mértéke (%) [0%; 100%] determinációs együttható lineáris korrelációs együttható 2. parciális korrelációs együtthatók ∑d d ∑d ∑d r= x 2 x y 2 y = – a kapcsolat irányát (+, –) – a kapcsolat szorosságát 0〈 r 〈1 ( I = 1− – ) σ e2 σ y2 a kapcsolat szorosságát (0〈 I 〈1) 314 Az összefoglalás nem minden, fejezet szövegében szereplő képletet tartalmaz, ill. egyes esetekben a számítás nem minden lehetséges variációját. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 412 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok totális korrelációs együtthatók kifejezik: parciális korrelációs együtthatók kifejezik: ry1.2 = ◄ 413 ► Két-két változó kapcsolata a harmadik hatásának kiszűrése nélkül. – a kapcsolat irányát (+, –) – ( ) a kapcsolat szorosságát 0〈 r 〈1 Képletük
megszerkeszthető a lineáris korrelációs együttható mintájára. Két-két változó kapcsolata a harmadik hatásának kiszűrésével. – a kapcsolat irányát (+, –) – – a kapcsolat szorosságát 0〈 r 〈1 ry1 − ry 2 r12 ry 2.1 = (1 − r )(1 − r ) 2 y2 Vissza 2 12 ry 2 − ry1r12 (1 − r )(1 − r ) 2 y1 2 12 ( ) r12. y = r12 − ry1ry 2 (1 − r )(1 − r ) 2 y1 2 y2 A magyarázó változók együttes hatása az eredményváltozóra. többszörös korrelációs együttható kifejezi R= – ry21 + ry22 − 2ry1ry 2 r12 1 − r122 a kapcsolat szorosságát (0〈 R 〈1) pozitív kapcsolat Az egyik változó növekedése, a másik változó növekedését vonzza, és fordítva. negatív kapcsolat Az egyik változó növekedése, a másik változó csökkenését vonzza, és fordítva. 0 A változók között nincs kapcsolat. 1 A változók között igen szoros a kapcsolat. 0% A magyarázó változó nincs hatással az
eredményváltozó alakulására. 100 % A magyarázó változó igen erős hatással van az eredményváltozó alakulására. A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 413 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok egyenletek típusai Vissza ◄ 414 ► = matematikai formulával írják le a változók közötti kapcsolatot kétváltozós 1. lineáris yˆ i = β 0 + β1 xi 2. exponenciális yˆ i = β 0 ∗ β1xi 3. hatványkitevős yˆ i = β 0 ∗ xiβ1 4. parabola (nem részleteztük) 5. hiperbola (nem részleteztük) háromváltozós 1. lineáris yˆ i = β 0 + β1 x1i + β 2 x2i A paraméterek számítása, jelentése: kétváltozós lineáris kétváltozós exponenciális kétváltozós hatványkitevős A magyarázó változó egységnyi abszolút változásához az eredményváltozó β1 egységnyi abszolút változása tartozik. β1 = ∑d d
∑d x y 2 x A magyarázó változó egységnyi abszolút változásához az eredményváltozó β1 egységnyi relatív változása tartozik. lg β1 = ∑d d ∑d x 2 x v visszakeresni! A magyarázó változó egységnyi relatív változásához az eredményváltozó β1 egységnyi relatív változása tartozik. β1 = ∑d d ∑d u v 2 u Csak akkor értelmezhető, ha x1 = 0 létezik. β0 lineáris β 0 = y − β1 * x exponenciális hatványkitevős lg β 0 = v − β1 * x ↓ lg β 0 = v − β1 * u ↓ visszakeresni! visszakeresni! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 414 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok háromváltozós lineáris β1 415 ► Az első magyarázó változó egységnyi abszolút változásához az eredményváltozó β1 egységnyi abszolút változása tartozik. ∑d d 1 y − β 2 ∑ d1d 2 ∑d 2 1 A második
magyarázó változó egységnyi abszolút változásához az eredményváltozó β 2 egységnyi abszolút változása tartozik. β2 = ∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d 1 1 y 2 2 2 1 β0 ◄ A regressziós paraméterek parciális együtthatóként értelmezhetőek = a másik állandósága mellett. β1 = β2 Vissza 2 2 2 y 2 1 2 1 Csak akkor értelmezhető, ha x1 = x2 = 0 létezik. β 0 = y − β1 * x − β 2 x 2 kiegészítések multikollinearitás becslés kétváltozós lineáris hipotézisellenőrzés két- és háromváltozós lineáris – – Idősorok korrelációja. A minőségi ismérvek bevonása az egyenletekbe. Multikollinearitás. – A magyarázó változók között fennálló kapcsolat, mely torzíthatja az eredményeket. ( M = R 2 − ∑ R 2 − ryi2 ) = a paraméterek és a regresszió-értékek konfidencia intervallumának meghatározása = a magyarázó és az eredményváltozó közötti kapcsolat jelentős
voltának ellenőrzése A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 415 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 416 ► 13.6 Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy biztosító társaság 10 üzletkötőjének az adott cégnél töltött ideje és az egy év alatt megkötött biztosítások száma közötti kapcsolatra vonatkozó adatok: eltöltött idő A év B 1 C 2 D 3 E 4 F 5 G 6 H 7 I 8 J 9 K 10 össz. 55 név megkötött biztosítás db 90 100 120 150 160 180 200 190 180 200 1.570 a magyarázó válto- az eredményzó eltérés változó eltérés négyzetei négyzetei eltérésszorzatok 82,5 1.035 15.010 1. Írja fel a lineáris regresszió egyenlet! 1. paraméter számítása: 2. paraméter számítása: egyenlet: 2. Fogalmazza meg paraméterek jelentését! 1. paraméter 2. paraméter 3. Számítsa ki, hogy milyen
mértékben befolyásolják egymást a változók! Két megoldást kérek! 4. Fogalmazza meg az 13 feladatrészben kiszámított mutatók jelentését! 5. Milyen következtetést tud levonni az 13 feladatrészben kiszámított mutatók alapján A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 416 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 417 ► 6. Számítsa ki (P= 95 %), hogy „J” üzletkötő hány üzletkötésre számíthat a lineáris regresszió egyenlet alapján 7. Indokolja meg, az 16 feladatrésszel kapcsolatos képlet-választását! 8. Hány %-kal változik a regresszió-érték az x= 6 év 1 %-os változása esetén? 8. Hány %-kal változik a regresszió-érték az x= 6 év 1 %-os változása esetén? 9. Miért rendkívül fontos közgazdasági mutató az 18 feladatrészben kiszámított adat? 10. Az itt felsorolt adatok alapján
kiszámítható egy másik egyenlet típus is Melyik? Honnan tudja Adatok: ∑d 2 u = 0,912110306 ∑ u = 6,559763033 ∑ v = 21,8049936 ∑ d d = 0,351839211 u v 11. Döntse el, hogy az 11-ben vagy az 110 adatai alapján kiszámítható egyenlet jellemzi-e jobban a kapcsolatot! 12. Vizsgálja meg, hogy valódi-e a kapcsolat a változók között! 13. Fogalmazza meg az 112-ben elvégzett számítás eredményét! 14. Az 112-ben elvégzett műveletet ábrák segítségével is megoldhatja, hogyan? (Részletezze!) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 417 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Korreláció-, regresszió-számítás Vissza ◄ 418 ► 2. minta Egy likőripari vállalatnál vizsgálták a palackozó gépsor óránkénti teljesítménye (ezer palack / óra) és a selejtes palackok száma (ezer palack / nap) közti kapcsolatot. A számítás során kapott regressziófüggvény: lg yˆ
i = −0,0223 + 0,12 lg xi 1. Értelmezze a regressziós együtthatót! 2. Becsülje meg a 30 ezer palack / óra teljesítmény esetén várható selejtszámot! 3. minta 25 multinacionális cég adatait felhasználva vizsgálták az éves bevétel és az eredmény nagysága közötti kapcsolatot. A 25 cég évi összes bevétele 2126 milliárd USD, az összes eredmény 105,21 milliárd USD. A cégek bevétele átlagosan 48,32 milliárd USD-ral, az eredmény 2,36 milliárd USDral tér el az átlagostól (az eltérések négyzetes átlaga). 1 %-kal nagyobb bevételhez átlagosan 0,68 %-kal nagyobb eredmény tartozik átlagos szinten. 1. 2. 3. 4. 5. Írja fel a lineáris regresszió-függvényt! Értelmezze a regressziós együtthatót! Számítsa ki és értelmezze a determinációs együtthatót! Vizsgálja meg, hogy milyen szoros a kapcsolat a két ismérv között! Állapítsa meg, hogy 1 milliárd USD-ral nagyobb eredményhez mennyivel nagyobb bevétel szükséges! 6. Becsülje meg
az 5 milliárd USD eredményhez szükséges bevétel nagyságát! 4. minta 30 véletlenszerűen kiválasztott négytagú aktív keresős háztartás adatai alapján vizsgálták a jövedelem és az üdülésre fordított kiadás nagyságát. X = 1 főre jutó jövedelem (ezer Ft) Y = 1 főre jutó üdülési kiadás (ezer Ft) A regressziószámításból a következő információk állnak rendelkezésre: ∑ ui = 77,1873 ∑ vi = 22,2639 ∑ d u d v = 3,4003 ∑ d u2 = 2,0633 1. Írja fel a hatványkitevős regreszió-függvényt, és értelmezze a paramétereit! 2. Minősítse az üdülésre fordított kiadás jövedelemrugalmasságát! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 418 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 419 ► 5. minta Az egy főre jutó hazai termék (Y), az egy főre jutó nemzetgazdasági beruházás (X1) és az egy főre jutó
külföldi befektetés (X2) megyénként 1999-ben: megye Baranya Bács. Békés Borsod Csongrád Fejér Győr Hajdú Heves Jász Komárom Nógrád Pest Somogy Szabolcs Tolna Vas Veszprém Zala Budapest 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 1 főre jutó GDP beruházás ezer Ft 783 157 713 88 691 96 690 174 889 146 1.234 206 1.204 438 754 133 726 178 720 103 838 238 565 83 773 138 686 138 567 87 861 161 1162 233 803 140 901 132 1.858 612 külf. befekt 66 45 74 164 163 212 368 151 135 39 191 59 236 54 32 30 224 76 69 801 Határozza meg a háromváltozós regresszió-függvényt! Értelmezze a függvény paramétereit! Vizsgálja meg a kapcsolat szorosságát! 1.páronkénti korrelációs együtthatókkal 2.parciális korrelációs együtthatókkal Írja fel a korrelációs és a variancia-kovarancia mátrixot! Határozza meg és értelmezze a többszörös determinációs együtthatót! Vizsgálja meg a multikollinearitást! Végezze el a regresszió-függvény szignifikancia-vizsgálatát
variancianalízissel! Adjon konfidenciaintervallumot a regresszió-függvény paramétereire 95 %-os megbízhatósági szint mellett! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 419 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 420 ► 6. minta 20 vállalkozás adatai alapján vizsgálták az egy főre jutó tárgyi eszközérték (millió Ft) = X, és az egy főre jutó üzemi eredmény (millió Ft) =Y kapcsolatát. A lineárisnak feltételezett kapcsolat elemzéséből az alábbi adatokat ismerjük: x = 212,1 y = 50,6 r = 0,767 ∑d d x y = 11330,8 ∑d 2 x = 85909,8 1. Határozza meg Y-nak X szerint lineáris regresszió függvényét! 2 Fogalmazza meg az egyenlet paramétereinek jelentését! 3 Számítsa ki a determinációs együtthatót és fogalmazza meg jelentését! 4 Vizsgálja meg az átlagos tárgyi eszközérték rugalmasságát! 5.
Fogalmazza meg az 14-ben kiszámított mutató jelentését! 6. Milyen adatok ismeretében tudná meghatározni, hogy az Ön által kiszámított egyenlet vagy egy másik illeszkedik-e jobban a megfigyelt adatokra! Kétféle megoldást kérek! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 420 ► Statisztika Korreláció-, regresszió-számítás A dokumentum használata | Tartalomjegyzék | Táblázatok ◄ Vissza 421 ► 7. minta 14, a tőzsdén jegyzett társaság adatai alapján vizsgálták a nettó árbevétel (X) (milliárd Ft) és az adózott eredmény (Y) (milliárd Ft) kapcsolatát. Az elvégzett számítások néhány részeredménye: x = 69,93 y = 6,46 ∑d d x y = 1322,060∑ d x2 = 15962,93 ∑d 2 y = 140,67 1 Határozza meg Y-nak X szerint lineáris regresszió függvényét! 2. Fogalmazza meg az egyenlet paramétereinek jelentését! 3. Számítsa ki a determinációs együtthatót és fogalmazza meg jelentését! 4.
Vizsgálja meg az x= 105 hely rugalmasságát! 5. Fogalmazza meg az 14-ben kiszámított mutató jelentését! 6. Milyen adatok ismeretében tudná meghatározni, hogy az Ön által kiszámított egyenlet vagy egy másik illeszkedik-e jobban a megfigyelt adatokra! Indokot is kérek 7. Miután az egyenlet paramétereit és a regresszió-értékeket is kiszámították egy újabb számítás eredményeként a következő adatot nyerték: t = 6,5 , illetve keresték ki: t 012,975 = 2,18 Mit akartak ezeknek az adatoknak a segítségével elvégezni? Végezze el Ön is! A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 421 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Táblázatok Vissza ◄ 422 ► Vissza ◄ 422 ► Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 423 ► A dokumentum
használata | Tartalomjegyzék | Táblázatok Vissza ◄ 423 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 424 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 424 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 425 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 425 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 426 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 426 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 427 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 427 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 428 ► A dokumentum használata |
Tartalomjegyzék | Táblázatok Vissza ◄ 428 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 429 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 429 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 430 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 430 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 431 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 431 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 432 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 432 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 433 ► A dokumentum használata | Tartalomjegyzék |
Táblázatok Vissza ◄ 433 ► Statisztika Táblázatok A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 434 ► A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 434 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Felhasznált irodalom Vissza ◄ 435 ► Felhasznált irodalom: Fejes Ferenc – Fenyves Ferenc – Zibolen Erzsébet: Statisztika II. – távoktatás (Külkereskedelmi Főiskola, Budapest 1977) Fenyves Ferenc – Horváth Gézáné dr – Koós Szabolcs: Statisztika I. – távoktatás (Külkereskedelmi Főiskola, Budapest 1977) Hunyadi László – Mundruczó György – Vita László: Statisztika (Aula Kiadó, Budapest 1996) Hunyadi László – Vita László: Statisztika közgazdászoknak (Központi Statisztikai Hivatal, Budapest 2002) Juhász Györgyné – Sándorné Kriszt Éva: Statisztika I távoktatással. (Távoktatási Universitas Alapítvány, Budapest 1997) Juhász
Györgyné – Sándorné Kriszt Éva: Statisztika távoktatással II. (Távoktatási Universitas Alapítvány, Budapest 1997) Juhász Györgyné – Sándorné Kriszt Éva: Példatár a Statisztika távoktatással c. tankönyvhöz (Távoktatási Universitas Alapítvány, Budapest 1997) Kerékgyártó Györgyné – Mundruczó György: Statisztikai módszerek a gazdasági elemzésben (Aula Kiadó, Budapest 1996) Korpás Attiláné: Statisztika I. (Nemzeti Tankönyvkiadó, Budapest 1996) Korpás Attiláné: Statisztika II. (Nemzeti Tankönyvkiadó, Budapest 1996) Köves Pál – Párniczky Gábor: Általános statisztika (Közgazdasági és Jogi Könyvkiadó, Budapest 1975 Dr Kuchenbecker. Horst: Statistik für den praktiscen Betriebswirt (Verlag Neue Wirtschaftts-Briefe Herne, Berlin 1972) Molnár Máténé dr – Tóth Mártonné dr: Általános statisztika példatár I. (Nemzeti Tankönyvkiadó, Budapest 2001) Molnár Máténé dr – Tóth Mártonné dr: Általános statisztika
példatár II. (Nemzeti Tankönyvkiadó, Budapest 2001) Molnár Mihélyné dr: Statisztika I. – távoktatás (Széchenyi István Főiskola, Győr 1994) Molnár Mihélyné dr: Statisztika II. – távoktatás (Széchenyi István Főiskola, Győr 1994) Rappai Gábor: Üzleti statisztika Excellel (Központi Statisztikai Hivatal, Budapest 2001) Scharnbacher. Kurt: Statistik im Betrieb (Betriebwirtschaftlicher Verlag, Wiesbaden 1997) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 435 ► Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok Felhasznált irodalom Vissza ◄ 436 ► Szarvas Beatrix – Sugár András: Példatár a Statisztika c. tankönyvhöz (Aula Kiadó, Budapest 1996) Tátrainé dr Körmendy E. Katalin: Statisztika I (Universitas – Győr Kht 2003) Tátrainé dr Körmendy E. Katalin: Statisztika II (Universitas – Győr Kht 2004) Tátrainé dr Körmendy E. Katalin: Statisztika III – távoktatás (Széchenyi
István Főiskola, Győr 1997) Vargha András: Matematikai statisztika (Pólya Kiadó, Budapest 2000) Dr Vogel. Friedreich: Statistik: Aufgaben und Beispiele (R Oldenbourg Verlag, München – Wien 1989) A dokumentum használata | Tartalomjegyzék | Táblázatok Vissza ◄ 436 ►