Mathematics | Statistics » PSZF Statisztika II. elméleti jegyzet, 2005

Please log in to read this in our online viewer!

PSZF Statisztika II. elméleti jegyzet, 2005

Please log in to read this in our online viewer!


 2005 · 10 page(s)  (187 KB)    Hungarian    1619    January 23 2006  
    
Comments

No comments yet. You can be the first!

Content extract

6. Mintavétel Alapfogalmak, jelölések, gyakorlati kérdések − A részleges adatgyűjtés egyik módja a reprezentatív megfigyelés vagy mintavétel. − Célja: valamely sokaság egy részének megfigyelése révén következtetéseket tudjunk levonni a sokaság egészére, annak jellemzőire, összetételére vonatkozóan. − A mintavétel tervezésénél két egymásnak ellentmondó követelmény van a pontosság és az olcsóság, melyek figyelembevétel befolyásolja a mintaelemek kiválasztási eljárását. − Alapsokaság: az a sokaság, amelyre a mintavétel segítségével következtetni szeretnénk − Mintasokaság: az alapsokaság azon része, amely alapján a következtetéseket levonjuk − Mintavételi keret: egyenként tartalmazza a vizsgálni kívánt sokaság elemeit, mégpedig mindegyiket és mindegyiket csak egyszer − mintaelemek kiválasztása: − Visszatevéssel − Visszatevés nélkül − függetlenség: − Végtelen sokaság ⇒ akár

visszatevéssel, akár visszatevés nélkül független mintaelemeket kapunk − Véges sokaság ⇒ csak a visszatevéses mintavétel eredményez független mintaelemek Véletlen mintavételi eljárások − Független azonos eloszlású minta: homogén és végtelen sokaságból veszünk véletlen mintát (visszatevéssel vagy visszatevés nélkül), illetve amikor véges sokaságból visszatevéssel választunk mintaelemeket − Egyszerű véletlen mintavétel: homogén, véges elemszámú sokaságból visszatevés nélkül választunk, elemenként egyenlő valószínűséggel − Szisztematikus mintavétel: a sokaságot valamilyen szempont szerint sorba rendezzük majd k=[N/n] -edik elemeket kiválasztjuk − Rétegzett mintavétel: a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél kisebb szórású) részsokaságra bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba; az

egyes rétegeken belül a minta elemeinek kiválasztása egyszerű véletlen mintavétellel történik − Arányos elosztás: A minta összetétele és a sokaság összetétele rétegenként megegyezik − Nem arányos elosztás − Egyenletes elosztás: minden egyes rétegbe azonos számú mintaelem kerül − Neyman-féle optimális eloszlás: a nagyobb szórású rétegből aránylag nagyobb, a kisebb szórásúból pedig kisebb mintát veszünk, így kedvezőbb tulajdonságú mintát kapunk − Csoportos mintavétel: a homogén sokaság elemeinek csoportjai közül egyszerű véletlen mintát veszünk, majd a kiválasztott csoportokon belül minden egyes egyedet megfigyelünk. − Elsődleges mintavételi egység: a kiválasztott csoport − Végső mintavételi egység: a kiválasztott csoport elemei − Többlépcsős mintavétel: az egyszerű véletlen mintavételt többször ismételjük egymás után Nem véletlen mintavételi eljárások − Szisztematikus: Csak akkor,

ha van kapcsolat a vizsgált és a listavezető ismérv között − Kvóta szerinti kiválasztás: Elöre meghaározott a minta összetétele. − Önkényes kiválasztás: A felvételt végző személy szakmai ismereteire támaszkodva választja ki a mntát. − Koncentrált mintavétel: A sokaság legnagyobb súllyal rendelkező elemei kerülnek a mintába. A mintajellemzők fontosabb tulajdonságai − Mintaátlag standard hibája: megmutatja, hogy mekkora a mintaátlagok sokasági várható értéktől való átlagos (négyzetes) eltérésének várható értéke − a reprezentatív megfigyelés hibája − Korrekciós tényező: egyszerű véletlen mintavétel esetén alkalmazzuk − standard hiba kiszámításánál − Mintaátlag eloszlása: − normális eloszlású sokaság esetén a mintaátlag is normális eloszlású − nem ismert eloszlású sokaság és nagy minta esetén a mintaátlag közelítőleg normális eloszlású − nem ismert eloszlású sokaság és kis

minta esetén a mintaátlag eloszlása függ a sokaság eloszlásától 7. Statisztikai becslések Alapfogalmak Becslőfüggvény: a ξ1, ξ2 ξn mintaelemek olyan n-változós Θ függvényét értjük, amelynek valamely Θ paraméterének mintából történő becslésére szolgál Tapasztalati szórásnégyzet: ∑ ( x i − x) n  (ξ , ξ ,ξ ) Θ 1 2 n értéke a sokaság 2 (s ) = n Korrigált tapasztalati szórásnégyzet: * 2 i =1 ∑ ( x i − x) n s2 = 2 i =1 n −1 Pontbecslés: az az érték, amit a becslőfüggvény egyetlen n elemű mintához egyetlen értékként rendel Intervallumbecslés: egyetlen minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza az ismeretlen sokasági jellemzőt − Konfidencia-, vagy megbízhatósági intervallum A becslőfüggvényekkel szemben támasztott követelmények Torzítatlanság: a becslőfüggvény várható értéke megegyezik a becsülni kívánt

sokasági jellemző értékével Aszimptotikus torzítatlanság: a minta elemszámának növelésével a becsülni kívánt paraméter és a becslőfüggvény várható értékének különbsége egyre kisebb lesz Konzisztencia: a mintanagyság minden határon túl történő növelése esetén annak a valószínűsége, hogy a becsülni kívánt paraméter és a becslőfüggvény eltérése kisebb egy ε számnál, =1 Hatásosság: az a becslőfüggvény hatásosabb, amelynek szórása kisebb Elégségesség: minden, mintából nyerhető információt tartalmaz A pontbecslés módszerei A becslés során egyetlen n elemű minta alapján egyetlenegy étéket is adhatunk az ismeretlen sokasági jellemzőre. Potbecslés pl: ha a sokaság várható értéke a mintaátlaggal (x ) egyenlő, ha a sokasági arány a mintabeli aránnyal egyenlő. 7.3 Intervallum becslés A centrális határeloszlás-tétel Ha a ξ1, ξ2 ξn azonos várható értékű és szórású független

valószínűségi változók, M(ξi)=m és D(ξi)=σ (i=1,2n), ⇒ ξ + ξ ++ξ számtani közepüknek várható értéke m és szórása σ ηn = 1 n 2 Ekkor a n ξ + ξ ++ξn − nm ξn = 1 2 σ n n valószínűségi változó várható értéke és szórása: M=0, σ=1 Centrális határeloszlás-tétel: Ha ξ1, ξ2 ξn, azonos eloszlású független valószínűségi változók, M(ξi)=m és D(ξi)=σ (i=1,2), ⇒ ξ + ξ ++ξ − nm valószínűségi változók eloszlásfüggvényei olyan sorozatot alkotnak, amely ηn = 1 n 2 σ n minden x pontban a standard normális eloszlásfüggvényhez tart:  ξ + ξ ++ξn − nm  < x = Φ( x) lim P (ηn < x) = lim P  1 2 n∞   σ n n∞ − (Mivel ξi (i=1,2n), eloszlásáról semmit sem tudunk, η eloszlása sem ismert. A centrális határeloszlás tétel szerint elég nagy n esetén η közelítőleg standard normális eloszlású) n n Intervallumbecslés Intervallumbecslés: egyetlen

minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza az ismeretlen sokasági jellemzőt ez a konfidencia-intervallum Hibahatár (maximális hiba): azt mutatja meg, hogy a becslés során 1-α valószínűséggel ∆-nál kevesebbet tévedünk a becslés pontosságát a minta elemszámának növelésével vagy a megbízhatósági szint csökkentésével javíthatjuk Független azonos eloszlású minta: homogén és végtelen sokaságból veszünk véletlen mintát (visszatevéssel vagy visszatevés nélkül), illetve amikor véges sokaságból visszatevéssel választunk mintaelemeket 1-α Z1 Z2 Egyszerű véletlen mintavétel: homogén, véges elemszámú sokaságból visszatevés nélkül választunk, elemenként egyenlő valószínűséggel Sokaság várható értékének becslése (FAE minta esetén) Normális eloszlású sokaság, ha a sokaság szórása (σ) ismert − Z standard normális eloszlás − y tengelyre

szimmetrikus ⇒ (-z; +z) Normális eloszlású sokaság, ha a sokaság szórása (σ) nem ismert − a szórást a mintából korrigált tapasztalati szórással kell becsülni − Student-féle t-eloszlás − szabadsági fok: n-1 − szimmetrikus az y tengelyre − n>100 esetén Z-hez közelít Nem normális eloszlású sokaság, ha nagy mintát vettünk − a mintaátlag a centrális határeloszlás tétele miatt közelítőleg normális eloszlású − attól függően, hogy ismert-e a sokasági szórás: Z-, illetve t-eloszlás Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén − a minta átlag eloszlásáról semmit sem tudunk, ⇒ a konfidenciaintervallum meghatározása Csebisev-vel − Csebisev-egyenlőtlenség alapján az intervallumba esés valószínűsége legalább 1-α ( 1) 1− α = 1− t2 (EVM minta esetén): a standard hiba korrekciós tényezővel módosul n ⋅ 1− N Sokasági

értékösszeg becslése a sokasági várható értékre adott konfidenciaintervallum határait megszorozzuk N-nel Sokasági arány becslése − a sokaságot valamely minőségi vagy mennyiségi ismérv alapján két csoportba soroljuk és az egyes csoportokba esés valószínűségét akarjuk meghatározni − feltételezzük, hogy FAE minta áll rendelkezésre − binomiális eloszlás, de a gyakorlatban (nagy elemszám esetén) jól közelíthető normális eloszlással − EVM minta esetén: a standard hiba korrekciós tényezővel módosul n ⋅ 1− N Sokasági szórásnégyzet becslése − − − − − torzítatlan becslést eredményező korrigált tapasztalati szórásnégyzet alapján khí-négyzet eloszlás szabadsági fok: n-1 csak pozitív értékekre értelmezett balról aszimmetrikus A konfidenciaintervallum meghatározása rétegzett mintavétel esetén Rétegzett mintavétel: a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél

kisebb szórású) részsokaságra bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba; az egyes rétegeken belül a minta elemeinek kiválasztása egyszerű véletlen mintavétellel történik − rétegek száma: M − Arányos elosztás − Nem arányos elosztás − Egyenletes elosztás: minden egyes rétegbe azonos számú mintaelem kerül − Neyman-féle optimális eloszlás: a nagyobb szórású rétegből aránylag nagyobb, a kisebb szórásúból pedig kisebb mintát veszünk, így kedvezőbb tulajdonságú mintát kapunk Várható érték becslése: − Nem arányos elosztás: a sokasági várható érték becslőfüggvényét a mintaátlagoknak a sokasági rétegarányokkal súlyozott átlaga adja − Arányos elosztás: a becslőfüggvény a rétegátlagoknak a mintabeli rétegarányokkal súlyozott számtani átlaga rétegzett mintavétel standard hibája kisebb, mint az egyszerű véletlen

mintavételé Értékösszegbecslés: a sokasági várható értékre adott konfidenciaintervallum határait meg kell szorozni N-nel Aránybecslés: a sokasági arány becslőfüggvénye a mintabeli arányok súlyozott átlaga A minta elemszámának meghatározása − Megbízhatósági szint: 1-α − Pontosság: ∆ − a mintaelemszám négyzetesen arányos a megbízhatósággal és a sokasági szórással, fordítottan arányos a hibahatár négyzetével (pontosság) − Azonos pontossági és megbízhatósági feltételek mellett nagyobb mintára van szükségünk, ha véges sokaságból visszatevéssel választunk (FAE), mintha visszatevés nélkül (EV) 8. Hipotézis vizsgálat alapjai A khinégyzet-eloszlás Ha a ξ1, ξ2 ξn valószínűségi változók függetlenek, standard normális eloszlásúak, ⇒ valószínűségi változót n-szabadságfokú χ2 -eloszlásúnak nevezzük. n χ 2 = ξ12 + ξ22 ++ξn2 = ∑ ξi 2 i =1 A hipotézisvizsgálat alapfogalmai

Hipotézis: egy vagy több sokaságra vonatkozó állítás, feltevés vonatkozhat egy vagy több sokaság eloszlására vagy az eloszlás egy vagy több paraméterére Nullhipotézis és Alternatív hipotézis: a hipotézis matematikai megfogalmazása egymást kölcsönösen kizárják Egyszerű hipotézis: állítás egyenlőség formájában Összetett hipotézis: több önálló hipotézis összessége Statisztikai próba: olyan eljárás, amely során a mintából származó információk alapján döntünk a nullhipotézis elfogadásáról vagy elutasításáról a hipotézisvizsgálat eszköze Próbafüggvény: mintaelemek olyan függvénye, amelynek valószínűségeloszlása a nullhipotézis helyességének feltételezése, a sokaságra tett bizonyos kikötések és a mintavétel adott módja mellett egyértelműen meghatározható Elfogadási illetve Elutasítási vagy kritikus tartomány − két, egymást át nem fedő tartomány − a próbafüggvény értéke a

nullhipotézis elfogadása esetén előre megadott nagy valószínűséggel az elfogadási tartományba esik ⇒ tartomány határainak meghatározása Szignifikancia szint: a próbafüggvény kritikus tartományba esésének valószínűsége, jele: α Egyoldali kritikus tartomány: az ellenhipotézisben a nullhipotézishez képest egy meghatározott irányú eltérést írunk fel Kétoldali kritikus tartomány: a nullhipotézisben megfogalmazott állítástól való bármilyen irányú eltérés érdekel Kritikus érték: az elfogadási és kritikus tartományt elválasztó értékek A hipotézisvizsgálat során elkövethető hibák Elsőfajú hiba: a nullhipotézis helyes és a próbafüggvény adott mintából számított értéke mégis a kritikus tartományba esik − elkövetésének valószínűsége: α − próba megbízhatósági szintje: 1-α Másodfajú hiba: nullhipotézis nem áll fenn és a próbafüggvény mintából számított értéke mégis az elfogadási

tartományba esik − elkövetésének valószínűsége: β − próba ereje: 1-β az α csökkentése esetén megnő a β elkövetésének valószínűsége A statisztikai hipotézisvizsgálat menete − 1.nullhipotézis és alternatív hipotézis megfogalmazása − 2. próbafüggvény megkeresése − 3. szignifikanciaszint megválasztása − 4. mintavétel végrehajtása, mintajellemzők értékének meghatározása, próbafüggvény számszerű értékének kiszámítása − 5. próbafüggvény lehetséges értéktartományának felosztása elfogadási és visszautasítási tartományra − 6. hipotézisről döntés − feltétel: egy vagy több azonos eloszlású, független elemekből álló minta − egyszerű véletlen minta kis kiválasztási arány esetén FAE-nak tekinthető Paraméteres statisztikai próbák: alkalmazásuk csak előírt eloszlású statisztikai sokaság esetén lehetséges Nemparaméteres statisztikai próbák: bármely eloszlású sokaság

esetén alkalmazhatóak 8.4 Egy és kétmintás statisztikai próbák Egyoldali és kétoldali statisztikai próba Egymintás és kétmintás statisztikai próba Egymintás statisztikai próbák Várható értékkel kapcsolatos próbák Egymintás Z-próba − ha a sokaság normális eloszlású és a sokaság σ szórása ismert − alternatív hipotézis: µ < m0 ⇒ jobboldali kritikus tartomány [ Z − µ ≠ m0 ⇒ kétoldali kritikus tartomány [Z ; Z ] α 2 − µ > m0 ⇒ baloldali kritikus tartomány [ α ;∞ 1− α2 ]−∞; Z1−α ] − használható akkor is, ha egy véges szórású, tetszőleges eloszlású sokaságból nagy elemszámú független mintát veszünk (centrális határeloszlás tétele miatt) − felhasználjuk a σ lehetséges mintákból számított korrigált empírikus szórást Egymintás t-próba − a sokasági eloszlás szórását nem kell ismernünk, de a sokaság eloszlásának normálisnak kell lennie − szabadsági fok: n-1

Sokasági szórásra vonatkozó próba − a sokaság normális eloszlású − khí-négyzet eloszlás − szabadsági fok: n-1 Sokasági arányszámmal (valószínűséggel) kapcsolatos próba − P annak a valószínűsége, hogy egy egyedet véletlenszerűen kiválasztva az rendelkezik az adott tulajdonsággal − Z-próbafüggvény Kétmintás statisztikai próbák − a két sokaságot két véletlen és független mintának kell képviselnie Két sokasági várható érték különbségének vizsgálata Kétmintás Z-próba − mindkét sokaság normális eloszlású és ismerjük a sokasági szórásokat − ha nem ismerjük a sokasági szórásokat, akkor azokat a mintából becsüljük és kellően nagy minta esetén szintén Zeloszlással számolunk Kétmintás t-próba − kis minták esetén − feltétel: − normális eloszlású alapsokaság − az ismeretlen sokasági szórások azonossága feltételezhető ⇒ F-próba! − Student-féle t-eloszlás,

szabadságfok: n1 + n2 -2 Két sokasági arányra (valószínűségre) vonatkozó próba − két nagy minta ⇒ kétmintás Z-próba Két sokasági szórás egyezőségére vonatkozó próba − a sokaság eloszlásának normálisnak kell lennie − F-próba − szabadsági fokok: szf1 = n1 -1 és szf2 = n2 -1 8.6 Valószínűségi változók függetlensége Függetlenségvizsgálat, variancia analízis Illeszkedés vizsgálat Egy kísérlethez tartozó H eseménytéren értelmezzünk egy tetszőleges valós értékű ξ függvényt, vagyis minden h kimenetelhez rendeljünk egy ξ(h) valós számot. Ezt a függvényt valószínűségi változónak nevezzük Valószínűségi változók függetlensége A ξ és η valószínűségi változókat egymástól függetleneknek nevezzük, ha együttes eloszlásfüggvényük egyenlő a perem-eloszlásfüggvények szorzatával. Képletben: ((x,y) ∈ R2) Ha ξ és η függetlenek, akkor tetszés szerinti a<b; c<d számpárok esetén:

P (a≤ξ<b; c≤η<d) = P (a≤ξ<b) ⋅ P (c≤η<d) A ξ és η diszkrét valószínűségi változók akkor és csak akkor függetlenek, ha minden lehetséges (xi, yj) értékpárra P (ξ=xi; η=yj) = P (ξ=xi) ⋅ P (η=yj) F( x; y) = P( ξ < x; η < y) = P( ξ < x) ⋅ P( η < y) = F1 ( x) ⋅ F2 ( y) A ξ és η folytonos valószínűségi változók akkor és csak akkor függetlenek, ha a sűrűségfüggvényekre is fennáll az ún. szorzási szabály: f (x,y) = f1(x) ⋅ f2(y) ((x,y) ∈ R2) − Ha ξ és η függetlenek, ⇒ M (ξη) = M (ξ) ⋅ M (η) (amennyiben ezek a várható értékek léteznek) − Következménye: Ha ξ és η függetlenek, akkor cov (ξ,η) = R (ξ,η) = 0 Illeszkedésvizsgálat egy valószínűségi változó eloszlására vonatkozó állítás vagy feltételezés ellenőrzése Tiszta illeszkedésvizsgálat: a feltételezett eloszlás egyértelműen meghatározott (típusa és paraméterei rögzítettek) Becsléses

illeszkedésvizsgálat: eloszlásnak csak a típusa ismert, a paramétereket a mintából becsüljük − alternatív hipotézis: létezik olyan i, amelyre P(Xi) ≠ Pi − nagy minta ⇒ khí-négyzet eloszlás − szabadságfok: k-b-1 (b: becsült paraméterek száma) − követelmény: a legkisebb feltételezett gyakoriság legalább 5 legyen − jobboldali kritikus tartomány Függetlenségvizsgálat − azon nullhipotézis ellenőrzésére szolgál, hogy két ismérv független egymástól − illeszkedésvizsgálat speciális esete − alternatív hipotézis: nem függetlenek egymástól van olyan i és j, amelyre P ≠ P ⋅ P ij i• •j Tiszta függetlenségvizsgálat: khí-négyzet eloszlás, szabadságfok: s⋅t-1 Becsléses függetlenségvizsgálat: khí-négyzet eloszlás, szabadságfok: (s-1)⋅(t-1) jobboldali kritikus tartomány Varianciananalízis − annak a nullhipotézisnek az ellenőrzésére szolgál, hogy kettőnél több azonos szórású, normális

eloszlású valószínűségi változónak azonos-e a várható értéke is − A próba végrehajtásához szükség van min. 1 nominális mérési skálán és egy arányskálán mért ismérvre − vegyes kapcsolat fennállásának tesztelése − M db egymástól független sokaság, amelyekből FAE mintát veszünk − alternatív hipotézis: a µj sokasági átlagoknak nem mindegyike esik egybe µ-vel − ha igaz ⇒ a két ismérv között sztochasztikus kapcsolat áll fenn − jobboldali kritikus tartomány − teljes eltérés-négyzetösszeg − külső eltérés-négyzetösszeg − belső eltérés-négyzetösszeg − F-próba, szabadságfok: M-1, (n-M)