Content extract
6. Mintavétel Alapfogalmak, jelölések, gyakorlati kérdések − A részleges adatgyűjtés egyik módja a reprezentatív megfigyelés vagy mintavétel. − Célja: valamely sokaság egy részének megfigyelése révén következtetéseket tudjunk levonni a sokaság egészére, annak jellemzőire, összetételére vonatkozóan. − A mintavétel tervezésénél két egymásnak ellentmondó követelmény van a pontosság és az olcsóság, melyek figyelembevétel befolyásolja a mintaelemek kiválasztási eljárását. − Alapsokaság: az a sokaság, amelyre a mintavétel segítségével következtetni szeretnénk − Mintasokaság: az alapsokaság azon része, amely alapján a következtetéseket levonjuk − Mintavételi keret: egyenként tartalmazza a vizsgálni kívánt sokaság elemeit, mégpedig mindegyiket és mindegyiket csak egyszer − mintaelemek kiválasztása: − Visszatevéssel − Visszatevés nélkül − függetlenség: − Végtelen sokaság ⇒ akár
visszatevéssel, akár visszatevés nélkül független mintaelemeket kapunk − Véges sokaság ⇒ csak a visszatevéses mintavétel eredményez független mintaelemek Véletlen mintavételi eljárások − Független azonos eloszlású minta: homogén és végtelen sokaságból veszünk véletlen mintát (visszatevéssel vagy visszatevés nélkül), illetve amikor véges sokaságból visszatevéssel választunk mintaelemeket − Egyszerű véletlen mintavétel: homogén, véges elemszámú sokaságból visszatevés nélkül választunk, elemenként egyenlő valószínűséggel − Szisztematikus mintavétel: a sokaságot valamilyen szempont szerint sorba rendezzük majd k=[N/n] -edik elemeket kiválasztjuk − Rétegzett mintavétel: a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél kisebb szórású) részsokaságra bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba; az
egyes rétegeken belül a minta elemeinek kiválasztása egyszerű véletlen mintavétellel történik − Arányos elosztás: A minta összetétele és a sokaság összetétele rétegenként megegyezik − Nem arányos elosztás − Egyenletes elosztás: minden egyes rétegbe azonos számú mintaelem kerül − Neyman-féle optimális eloszlás: a nagyobb szórású rétegből aránylag nagyobb, a kisebb szórásúból pedig kisebb mintát veszünk, így kedvezőbb tulajdonságú mintát kapunk − Csoportos mintavétel: a homogén sokaság elemeinek csoportjai közül egyszerű véletlen mintát veszünk, majd a kiválasztott csoportokon belül minden egyes egyedet megfigyelünk. − Elsődleges mintavételi egység: a kiválasztott csoport − Végső mintavételi egység: a kiválasztott csoport elemei − Többlépcsős mintavétel: az egyszerű véletlen mintavételt többször ismételjük egymás után Nem véletlen mintavételi eljárások − Szisztematikus: Csak akkor,
ha van kapcsolat a vizsgált és a listavezető ismérv között − Kvóta szerinti kiválasztás: Elöre meghaározott a minta összetétele. − Önkényes kiválasztás: A felvételt végző személy szakmai ismereteire támaszkodva választja ki a mntát. − Koncentrált mintavétel: A sokaság legnagyobb súllyal rendelkező elemei kerülnek a mintába. A mintajellemzők fontosabb tulajdonságai − Mintaátlag standard hibája: megmutatja, hogy mekkora a mintaátlagok sokasági várható értéktől való átlagos (négyzetes) eltérésének várható értéke − a reprezentatív megfigyelés hibája − Korrekciós tényező: egyszerű véletlen mintavétel esetén alkalmazzuk − standard hiba kiszámításánál − Mintaátlag eloszlása: − normális eloszlású sokaság esetén a mintaátlag is normális eloszlású − nem ismert eloszlású sokaság és nagy minta esetén a mintaátlag közelítőleg normális eloszlású − nem ismert eloszlású sokaság és kis
minta esetén a mintaátlag eloszlása függ a sokaság eloszlásától 7. Statisztikai becslések Alapfogalmak Becslőfüggvény: a ξ1, ξ2 ξn mintaelemek olyan n-változós Θ függvényét értjük, amelynek valamely Θ paraméterének mintából történő becslésére szolgál Tapasztalati szórásnégyzet: ∑ ( x i − x) n (ξ , ξ ,ξ ) Θ 1 2 n értéke a sokaság 2 (s ) = n Korrigált tapasztalati szórásnégyzet: * 2 i =1 ∑ ( x i − x) n s2 = 2 i =1 n −1 Pontbecslés: az az érték, amit a becslőfüggvény egyetlen n elemű mintához egyetlen értékként rendel Intervallumbecslés: egyetlen minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza az ismeretlen sokasági jellemzőt − Konfidencia-, vagy megbízhatósági intervallum A becslőfüggvényekkel szemben támasztott követelmények Torzítatlanság: a becslőfüggvény várható értéke megegyezik a becsülni kívánt
sokasági jellemző értékével Aszimptotikus torzítatlanság: a minta elemszámának növelésével a becsülni kívánt paraméter és a becslőfüggvény várható értékének különbsége egyre kisebb lesz Konzisztencia: a mintanagyság minden határon túl történő növelése esetén annak a valószínűsége, hogy a becsülni kívánt paraméter és a becslőfüggvény eltérése kisebb egy ε számnál, =1 Hatásosság: az a becslőfüggvény hatásosabb, amelynek szórása kisebb Elégségesség: minden, mintából nyerhető információt tartalmaz A pontbecslés módszerei A becslés során egyetlen n elemű minta alapján egyetlenegy étéket is adhatunk az ismeretlen sokasági jellemzőre. Potbecslés pl: ha a sokaság várható értéke a mintaátlaggal (x ) egyenlő, ha a sokasági arány a mintabeli aránnyal egyenlő. 7.3 Intervallum becslés A centrális határeloszlás-tétel Ha a ξ1, ξ2 ξn azonos várható értékű és szórású független
valószínűségi változók, M(ξi)=m és D(ξi)=σ (i=1,2n), ⇒ ξ + ξ ++ξ számtani közepüknek várható értéke m és szórása σ ηn = 1 n 2 Ekkor a n ξ + ξ ++ξn − nm ξn = 1 2 σ n n valószínűségi változó várható értéke és szórása: M=0, σ=1 Centrális határeloszlás-tétel: Ha ξ1, ξ2 ξn, azonos eloszlású független valószínűségi változók, M(ξi)=m és D(ξi)=σ (i=1,2), ⇒ ξ + ξ ++ξ − nm valószínűségi változók eloszlásfüggvényei olyan sorozatot alkotnak, amely ηn = 1 n 2 σ n minden x pontban a standard normális eloszlásfüggvényhez tart: ξ + ξ ++ξn − nm < x = Φ( x) lim P (ηn < x) = lim P 1 2 n∞ σ n n∞ − (Mivel ξi (i=1,2n), eloszlásáról semmit sem tudunk, η eloszlása sem ismert. A centrális határeloszlás tétel szerint elég nagy n esetén η közelítőleg standard normális eloszlású) n n Intervallumbecslés Intervallumbecslés: egyetlen
minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza az ismeretlen sokasági jellemzőt ez a konfidencia-intervallum Hibahatár (maximális hiba): azt mutatja meg, hogy a becslés során 1-α valószínűséggel ∆-nál kevesebbet tévedünk a becslés pontosságát a minta elemszámának növelésével vagy a megbízhatósági szint csökkentésével javíthatjuk Független azonos eloszlású minta: homogén és végtelen sokaságból veszünk véletlen mintát (visszatevéssel vagy visszatevés nélkül), illetve amikor véges sokaságból visszatevéssel választunk mintaelemeket 1-α Z1 Z2 Egyszerű véletlen mintavétel: homogén, véges elemszámú sokaságból visszatevés nélkül választunk, elemenként egyenlő valószínűséggel Sokaság várható értékének becslése (FAE minta esetén) Normális eloszlású sokaság, ha a sokaság szórása (σ) ismert − Z standard normális eloszlás − y tengelyre
szimmetrikus ⇒ (-z; +z) Normális eloszlású sokaság, ha a sokaság szórása (σ) nem ismert − a szórást a mintából korrigált tapasztalati szórással kell becsülni − Student-féle t-eloszlás − szabadsági fok: n-1 − szimmetrikus az y tengelyre − n>100 esetén Z-hez közelít Nem normális eloszlású sokaság, ha nagy mintát vettünk − a mintaátlag a centrális határeloszlás tétele miatt közelítőleg normális eloszlású − attól függően, hogy ismert-e a sokasági szórás: Z-, illetve t-eloszlás Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén − a minta átlag eloszlásáról semmit sem tudunk, ⇒ a konfidenciaintervallum meghatározása Csebisev-vel − Csebisev-egyenlőtlenség alapján az intervallumba esés valószínűsége legalább 1-α ( 1) 1− α = 1− t2 (EVM minta esetén): a standard hiba korrekciós tényezővel módosul n ⋅ 1− N Sokasági
értékösszeg becslése a sokasági várható értékre adott konfidenciaintervallum határait megszorozzuk N-nel Sokasági arány becslése − a sokaságot valamely minőségi vagy mennyiségi ismérv alapján két csoportba soroljuk és az egyes csoportokba esés valószínűségét akarjuk meghatározni − feltételezzük, hogy FAE minta áll rendelkezésre − binomiális eloszlás, de a gyakorlatban (nagy elemszám esetén) jól közelíthető normális eloszlással − EVM minta esetén: a standard hiba korrekciós tényezővel módosul n ⋅ 1− N Sokasági szórásnégyzet becslése − − − − − torzítatlan becslést eredményező korrigált tapasztalati szórásnégyzet alapján khí-négyzet eloszlás szabadsági fok: n-1 csak pozitív értékekre értelmezett balról aszimmetrikus A konfidenciaintervallum meghatározása rétegzett mintavétel esetén Rétegzett mintavétel: a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél
kisebb szórású) részsokaságra bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba; az egyes rétegeken belül a minta elemeinek kiválasztása egyszerű véletlen mintavétellel történik − rétegek száma: M − Arányos elosztás − Nem arányos elosztás − Egyenletes elosztás: minden egyes rétegbe azonos számú mintaelem kerül − Neyman-féle optimális eloszlás: a nagyobb szórású rétegből aránylag nagyobb, a kisebb szórásúból pedig kisebb mintát veszünk, így kedvezőbb tulajdonságú mintát kapunk Várható érték becslése: − Nem arányos elosztás: a sokasági várható érték becslőfüggvényét a mintaátlagoknak a sokasági rétegarányokkal súlyozott átlaga adja − Arányos elosztás: a becslőfüggvény a rétegátlagoknak a mintabeli rétegarányokkal súlyozott számtani átlaga rétegzett mintavétel standard hibája kisebb, mint az egyszerű véletlen
mintavételé Értékösszegbecslés: a sokasági várható értékre adott konfidenciaintervallum határait meg kell szorozni N-nel Aránybecslés: a sokasági arány becslőfüggvénye a mintabeli arányok súlyozott átlaga A minta elemszámának meghatározása − Megbízhatósági szint: 1-α − Pontosság: ∆ − a mintaelemszám négyzetesen arányos a megbízhatósággal és a sokasági szórással, fordítottan arányos a hibahatár négyzetével (pontosság) − Azonos pontossági és megbízhatósági feltételek mellett nagyobb mintára van szükségünk, ha véges sokaságból visszatevéssel választunk (FAE), mintha visszatevés nélkül (EV) 8. Hipotézis vizsgálat alapjai A khinégyzet-eloszlás Ha a ξ1, ξ2 ξn valószínűségi változók függetlenek, standard normális eloszlásúak, ⇒ valószínűségi változót n-szabadságfokú χ2 -eloszlásúnak nevezzük. n χ 2 = ξ12 + ξ22 ++ξn2 = ∑ ξi 2 i =1 A hipotézisvizsgálat alapfogalmai
Hipotézis: egy vagy több sokaságra vonatkozó állítás, feltevés vonatkozhat egy vagy több sokaság eloszlására vagy az eloszlás egy vagy több paraméterére Nullhipotézis és Alternatív hipotézis: a hipotézis matematikai megfogalmazása egymást kölcsönösen kizárják Egyszerű hipotézis: állítás egyenlőség formájában Összetett hipotézis: több önálló hipotézis összessége Statisztikai próba: olyan eljárás, amely során a mintából származó információk alapján döntünk a nullhipotézis elfogadásáról vagy elutasításáról a hipotézisvizsgálat eszköze Próbafüggvény: mintaelemek olyan függvénye, amelynek valószínűségeloszlása a nullhipotézis helyességének feltételezése, a sokaságra tett bizonyos kikötések és a mintavétel adott módja mellett egyértelműen meghatározható Elfogadási illetve Elutasítási vagy kritikus tartomány − két, egymást át nem fedő tartomány − a próbafüggvény értéke a
nullhipotézis elfogadása esetén előre megadott nagy valószínűséggel az elfogadási tartományba esik ⇒ tartomány határainak meghatározása Szignifikancia szint: a próbafüggvény kritikus tartományba esésének valószínűsége, jele: α Egyoldali kritikus tartomány: az ellenhipotézisben a nullhipotézishez képest egy meghatározott irányú eltérést írunk fel Kétoldali kritikus tartomány: a nullhipotézisben megfogalmazott állítástól való bármilyen irányú eltérés érdekel Kritikus érték: az elfogadási és kritikus tartományt elválasztó értékek A hipotézisvizsgálat során elkövethető hibák Elsőfajú hiba: a nullhipotézis helyes és a próbafüggvény adott mintából számított értéke mégis a kritikus tartományba esik − elkövetésének valószínűsége: α − próba megbízhatósági szintje: 1-α Másodfajú hiba: nullhipotézis nem áll fenn és a próbafüggvény mintából számított értéke mégis az elfogadási
tartományba esik − elkövetésének valószínűsége: β − próba ereje: 1-β az α csökkentése esetén megnő a β elkövetésének valószínűsége A statisztikai hipotézisvizsgálat menete − 1.nullhipotézis és alternatív hipotézis megfogalmazása − 2. próbafüggvény megkeresése − 3. szignifikanciaszint megválasztása − 4. mintavétel végrehajtása, mintajellemzők értékének meghatározása, próbafüggvény számszerű értékének kiszámítása − 5. próbafüggvény lehetséges értéktartományának felosztása elfogadási és visszautasítási tartományra − 6. hipotézisről döntés − feltétel: egy vagy több azonos eloszlású, független elemekből álló minta − egyszerű véletlen minta kis kiválasztási arány esetén FAE-nak tekinthető Paraméteres statisztikai próbák: alkalmazásuk csak előírt eloszlású statisztikai sokaság esetén lehetséges Nemparaméteres statisztikai próbák: bármely eloszlású sokaság
esetén alkalmazhatóak 8.4 Egy és kétmintás statisztikai próbák Egyoldali és kétoldali statisztikai próba Egymintás és kétmintás statisztikai próba Egymintás statisztikai próbák Várható értékkel kapcsolatos próbák Egymintás Z-próba − ha a sokaság normális eloszlású és a sokaság σ szórása ismert − alternatív hipotézis: µ < m0 ⇒ jobboldali kritikus tartomány [ Z − µ ≠ m0 ⇒ kétoldali kritikus tartomány [Z ; Z ] α 2 − µ > m0 ⇒ baloldali kritikus tartomány [ α ;∞ 1− α2 ]−∞; Z1−α ] − használható akkor is, ha egy véges szórású, tetszőleges eloszlású sokaságból nagy elemszámú független mintát veszünk (centrális határeloszlás tétele miatt) − felhasználjuk a σ lehetséges mintákból számított korrigált empírikus szórást Egymintás t-próba − a sokasági eloszlás szórását nem kell ismernünk, de a sokaság eloszlásának normálisnak kell lennie − szabadsági fok: n-1
Sokasági szórásra vonatkozó próba − a sokaság normális eloszlású − khí-négyzet eloszlás − szabadsági fok: n-1 Sokasági arányszámmal (valószínűséggel) kapcsolatos próba − P annak a valószínűsége, hogy egy egyedet véletlenszerűen kiválasztva az rendelkezik az adott tulajdonsággal − Z-próbafüggvény Kétmintás statisztikai próbák − a két sokaságot két véletlen és független mintának kell képviselnie Két sokasági várható érték különbségének vizsgálata Kétmintás Z-próba − mindkét sokaság normális eloszlású és ismerjük a sokasági szórásokat − ha nem ismerjük a sokasági szórásokat, akkor azokat a mintából becsüljük és kellően nagy minta esetén szintén Zeloszlással számolunk Kétmintás t-próba − kis minták esetén − feltétel: − normális eloszlású alapsokaság − az ismeretlen sokasági szórások azonossága feltételezhető ⇒ F-próba! − Student-féle t-eloszlás,
szabadságfok: n1 + n2 -2 Két sokasági arányra (valószínűségre) vonatkozó próba − két nagy minta ⇒ kétmintás Z-próba Két sokasági szórás egyezőségére vonatkozó próba − a sokaság eloszlásának normálisnak kell lennie − F-próba − szabadsági fokok: szf1 = n1 -1 és szf2 = n2 -1 8.6 Valószínűségi változók függetlensége Függetlenségvizsgálat, variancia analízis Illeszkedés vizsgálat Egy kísérlethez tartozó H eseménytéren értelmezzünk egy tetszőleges valós értékű ξ függvényt, vagyis minden h kimenetelhez rendeljünk egy ξ(h) valós számot. Ezt a függvényt valószínűségi változónak nevezzük Valószínűségi változók függetlensége A ξ és η valószínűségi változókat egymástól függetleneknek nevezzük, ha együttes eloszlásfüggvényük egyenlő a perem-eloszlásfüggvények szorzatával. Képletben: ((x,y) ∈ R2) Ha ξ és η függetlenek, akkor tetszés szerinti a<b; c<d számpárok esetén:
P (a≤ξ<b; c≤η<d) = P (a≤ξ<b) ⋅ P (c≤η<d) A ξ és η diszkrét valószínűségi változók akkor és csak akkor függetlenek, ha minden lehetséges (xi, yj) értékpárra P (ξ=xi; η=yj) = P (ξ=xi) ⋅ P (η=yj) F( x; y) = P( ξ < x; η < y) = P( ξ < x) ⋅ P( η < y) = F1 ( x) ⋅ F2 ( y) A ξ és η folytonos valószínűségi változók akkor és csak akkor függetlenek, ha a sűrűségfüggvényekre is fennáll az ún. szorzási szabály: f (x,y) = f1(x) ⋅ f2(y) ((x,y) ∈ R2) − Ha ξ és η függetlenek, ⇒ M (ξη) = M (ξ) ⋅ M (η) (amennyiben ezek a várható értékek léteznek) − Következménye: Ha ξ és η függetlenek, akkor cov (ξ,η) = R (ξ,η) = 0 Illeszkedésvizsgálat egy valószínűségi változó eloszlására vonatkozó állítás vagy feltételezés ellenőrzése Tiszta illeszkedésvizsgálat: a feltételezett eloszlás egyértelműen meghatározott (típusa és paraméterei rögzítettek) Becsléses
illeszkedésvizsgálat: eloszlásnak csak a típusa ismert, a paramétereket a mintából becsüljük − alternatív hipotézis: létezik olyan i, amelyre P(Xi) ≠ Pi − nagy minta ⇒ khí-négyzet eloszlás − szabadságfok: k-b-1 (b: becsült paraméterek száma) − követelmény: a legkisebb feltételezett gyakoriság legalább 5 legyen − jobboldali kritikus tartomány Függetlenségvizsgálat − azon nullhipotézis ellenőrzésére szolgál, hogy két ismérv független egymástól − illeszkedésvizsgálat speciális esete − alternatív hipotézis: nem függetlenek egymástól van olyan i és j, amelyre P ≠ P ⋅ P ij i• •j Tiszta függetlenségvizsgálat: khí-négyzet eloszlás, szabadságfok: s⋅t-1 Becsléses függetlenségvizsgálat: khí-négyzet eloszlás, szabadságfok: (s-1)⋅(t-1) jobboldali kritikus tartomány Varianciananalízis − annak a nullhipotézisnek az ellenőrzésére szolgál, hogy kettőnél több azonos szórású, normális
eloszlású valószínűségi változónak azonos-e a várható értéke is − A próba végrehajtásához szükség van min. 1 nominális mérési skálán és egy arányskálán mért ismérvre − vegyes kapcsolat fennállásának tesztelése − M db egymástól független sokaság, amelyekből FAE mintát veszünk − alternatív hipotézis: a µj sokasági átlagoknak nem mindegyike esik egybe µ-vel − ha igaz ⇒ a két ismérv között sztochasztikus kapcsolat áll fenn − jobboldali kritikus tartomány − teljes eltérés-négyzetösszeg − külső eltérés-négyzetösszeg − belső eltérés-négyzetösszeg − F-próba, szabadságfok: M-1, (n-M)