Content extract
A biostatisztika alapjai DE OEC Népegészségügy Kar Megelőző Orvostani Intézet Feladat Vegyünk egy száz főből álló populációt. Mindenkinek van szisztolés vérnyomása Hgmmben mérve egy 10×10-es táblázatban. (lásd a következő diát). Tegyük fel, hogy van egy vizsgálat, ahol ezen értékek átlagát akarják kiszámítani. Az értékek maguk a vizsgáló számára egyelőre ismeretlenek, és a vizsgálatban csak tíz fő vérnyomásának megmérésére van erőforrás. Ekkor a szokásos eljárás az, hogy tízfős véletlen mintát vesznek a populációból, megmérik a vérnyomásukat, és a kapott eredményt a populációs átlagos vérnyomás minta alapján számított pontbecslésének nevezik. A populáció 1 2 3 4 5 6 7 8 9 10 1 115 128 127 104 134 126 101 121 119 132 2 138 135 107 124 129 129 112 117 115 130 3 124 128 125 134 143 148 133 140 105 99 4 128 133 125 135 133 153 142 134 133 134 5 134 128 107 135 122 115 139 128 127 129 6 136 135
110 128 125 132 144 125 105 107 7 93 129 137 125 115 113 141 132 117 126 8 115 138 132 119 129 135 128 121 125 117 9 143 91 114 145 133 121 134 121 120 134 10 128 112 152 130 115 93 115 127 101 129 Vegyen mintát! Válasszon ki tíz értéket véletlenszerűen és számolja ki az átlagukat. Kutatóink nem tudhatják, de ennek a 100 embernek az átlagos szisztolés vérnyomása 125,3 Hgmm. Hasonlítsák össze ezzel a valós átlaggal a pontbecsléseik eredményét. A pontbecslés eredménye szinte soha nem egyezik meg a valódi populációs értékkel a mintavételi hiba miatt. A pontbecslés elkerülhetetlen velejárója a bizonytalanság. Az én mintám Sor 4 7 6 2 9 10 3 4 4 2 Oszlop 10 7 5 6 5 2 9 7 3 9 Sziszt. RR 130 141 115 135 x = 124,2 127 130 114 125 134 91 A minta jellemzése • Kiszámolhatjuk az ADATAINK átlagát (mint a középérték mérőszáma) és a szórást (mint az adatoknak az átlag körüli szóródásának mérőszámát). n å (x SD = i
- x) i n-1 2 = å x 2 - ( å x )2 / n n-1 • Számolja ki a saját mintájában a szórást! Hogyan oszlanak meg a pontbecslések a populációs paraméter körül? •Ha sokszor megismétli a vizsgálatot, akkor kellően nagy elemszámú minták esetén a pont becslések eloszlása a populációs átlag körüli normál eloszlású lesz, függetlenül az alapadatok eloszlásától Hogyan oszlanak meg a mintaátlagok a populációs átlag körül? • A mintaátlagok eloszlását az átlag mintavételi eloszlásának nevezzük. Az átlag mintavételi eloszlásának várható értéke a populációs átlag (), szórása / n. Azaz a minták átlaga a populációs átlag körül szóródik. • A mintaátlag bizonytalanságát jellemző statisztika, a “standard error” (SE). ~ standard hiba (bizonytalanság) egy mintából számolható: • SE(mintaátlag) = s / n, ahol s a minta szórása, n a minta nagysága. Feladat (folyt.) • Számolja ki a saját
mintájában az átlag standard hibáját! • A fenti példa mintában a minta szórása 14,38, a minta elemszáma (10). Az én mintám átlagának standard hibája 4,55. Megbízhatósági tartomány A becsült statisztika mintavételi eloszlásának ismeretében meg tudjuk adni, hogy a pontbecsléstől milyen távol kell elmennünk a számegyenesen felfelé, illetve lefelé, ahhoz, hogy a tartomány 95%-os valószínűséggel tartalmazza a becsülni kívánt populációs paramétert. A becsült statisztikák pontosságának a jellemzésére ezt a tartományt, a megbízhatósági (konfidencia) tartományt használjuk. Standard normál eloszlás Megbízhatósági tartomány (folyt.) • Az X%-os megbízhatósági intervallum az a tartomány, amely X%-os biztonsággal tartalmazza becsült populációs paramétert. • Más szavakkal: százszor megismételt vizsgálat esetén X esetben a populációs paraméter a becsült X%-os megbízhatósági intervallumon belül lesz.
Megbízhatósági tartomány (folyt.) • Ebben a szimulációban 150 db vizsgálatot végeztünk egyenként 72 személy bevonásával egy 0,5-es értékű prevalencia becslésére: A megbízhatósági tartomány a mi 9 vizsgálatainkban • Számolja ki az átlag 95%-os megbízhatósági tartományát a saját vizsgálatában: – alsó határ = x – 1,96 × SE – felső határ = x + 1,96 × SE • Az én vizsgálatomban: – alsó határ = 124,2 – 1,96 × 4,55 = 115,1 mmHg – upper border = 124,2 + 1,96 × 4,55 = 132,9 mmHg • Ellenőrizze, hogy a csoportból hány 95%-os megbízhatósági tartomány tartalmazza a populációs paraméter, a 125.3 mmHg-t! Feladat (folyt.) • Ez a száz ember egy különleges csoport: olyanok alkotják, akik tudatosan sószegény diétán élnek. Vizsgálatunk tárgya az, hogy vajon befolyásolja-e ez a vérnyomást. • Kutatási hipotézisünk az, hogy összefüggés van a sóbevitel és a szisztolés vérnyomás között. – Ha
igen, akkor e 100 ember tízfős mintájából becsült átlagos vérnyomás eltérő lesz az általános, a sófogyasztásra nem ügyelő populáció átlagos vérnyomásától. Statisztikai hipotézisvizsgálat • A megfelelő statisztikai nullhipotézis (H0) az, hogy ez az összefüggés nem áll fenn Kutatási hipotézis: Hatás Különbség Kapcsolat Összefüggés Nullhipotézis: Nincs hatás Nincs különbség Nincs kapcsolat Nincs összefüggés Feladat (folyt.) • Az adataink elegendő bizonyítékot szolgáltatnak a nullhipotézis ellen? • Tegyük fel, hogy az általános népesség átlagos szisztolés vérnyomása 135 Hgmm. Az előző mintánál maradva a nullhipotézis szerinti érték (135) és a pontbecslés eredménye között 10,8 Hgmm különbség van. Elég bizonyíték ez nekünk? Feladat (folyt.) • Mi magyarázhatja, hogy ennyire eltér az alacsony sófogyasztásúak mintájában a vérnyomás átlaga a normál populáció átlagától? a)
valóban különbség van a két populáció vérnyomása között b) valójában nincs különbség, de szerencsétlen módon játszott közre a véletlen a minta kiválasztásakor Feladat (folyt.) • Melyik magyarázat az igaz? SOHA NEM FOGJUK MEGTUDNI, HA NEM TELJES POPULÁCIÓKAT VIZSGÁLUNK. • DE! Kiszámolhatjuk, hogy mi a valószínűsége annak, hogy egy ekkora mintából számított átlag ennyire, vagy még jobban eltérjen a 135Hgmmtől akkor, ha a sószegény diétán élők populációjának átlagos vérnyomása nem tér el ettől. A statisztikai hipotézisvizsgálat lépései 1. A pontbecslés kiszámítása 2. Meg kell mérni, hogy a kapott érték mennyire tér el a null-hipotézisben definiált értéktől. Ehhez azonban kell egy méterrúd, ami a standard hiba. Kiszámítjuk, hogy a standard hiba hányszorosa az eltérés. Az így kapott érték a teszt-statisztika aktuális értéke. A példánkban jelöljük a teszt-statisztikát Z-vel. A fenti minta
esetén: Z = 2,37. A statisztikai hipotézisvizsgálat lépései (folyt.) 3. Minél nagyobb Z értékeket kapunk, egyre valószínűtlenebb, hogy azok csupán a véletlen szerepének köszönhetően álltak elő. Annak a valószínűségét kell meghatároznunk, hogy a Z a megfigyelt nagyságú vagy még nagyobb lesz a nullhipotézis fennállása esetén is. Ehhez táblázatokra vagy számítógépes programokra vagyunk utalva. A Z tesztstatisztika mintavételi 4 eloszlása (standard normál eloszlás) • Annak a valószínűsége, hogy a tapasztalt vagy annál nagyobb eltérést kapjunk, akkor ha nincs is a valóságban kapcsolat 0,018 A p-érték • A null-hipotézis elleni bizonyíték erősségének a mutatója. Minél kisebb, annál erősebben mond a vizsgálatunk ellen a null-hipotézisnek. • A szignifikancia szint tetszés szerinti • Kis vizsgálatok ritkán eredményeznek alacsony p-értéket • Nagy vizsgálatokban a null-hipotézisben definiált
értéktől igen kis mértékben eltérő becsült mutató esetén is kicsi lesz a pérték. A p-érték (folyt.) • A p-érték semmit nem mond a kérdéses mutató (statisztika) nagyságáról, ezért a megbízhatósági tartomány sokkal informatívabb!! • Ha az X%-os megbízhatósági tartomány nem tartalmazza a releváns statisztikai próba null-hipotézisében definiált értéket, akkor a próba eredménye legalább 1-X%os szinten szignifikáns. A3 p-érték az Ön vizsgálatában • Számolja ki a teszt-statisztika (Z) értékét a saját vizsgálatában, ne feledje: Z = d / SE(d), • Olvassa le a következő dián lévő ábrákról, hogy milyen tartományba esik a p-érték az Ön vizsgálatában! • Értelmezze az eredményt!