Informatika | Tesztelés, Minőségbiztosítás » Kőhegyi Gergely - A minőségfejlesztés rendszerének kiértékelésére szolgáló értékelési és mérési programok

Alapadatok

Év, oldalszám:2003, 105 oldal

Nyelv:magyar

Letöltések száma:55

Feltöltve:2010. június 22.

Méret:1 MB

Intézmény:
-

Megjegyzés:

Csatolmány:-

Letöltés PDF-ben:Kérlek jelentkezz be!



Értékelések

Nincs még értékelés. Legyél Te az első!


Tartalmi kivonat

Sulinet Expressz informatikai és informatika alapú továbbképzések A minőségfejlesztés rendszerének kiértékelésére szolgáló értékelési és mérési programok, adatelemzési feladatok elvégzése számítógéppel Kőhegyi Gergely Lektorálta: Gáspár Bencéné dr. Vér Katalin Sulinet Expressz, 2003.1212 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Tartalomjegyzék Tartalomjegyzék . 1 1. Bevezetés . 2 1.1 A kurzus célja és tárgya . 2 1.2 Szükséges előtanulmányi ismeretek. 2 1.3 A kurzus felépítése. 2 1.4 Útmutató a tananyaghoz . 3 2. Statisztikai alapfogalmak . 4 2.1 A statisztika fogalma . 4 2.2 A statisztikai egység és a statisztikai sokaság. 4 2.3 Ismérvek és mérési skálák. 6 2.4 Skálatranszformációk. 9 2.5 Gyakorló feladatok . 13 3. A statisztikai tevékenység. 15 3.1 A statisztikai tevékenység fázisai és az adatszerzés . 15 3.2 Az adatszerzés módja. 16 3.3 A kérdőívkészítés alapjai .

18 3.4 Az adatfelvétel típusai . 22 3.5 Az adatfelvétel során elkövethető hibák . 24 3.6 Adathasznosítás. 25 3.7 A statisztikai tevékenység etikai vonatkozásai . 25 3.8 Gyakorló feladatok . 26 4. Statisztikai alapműveletek . 27 4.1 Sokaság nagyságának meghatározása. 27 4.2 Sokaságok rendszerezése. 28 4.3 Sokaságok csoportosítása . 30 4.4 Sokaságok összehasonlítása. 43 5. Elemzés viszonyszámokkal . 44 5.1 Viszonyszámok típusai. 44 5.2 Néhány egyszerű elemzés viszonyszámokkal. 47 6. Gyakorisági sorok elemzése. 50 6.1 Gyakorisági sorok típusai. 50 6.2 Kvantilisek szerepe és meghatározása . 53 6.3 Statisztikai sorok grafikus ábrázolása. 56 6.4 Koncentráció elemzése. 59 7. Sokaságok egy ismérv szerinti vizsgálata . 63 7.1 Sokaságok gyakorisági eloszlásainak jellemzői . 63 7.2 Középértékek . 63 7.3 Szóródási mutatók . 74 7.4 Alakmutatók. 78 8. Sokaságok több ismérv szerinti vizsgálata . 80 8.1 Ismérvek közti kapcsolat .

80 8.2 A kapcsolat szorosságának mérése . 83 8.3 A regressziószámítás alapjai . 94 8.4 Záró megjegyzések az ismérvek közti kapcsolatvizsgálathoz. 101 9. Megoldások. 102 10. Felhasznált és ajánlott irodalom. 104 1 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 1. Bevezetés 1.1 A kurzus célja és tárgya A minőségbiztosítási tevékenység egyik központi feladata a vizsgálat tárgyát képező rendszer állapotának feltárása, amely szükség esetén támpontot jelenthet a rendszer működésébe való beavatkozáshoz. Az ehhez szükséges információk összegyűjtése és feldolgozása rendkívül komplex feladat. A feladat kitűzése gondos tervezést, végrehajtása pedig széleskörű módszertani ismereteket igényel. A szükséges információ, különösen az oktatás területén, többnyire adatok formájában áll rendelkezésre. A megfelelő adatok összegyűjtéséhez, rendszerezéséhez, ábrázolásához és

kitűzött cél szerinti elemzéséhez ad módszereket a statisztika, hatékony eszközöket pedig az informatika. Ennek a kurzusnak elsődleges célja, hogy bevezesse Önt a fenti tevékenységhez szükséges, alapvető statisztikai módszerekbe, valamint a hatékony alkalmazásukhoz szükséges informatikai ismeretekbe. A feladat, így az elemzés céljának kitűzése azonban a minőségbiztosítási irányelveknek megfelelően kell, hogy történjen. A statisztikai, valamint informatikai módszertan alkalmazása tehát a minőségbiztosítási ismeretek figyelembevételével nyer értelmet. 1.2 Szükséges előtanulmányi ismeretek Informatikai ismeretek • • • • MS EXCEL középszintű ismerete MS WORD középszintű ismerete Számítógépes hálózatok ismerete A Windows operációs rendszer ismerete Minőségbiztosítási ismeretek 1.3 A kurzus felépítése A tananyag és a hozzá kapcsolódó kurzus keretében a statisztikai eszköztár ismertetésére és a Ms

Excel programcsomag segítségével való alkalmazására kívánjuk helyezni a hangsúlyt. Először a statisztikai alapfogalmakba vezetjük be az érdeklődőt az első lecke keretében. Ezután a statisztika tevékenység általános jellemzőivel ismerkedhet meg. A harmadik leckében mutatjuk be a legalapvetőbb statisztikai műveleteket és azok számítógépes végrehajtását. A negyedik leckében a gyakran használt viszonyszámok meghatározásának módját és elemzési technikáit ismertetjük. Az ötödik lecke a gyakorisági sorok elemzési technikáit és azok számítógépes alkalmazását mutatja be. A hatodik lecke a statisztikai sokaságok egy ismérv szerinti vizsgálati módszereit hivatott bemutatni, annak számítógépes alkalmazásait is figyelembe-véve. A hetedik fejezet az ismérvek közti kapcsolatvizsgálatba vezeti be az érdeklődőt. A kurzus a statisztikai eszköztárnak csupán a legalapvetőbb részét mutatja be, de további problémák, elemzési

módszerek és számítógépes alkalmazások találhatók a felhasznált és ajánlott irodalomban, amelyet a fogalmak illusztrálásához és a példák nagy részének összeállításához mi is nagy mértékben felhasználtunk. 2 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 1.4 Útmutató a tananyaghoz A tananyag hét leckére tagolódik, amelyek hét nagy gondolati egységet ölelnek fel. A leckék eltérő hosszúságúak és eltérő nehézségűek, így elsajátításuk nem ugyanannyi időt vesz igénybe. A leckék minden esetben több részre tagolódnak. Az elméleti fogalmakat minden esetben igyekeztünk dőlt félkövér betűkkel kiemelni és példákkal illusztrálni, amelyeket a főszövegből eltérő színnel emeltünk ki. A példák egy része a fogalmak magyarázatát nyújtja, egy részük pedig a számítógépes alkalmazásokat mutatja be, amelyeket a gyakorlás kedvéért célszerű önállóan is megoldani. Ezt minden

esetben a feladathoz tartozó linkre való kattintással tehetjük meg (pl.: statf0xls), akár a szöveg olvasása közben, amelynek hatására egy szabadon kezelhető Excel-fájl jelenik meg. A feladat és a megoldás minden esetben azonos munkafüzetben, de külön munkalapon látható. Ha a saját megoldását szeretné megőrizni, akkor a Fájl/mentés másként menüpont választása segítségével mentheti el a feladatot tartalmazó fájlt saját adathordozójára. Javasoljuk, hogy a feladatokat a fogalmak és technikák jobb elsajátítása érdekében minden esetben oldja meg. Bizonyos esetekben a leckék végén találhatók gyakorló feladatok, amelyekhez néhány megoldás a Megoldások részben található. A gyakorlás érdekében célszerű ezeket is megoldani. 3 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 2. Statisztikai alapfogalmak 2.1 A statisztika fogalma Statisztikáról legalább háromféle értelemben beszélhetünk. A

„statisztika” jelentheti egyrészt olyan adatok összességét, amelyek hűen leírnak, illetve jellemeznek valamilyen jelenséget. Az emberek döntő része ebben az értelemben használja, de jelentheti az adatok megszerzésére és feldolgozására irányuló gyakorlati tevékenységet és tudományos módszertant is egyaránt. Tekintsünk most néhány példát olyan szakmai kérdésre, amelyek eldöntése statisztikai elemzést igényel: • • • • • Az a tény, hogy egy középiskolában növekszik a felsőoktatási intézményekbe felvettek száma, az oktatás színvonal-javulásának, a diákok erősebb motivációjának, néhány tanár kiemelkedő munkájának, vagy egészen más tényezőknek köszönhető? Két pedagógiai módszer közül melyik hatékonyabb a tananyag elsajátításának elősegítésében? Az igazolatlan hiányzások egyenletesen oszlanak el az osztályok között, vagy egyes, osztályokra/tanulókra/tanárokra koncentrálódnak?

Csökkenti-e a drogprevenció a kábítószereket kipróbáló diákok számát? A sikeres nyelvvizsgát tett diákok számának növekedésében szerepet játszotte egy új tankönyv bevezetése, esetleg egy új tanár felvétele? 2.2 A statisztikai egység és a statisztikai sokaság A statisztikai vizsgálat tervezésekor elkerülhetetlen a vizsgálat tárgyát képező, azaz az információt hordozó egyedek azonosítása. Ezeket összefoglalóan statisztikai, vagy megfigyelési egységeknek nevezzük. A statisztikai egységek kijelölése, meghatározása mindig függ a vizsgálat céljától, azonban a meghatározásnak mindig három definíciós feltétel alapján kell történnie: • Tárgyi feltétel • Időbeli feltétel • Területi feltétel Az iskolában egy egészségvédelmi felmérést végzünk, amelynek során a diákok szervezetének ólomtartalmát vizsgáljuk annak meghatározása céljából, hogy a nagy gépkocsiforgalom okozta környezetszennyezés

károsító hatását mennyire befolyásolja az iskola földrajzi elhelyezkedése. Ebben az esetben a statisztikai egységek körülhatárolásának tárgyi feltétele lehet, hogy az illető diák az iskola tanulója legyen; időbeli feltétele lehet egy konkrét tanítási nap kijelölése; területi feltétele pedig lehet az iskola épületének kijelölése. A fenti három kritérium együtt egyértelműen kijelöli a vizsgálatban résztvevő statisztikai egységeket. Csak azok a diákok fognak részt venni az adatszerzés alapjául szolgáló orvosi vizsgálaton, akik a kijelölt napon az iskola tanulói és az iskola épületében tartózkodnak. Ekkor tehát nem vesznek részt a vizsgálaton azok a diákok, akik betegség, magántanulói státusz, stb. miatt nem tartózkodnak az iskola épületében, de azok a diákok sem, akik adminisztrációs, vagy egyéb okból az iskola épületében tartózkodnak, azonban tanulói jogviszonyuk a felmérés napját megelőző napon

megszűnt. Természetesen másféle körülhatárolást is alkalmazhattunk volna, azaz a három feltételt másképpen 4 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 is meghatározhattuk volna a vizsgálat céljának megfelelően, ekkor esetlegesen az imént kizárt diákok részvételét is biztosítani kellett volna az orvosi vizsgálaton. A megfelelően körülhatárolt statisztikai egységek összességét statisztikai sokaságnak nevezzük. A statisztikai elemzés célja minden esetben a statisztikai sokaság egy részéről, vagy egészéről, különböző megállapítások megfogalmazása, amelyek csak további módszertani elvek figyelembevételével, korlátozott feltételek között általánosíthatók. A statisztikai sokaságok többféle szempont szerint csoportosíthatók: 1. csoportosítási szempont • Álló sokaság: Hosszabb időn keresztül állandóságot mutat, valamilyen állapotot fejez ki, így mindig adott időpontban

figyelhető meg. • Mozgó sokaság: Időben változik, valamilyen folyamatot érzékeltet, így mindig adott időintervallum alatt figyelhető meg. Álló sokaság: Magyarországon a tanköteles korú gyerekek száma 2003. január 1-én Mozgó sokaság: Magyarországon a hatodik életévét betöltő gyerekek száma a 2003 év folyamán (január 1. december 31) 2. csoportosítási szempont • Diszkrét sokaság: Egymástól jól elkülöníthető egységekből áll. • Folytonos sokaság: Egymástól csak önkényesen elkülöníthető egységekből áll. Diszkrét sokaság: Egy adott tanévben egy adott iskolával tanulói jogviszonyban álló diákok száma. Folytonos sokaság: Egy adott iskola dolgozói és tanulói által fogyasztott ivóvíz mennyisége. 3. csoportosítási szempont • Valós sokaság: Egy adott időpontban és helyen valóságosan létező egységekből áll. • Fiktív sokaság: Egy adott időpontban és helyen elképzelt egységekből áll. Valós

sokaság: Egy adott gimnáziumban a 2003 év során sikeres érettségi vizsgát tett diákok száma. Fiktív sokaság: Egy adott gimnáziumba a következő tanévben felvételizők száma. Egy konkrét statisztikai sokaság besorolása a fenti osztályozási szempontok szerint kulcsfontosságú lehet az elemzés szempontjából, mivel csak bizonyos szempontok alapján azonos csoportba tartozó sokaságok hasonlíthatók össze. Némely mozgó és álló sokaságok gyakran összefüggenek, mivel egy mozgó sokaság be és kimenete állósokaság. Az ilyen módon összetartozó sokaságokat összekapcsolt sokaságoknak nevezzük. Kezdeti álló sokaság: - 2003 szeptember 1-én egy adott iskolával tanulói jogviszonyban állók száma. 5 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Kapcsolódó mozgó sokaságok: - A 2003/2004 tanév őszi félévében az iskolából valamilyen okból elbocsátott diákok száma. - A 2003/2004 tanév őszi

félévében az iskolából valamilyen okból más iskolákból átvett diákok száma. Végső álló sokaság: - 2004 február 1-én egy adott iskolával tanulói jogviszonyban állók száma. (ha más változás nem történt). Egy sokaságnak a kapcsolódó mozgó, illetve álló sokaságokkal történő kiegészítését továbbvezetésnek nevezzük. Az előző példában ha ismerjük a 2003 szeptember 1-én egy adott iskolával tanulói jogviszonyban állók számát, valamint a 2003/2004 tanév őszi félévében az iskolából valamilyen okból elbocsátott diákok számát, illetve a 2003/2004 tanév őszi félévében az iskolából valamilyen okból más iskolákból átvett diákok számát, akkor a 2004 február 1-én egy adott iskolával tanulói jogviszonyban állók számát egyszerűbb meghatároznunk továbbvezetéssel, mintha a teljes sokaságot újra felmérjük (ha más változás nem történt). Bizonyos esetekben azonban nem ilyen egyértelmű a döntés a két

módszer között. 2.3 Ismérvek és mérési skálák A statisztikai egységeknek valamely, a vizsgálat szempontjából fontos tulajdonságtípusát ismérvnek nevezzük. Az ismérv tehát egy olyan vizsgálati szempontot jelent, amely alapján a vizsgált sokaság egymást át nem fedő részekre bontható. Az egymást át nem fedő részsokaságokat különböző konkrét tulajdonságok jellemzik, ezek az ismérvek által felvehető lehetséges „értékek”, amelyeket összefoglalóan ismérvváltozatoknak nevezünk. Sokaság: Egy konkrét iskola tanulói a 2002/2003-as tanévben Ismérvek: a) b) c) d) e) f) g) Ismérvváltozatok: b) c) d) e) f) g) Életkor (év) Nem Születési hely (helység) Év végi biológia osztályzat Testsúly (kg) Testvérek száma (fő) C típusú nyelvvizsga (fok) a) 5; 6; 7; 8; 9; Férfi; Nő Budapest; Győr; Nyíregyháza; Szeged; Elégtelen; elégséges; közepes; jó; jeles 20; 20,4; 20,6; 22,5; 23; 0; 1; 2; 3; Nincs; Alapfokú,

Középfokú, Felsőfokú Látható, hogy a fenti példában alkalmazott ismérvek nem ugyanolyan jellegű információt hordoznak. A testsúly, az életkor illetve testvérek száma ismérvek ismérvváltozatai konkrét számértékek, amelyekkel akár műveleteket is végezhetünk például annak megállapítására, hogy a tanuló hány éves lesz négy év múlva, vagy 6 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 átlagosan hány testvére van az iskola tanulóinak. Ezzel szemben a nyelvvizsga foka, valamint a biológia osztályzat, olyan ismérvek, amelyek ismérvváltozatai nem számértékek, de mégis fennáll valamiféle hierarchia az ismérvváltozatok között, hiszen tudjuk, hogy a jeles jobb, mint a közepes, és a középfokú nyelvtudás magasabb szintű, mint az alapfokú. A nem, illetve a születési hely esetében azonban az ismérvváltozatok egyrészt nem számértékek, másrészt nem áll fenn semmiféle hierarchia sem az

egyes ismérvváltozatok között, hiszen nem dönthető el, hogy Győrben, vagy Szegeden születni jobb, vagy rosszabb, mint Budapesten, és az sem egyértelműen eldönthető, hogy nőnek, vagy férfinek lenni jobb. Ezenkívül a nem ismérvnek csak két ismérvváltozata lehet, míg a születési helynek jóval több, a testvérek száma ismérv ismérvváltozatai csak egész számok lehetnek, míg a testsúly és az életkor elvileg bármilyen valós számértéket felvehet. Összefoglalva tehát azt mondhatjuk, hogy mivel a statisztikai egységek tulajdonságainak észlelése és rögzítése adat formájában valamiféle mérésnek tekinthető, a különböző ismérveknek más-más mérhetőségi tulajdonságaik vannak. Mindez jelentősen befolyásolhatja a statisztikai vizsgálatot. Az ismérvek mérhetőségi tulajdonságainak egyik jellemzője, hozzájuk tartozó mérési szint, vagy mérési skála. A legegyszerűbb, így a legkevésbé informatív mérési szintet a

névleges, vagy nominális skála jellemzi. Ez a mérési skála csak az egyes statisztikai egységekhez rendelt ismérvváltozatok egyezőségét, vagy különbözőségét engedi meg tényleges tulajdonságként elfogadni, azonban semmiféle rangsor nem állítható fel az ismérvváltozatokkal jellemzett statisztikai egységek között. A nominális skálán mérhető ismérveket általában minőségi ismérveknek nevezzük. Nominális skálán mérhető minőségi ismérvekre példák: • Nem • Családi állapot • Vallás • Foglakozás • Lakóhely A mérési szintek esetében a következő fokozatot a sorrendi, vagy ordinális skála jelenti. Ordinális skálán mérhető ismérv esetén már nemcsak az ismérvváltozatok egyezősége, vagy különbözősége fontos, hanem azok sorrendisége is, amely a statisztikai egységek között fennálló viszonyokat tükrözi. Ebben az esetben az ismérvváltozatok között egyfajta természetes hierarchia áll fenn, amely

többletinformációt jelent a nominális skála információtartalmához képest. Az ordinális skálán mérhető ismérveket általában intenzitási ismérveknek nevezzük. Ordinális skálán mérhető intenzitási ismérvekre példák: • Osztályzatok: Jeles; jó; közepes; elégséges; elégtelen • Vendéglátóipari egységek minősítése: I. kategória; II kategória; stb. • Szállodák, diákszállók minősítése: *; ; ; ; • Sportversenyen elért helyezések: 1. helyezett; 2 helyezett; stb • Iskolai végzettség: Alapfokú; Középfokú; Felsőfokú 7 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Az ordinális skála esetében meg kell jegyeznünk, hogy az ismérvváltozatok sorrendjére vonatkozóan valódi információval rendelkezünk ugyan, de az egyes ismérvváltozatok közti különbségek nem értelmezhetők. Egy sportverseny versenyzői esetében nem mondhatjuk azt, hogy az 1. helyezett pont annyival jobb a 2

helyezettnél, mint amennyivel a 2. helyezett a 3 helyezettnél, és azt sem mondhatjuk, hogy a közepes osztályzat pont annyival jobb tanulmányi eredményt tükröz az elégségesnél, mint az elégséges az elégtelennél (hiszen az elégséges osztályzat megszerzéséhez egy dolgozat esetében gyakran az összpontszám 50%nak megszerzése szükséges, míg a közepeshez nem szükséges 100%). Mindebből az következik, hogy az ordinális skálán mért ismérvek ismérvváltozatait nem kezelhetjük számértékekként, így műveleteket sem végezhetünk velük, hiszen értelmezhetetlen lenne az a kijelentés, hogy „egy városban a szállodák átlagos minősítése: *”, vagy „A versenyző összesen 11 helyezést ért el, hiszen háromszoros 3. helyezett és kétszeres 1 helyezett”, vagy „Mivel a csoportban két középfokú és két alapfokú végzettségű munkatárs van, ezért egyenértékű egy olyan csoporttal, amelyben két felsőfokú végzettségű munkatárs

van, hiszen alapfok+középfok=felsőfok”. Felhívjuk a figyelmet arra, hogy az átlagos osztályzat kiszámítása, elvileg ugyanolyan helytelen, mint például az átlagos vendéglátóipari kategóriáé, azonban a gyakorlatban rendkívül gyakran használják ezt az eszközét az információ-sűrítésnek, így most már olyan széleskörű társadalmi konszenzus alakult ki ebben a kérdésben, hogy bizonyos esetekben valóban összehasonlítási adatként használható. Ahhoz, hogy az ismérvváltozatokat valódi számértékként kezelhessük és valódi műveleteket végezhessünk rajtuk, magasabb mérési szintre van szükség. Azt a mérési szintet, ahol nemcsak az ismérvváltozatok egyezősége, vagy különbözősége, illetve azok sorrendje számít, hanem az ismérvváltozatok közti különbségek is értelmezhetők, kardinális, vagy metrikus skálának nevezzük. A metrikus skálán mérhető ismérvek összefoglaló neve: mennyiségi ismérv. Metrikus skálán

mérhető mennyiségi ismérvekre példák: • • • • • • Hőmérséklet Munkában töltött évek száma Betegállományban töltött napok száma Igazolatlan hiányzások száma Testmagasság Földrajzi hosszúsági fokok Látható, hogy a legkevesebb információt a statisztikai egységekről a nominális skálán mért ismérvek, míg a legtöbb információt a metrikus skálán mért ismérvek hordozzák, ezért a különböző skálák a mérési szintek egyes fokozatait jelentik. Ilyen értelemben a legmagasabb mérési szintet a metrikus-, a legalcsonyabb mérési szintet a nominális skála képviseli. A statisztikai vizsgálatok során kitüntetett szerepet játszanak azok a minőségi ismérvek, amelyeknek csak két ismérvváltozatuk van, így a nominális skálán csak két értéket vehetnek fel. Ezeket összefoglalóan alternatív ismérveknek nevezzük Példák alternatív ismérvekre: 8 Sulinet Expressz adatelemzési feladatok elvégzése

számítógéppel 2003 • Nem: Férfi; Nő • Munkanélküliség: Munkanélküli; Nem munkanélküli • Nyudíjas: Igen; Nem A mennyiségi ismérvek esetében is további különbséget kell tennünk. Azokat az ismérveket, amelyek ismérvváltozatai a metrikus skálán csak különálló számértékeket vehetnek fel diszkrét ismérveknek, azokat amelyek egy adott tartományon belül minden lehetséges értéket felvehetnek folytonos ismérveknek nevezzük. Példák diszkrét és folytonos ismérvekre: • • • • Gyermekek száma (diszkrét) Testmagasság (folytonos) Életkor (folytonos) Iskolai balesetek száma (diszkrét) Az egyes ismérvekhez tartozó mérési skála meghatározása rendkívül fontos, mivel különböző mérési skálák másféle elemzést tesznek lehetővé, így behatárolják az elemzéshez használható eszköztárat is. A fenti felosztások több szinten tovább finomíthatók, azonban ezzel a továbbiakban nem foglakozunk. A következő

táblázat az ismérvek és mérési skálák összefoglalását tartalmazza: Mérési skála Nominális Ordinális Metrikus Ismérv Minőségi Intenzitási Mennyiségi További lehetséges alcsoportok Alternatív Nem alternatív Diszkrét Folytonos 2.4 Skálatranszformációk Az adatok felvétele, előkészítése és elemzése során gyakran hasznos lehet, ha a különböző ismérvváltozatokhoz, amelyek egy-egy mérési skála konkrét értékeiként jelennek meg, más értékeket rendelünk hozzá, a könnyebb kezelhetőség, így a további vizsgálat megkönnyítése érdekében. Persze fontos követelmény egy ilyen eljárás végrehajtásakor, hogy az eredeti skála tulajdonságai változatlanok maradjanak és ne történjen információ torzulás. A fenti eljárást nevezzük skálatranszformációnak. A nominális skálán mérhető ismérvek esetében mindössze annyi szükséges, hogy a skálatranszformáció egyértelmű legyen, azaz az eredeti skála egyes

értékeihez a transzformált skála értékei közül pontosan egy érték tartozzon. A Nem ismérv, amely nominális skálán mérhető a férfi és nő értékeket veheti fel. Célszerű lehet azonban a két értéket az adatfelvétel és adatelemzés során például a 0 és 1 értékekkel helyettesíteni. Az egyértelműség feltétel teljesül, ha következetesen például a férfi érték esetén csakis 0 értéket, a nő érték esetén csakis 1 értéket írunk. Természetesen fordítva is eljárhattunk volna, azaz úgy, hogy a nő értékhez rendeljük a 0 és a férfi értékhez az 1 értéket, sőt a 0 és 1 helyett x és y értékeket is használhattunk volna, a lényeg csak az, hogy a vizsgálat során tartsuk magunkat a vizsgálat elején lerögzített konvencióhoz. 9 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Nem ismérv Eredeti skála Transzformált skála Férfi 0 Nő 1 A születési hely ismérv esetén is praktikus megoldás

lehet, ha például az egyes helységnevekhez számkódokat rendelünk. Ekkor semmiféle megkötés nincs arra nézve, hogy melyik városhoz melyik kódot rendeljük: Születési hely ismérv Eredeti skála Transzformált skála Budapest 01 Pécel 02 Győr 03 Pécs 04 Ordinális skálán mért ismérveknél végrehajtandó skálatranszformáció esetén az egyértelműség mellett meg kell követelnünk a monotonitást. Mindez azt jelenti, hogy ha az eredeti skála hierarchiája szerint egy érték feljebb helyezkedik el, mint egy másik érték, akkor a transzformált skála hierarchiája szerint is feljebb helyezkedjen el a hozzá tartozó érték, mint a másik transzformáltjához tartozó érték. Ha a nyelvvizsga foka a vizsgálni kívánt ismérv és az Alapfokú, Középfokú, Felsőfokú ismérvváltozatokhoz három számértéket kívánunk megfeleltetni, akkor nem rendelhetjük hozzájuk például rendre a 0, 2, 1 értékeket, mert a számok hierarchiájában a 2 érték

az 1 érték felett áll, míg a nyelvvizsga fokok hierarchiájában az 1 értékhez tartozó felsőfok áll a 2 értékhez tartozó középfok felett. A helyes sorrend természetesen 0, 1, 2, azonban a megfelelő értékek kijelölése nem mindig ilyen egyértelmű: Nyelvvizsga foka ismérv Hierarchia irány Eredeti skála Transzformált skála Alapfokú 0 ↓ Középfokú 1 ↓ Felsőfokú 2 ↓ Ordinális skála transzformációjára a legtípikusabb példa az iskolai osztályzatok számok formájában való megjelenítése: Hierarchia irány ↓ ↓ ↓ ↓ ↓ Osztályzat ismérv Eredeti skála Transzformált skála Elégtelen 1 Elégséges 2 Közepes 3 Jó 4 Jeles 5 10 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A metrikus skálán mért ismérvek skálatranszformációja esetén az egyértelműség és a monotonitás mellett meg kell követelnünk azt, hogy az értékek közti különbségek hierarchiája azonos maradjon. Ennek

legegyszerűbb módja, ha a transzformáció linearitását követeljük meg. Mindez azt jelenti, hogy ha x jelöli az eredeti skálán mért értéket, y pedig a transzformált skálán mért értéket, akkor a transzformáció az y=ax+b lineáris egyenlet szerint kell hogy történjen, ahol a és b valós számok. Ha például y jelöli az átlagkeresetet €-ban, x pedig Ft-ban, akkor az átlagkereset Ftban mért értéke €-ra transzformálható az y=ax+b egyenlet segítségével, amennyiben a jelöli a valutaárfolyamot, b értéke pedig zérus. Az angolszász mértékegységek (pl.: yard és láb) szintén lineáris transzformáció segítségével számíthatók át SI mértékegységekre (pl.: cm) Látható, hogy skálatranszformáció során gyakran nominális, vagy ordinális skálaértékeknek számokat feleltetünk meg. Ekkor a transzformált skála tulajdonképpen egy ál-metrikus skála, mivel a számértékekkel végzett műveletek értelmetlenek. Fontos tehát

mindvégig szem előtt tartani az eredeti skála tulajdonságait. A vizsgálat végén gyakran fordított irányú transzformációt kell végeznünk azért, hogy az eredmény értelmezhető legyen. A nemzetiség ismérv nominális skálán mérhető minőségi ismérv. Ha a különböző ismérvváltozatokat a következőképpen transzformáljuk: 1=magyar, 2=román, 3=német, 4=roma, 5=szlovák; és egy felmérés során a következő nemzetiségű embereket regisztráljuk: 1,1,1,2,2,4,4,5,5,5. Ekkor nem mondhatjuk sem azt, hogy „az átlagos nemzetiség a német”, sem azt, hogy bármiféle hierarchia áll fenn a nemzetiségek között, miközben a számok között fennáll egyfajta természetes hierarchia. A következő ábrán összefoglaltuk, hogy az egyes skálákon végzett transzformációkkal szemben milyen követelményeket támasztunk: Transzformációs követelmény Mérési skála Egyértelműség Nominális skála Monotonitás Ordinális skála Linearitás

Metrikus skála A következőkben nézzünk néhány példát arra, hogyan is végezhető el MS Excel segítségével a skálatranszformáció Excel-táblában rögzített adatok esetén. Tegyük fel, hogy egy iskolák közötti tanulmányi versenyre egyaránt érkeztek magyar állampolgárok és külföldiek. Az adatrögzítés megkönnyítése végett a magyar állampolgárokat 1 értékkel, a külföldieket 2 értékkel jelölték. Transzformáljuk a rögzített adatokat az eredeti skálaértékeknek megfelelően. Ehhez, mivel alternatív ismérvről van szó, használhatjuk a HA függvényt. A következő ábrán láthatók a 11 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 rögzített és transzformált adatok, a szerkesztőlécben pedig látható a függvény konkrét alakja. Mivel a képletet oszlop szerint másolni célszerű, ezért relatív hivatkozást használtunk: 12 Sulinet Expressz adatelemzési feladatok elvégzése

számítógéppel 2003 Tegyük most fel, hogy a tanulmányi versenyen a résztvevők állandó lakóhelyét (helységnév) betű és szám kombinációból álló kóddal jelölték. Transzformáljuk ismét a rögzített értékeket az eredeti skála értékeire. Ehhez az egyes kód értékekhez tartozó helységnevek egy segédtáblázatban adottak. Mivel az ismérv most kettőnél több értéket is felvehet, ezért a HA függvény helyett, az FKERES függvényt célszerű alkalmazni. A következő ábrán láthatók a rögzített és transzformált adatok, a szerkesztőlécen pedig látható a függvény konkrét alakja Mivel a képletet oszlop szerint másolni célszerű, ezért relatív hivatkozást használtunk a keresési érték megjelölésénél, azonban abszolút hivatkozást a tábla megjelölésénél. Az oszlopszám 2, mivel a segédtábla második oszlopában szerepelnek a városok nevei, azaz a kívánt eredmény értékek, a negyedik paramétere a függvénynek pedig

HAMIS, mivel pontos és nem közelítő értéket keresünk a függvénnyel: 2.5 Gyakorló feladatok 2.1 Felmérést készít a második osztályosok olvasási készségéről Azonosítsa a statisztikai egységeket a három definíciós feltétel szerint. 2.2 Állapítsa meg, hogy a következő esetekben milyen sokaságról van szó az egyes osztályozási szempontok szerint. Sokaság 1. 2. 3. szempont szempont szempont Egy iskola által beszerzett oktatási segédeszközök összértéke 2003ban. Egy iskola jövő évi várható villamosenergia fogyasztása 2002-ben a cserére szoruló tanulói székek száma 2003 jan. 1-én az iskola által birtokolt számítógépek száma 2.3 Felmérést készít egy adott oktatási intézményben az iskolai idegen nyelvoktatás hatékonyságáról. Tegyük fel, hogy ezt az iskolai évek alatt sikeres nyelvvizsgát tett diákok számával kívánja jellemezni. Azonosítsa a statisztikai egységeket a három definíciós feltétel szerint. Az

egyes osztályozási szempontok szerint milyen statisztikai sokaságot alkotnak? Ha szeretné meghatározni azoknak a diákoknak 13 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 a számát, akik jelenleg az iskola tanulói és az elmúlt tanév végén nyelvvizsgával rendelkeztek, akkor milyen továbbvezetést alkalmazna, milyen kapcsolódó sokaságokkal? 2.4 Állapítsuk meg a következő ismérvek lehetséges ismérvváltozatait: Intelligencia-hányados Büntetett előélet Eltartó neve Havi átlagkereset Pulzusszám 10 perc futás után Naponta átlagosan fogyasztott folyadékmennyiség Egyetemi oktatói beosztás Érettségi osztályzat 2.5 A 14 gyakorló feladat, valamint a 3 szakasz a)-g) példáiról állapítsuk meg, hogy milyen típusú ismérvek és milyen skálán mérhetők. 2.6 Döntsük el, hogy a 14 feladat és a 3 szakasz a)-g) ismérvek skáláinak transzformációi milyen követelményeket kell, hogy teljesítsenek. 2.7 Ha egy

konkrét iskola tíz és tizennégy év közötti életkorú diákok táplálkozási szokásait szeretnénk jellemezni, akkor a felmérés készítéséhez milyen ismérveket választanánk? Állapítsuk meg, hogy ekkor mik lehetnek az egyes ismérvek ismérvváltozatai, valamint, hogy milyen típusú ismérvekről van szó és azok milyen skálán mérhetők, valamint, hogy milyen transzformációs kritériumoknak kell eleget tenniük? 2.8 Végezzük el Ms Excelben a bemutatott példákon a skálatranszformációkat (statf1.xls, statf2xls) 2.9 Egy iskolai felmérés során rögzítették a szülők nemét és iskolai végzettségét Az adatrögzítés egyszerűsítése végett a következő skálatranszformációt alkalmazták: Nem: Férfi=0, Nő=1; Iskolai végzettség: Alapfokú=A, Középfokú=K, Felsőfokú=F. Végezzük el az adatok eredeti skálaértékekre való transzformálását, ha a rögzítet adatok a következő tábla szerint adottak: statf3.xls 14 Sulinet Expressz

adatelemzési feladatok elvégzése számítógéppel 2003 3. A statisztikai tevékenység 3.1 A statisztikai tevékenység fázisai és az adatszerzés Minden általános statisztikai vizsgálat, azaz maga a statisztikai tevékenység két fázisból áll: • Adatszerzés • Adathasznosítás Az első fázis, az adatszerzés tulajdonképpen azt a kérdést hivatott tisztázni, hogy honnan és hogyan jutunk hozzá az elemzésünk alapjául szolgáló adatokhoz. Az adatszerzés folyamata három részből áll, amelyek mind részletes tervezést és dokumentálást igényelnek, ellenkező esetben további elemzésre alkalmatlan adatokhoz és/vagy téves következtetésekre Adatszerzésijuthatunk: folyamat Adatfelvétel Adatrögzítés Adattárolás Az adatfelvétel tekinthető a legkomplexebb feladatnak. Rendkívül fontos, hogy a statisztikai tevékenység megkezdése előtt pontosan körülhatároljuk a vizsgálandó statisztikai sokaságot, meghatározzuk annak jellemzőit,

ezenkívül körülhatároljuk az egyes ismérveket, illetve tisztázzuk azok mérhetőségi és transzformálhatósági tulajdonságait, mivel már az adatfelvétel folyamatát ezek jelentősen befolyásolhatják. Az adatfelvétel módjának megválasztásakor több szempontot kell mérlegelnünk. Ezek egy része a vizsgálat hatékonyságára és költségeire vonatkoznak, amelyek józan határok között befolyásolhatók, azonban egy részük a vizsgálat jellege által adottnak tekinthető. Ha egy konkrét iskola diákjainak egészségi állapotát szeretnénk felmérni egy adott időpontban, akkor a szokásos orvosi rutinvizsgálatok elvégzésénél és eredményeinek regisztrálásánál nyilván hatékonyabb lenne minden tanuló esetében egy teljes belgyógyászati kivizsgálást végeztetni és annak eredményeit feljegyezni, azonban a második megoldás olyan magas költségekkel járna, hogy kétségessé válik érdemes-e elvégezni. Ráadásul alapvetően egészséges

gyerekek esetében nem valószínű, hogy a teljes belgyógyászati vizsgálat által szerzett többletinformáció arányban állna a vizsgálat költségeivel. Ha az iskolapadok teherbírását kívánjuk tesztelni, nyilván nem célszerű az összes padot törőpróbának alávetni, mivel ez a költségeken kívül a vizsgálat tárgyának megsemmisüléséhez vezetne. Ha egy konkrét iskolában azt kívánjuk vizsgálni, hogy a székek minősége befolyásolja-e gerincproblémák kialakulását, akkor nyilván etikai szempontból kifogásolható lenne, ha a gyerekeket különböző, akár a feltétlenül szükségesnél rosszabb minőségű székekre ültetve, évek múlva megállapítanánk a gerinckárosodás mértékét a különböző széktípusok esetén. 15 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ha az adatfelvétel módját a szempontoknak megfelelően kiválasztottuk, a módszernek megfelelően előkészíthetjük, majd

lefolytathatjuk az adatfelvételt, minden részletet szigorúan dokumentálva, hogy a vizsgálat minden lépése rekonstruálható legyen. Az adatrögzítés folyamata az adatfelvételnél kevesebb szakértelmet igényel, ha a feladatokat előzőleg pontosan definiáltuk. A rögzítés bizonyos esetekben (például méréseknél) közvetlenül gépesíthető, sokszor azonban emberi közreműködést igényel. Ebben az esetben ügyelni kell a megfelelő ergonómiai elvek figyelembevételére, hogy minél kevesebb hibázás, azaz adattorzulás következzen be. Az adattárolás manapság célszerűen valamilyen elektronikus adathordozón, számítógépes háttértár segítségével történik, amely a későbbi informatikai eszközökkel támogatott elemzés szempontjából is előnyösebb. Az adattárolás során ügyelni kell arra, hogy a tárolt adatok változatlan formában későbbi vizsgálatokra alkalmasak és hozzáférhetők legyenek, persze a megfelelő biztonsági és

adatvédelmi előírások figyelembevételével. 3.2 Az adatszerzés módja Az adatszerzés történhet valamilyen másodlagos adatforrás felhasználásával, de történhet közvetlenül statisztikai felmérések/mérések által is. Tekintsük először az első esetet, amikor korábban felvett adatokat és/vagy elemzéseket kívánunk felhasználni. Ekkor, ha nem állnak közvetlenül rendelkezésünkre a megfelelő adatok egyéb adatforrásokhoz kell nyúlnunk. Szinte minden hivatalos intézmény gyűjt adatokat, illetve készít különböző statisztikákat. Ebbe beletartoznak az iskolák, közigazgatási intézmények, vállalatok, stb. Ezeknek az adatoknak egy része nyilvános és gyakran az Interneten is elérhető Ezenkívül Magyarországon is működik hivatalos statisztikai szolgálat, amelynek működése törvényi szabályozás alá esik. A legfőbb adatszolgáltató szerv, a Központi Statisztikai Hivatal, amely különböző, rendszeresen megjelenő statisztikai

kiadványokat készít. Ezek közül a legfontosabb a Magyar Statisztikai Évkönyv, valamint ennek tömörített változata, a Magyar Statisztikai Zsebkönyv. A kiadványokon kívül sok hasznos információ található még az intézmény honlapján (www.KSHhu) A KSH mellett szintén adatszolgáltató szervként működnek a Minisztériumok, a Legfelsőbb Bíróság, a Legfelsőbb Ügyészség, a Magyar Nemzeti Bank, a Gazdasági Versenyhivatal, az Országos Műszaki Fejlesztési Bizottság, valamint az Országos Testnevelési és Sporthivatal. Nemzetközi összehasonlításokhoz szükséges adatokhoz leginkább az ENSZ által készített Statisztikai Évkönyv, az UNESCO Statisztikai Évkönyv, illetve az Internet felhasználásával juthatunk. A második esetben, ha az adatokat közvetlenül akarjuk beszerezni, valamilyen adatfelvételi eljárást kell alkalmaznunk, amelynek megválasztása erősen függhet a vizsgálat céljától és egyéb körülményektől. Tekintsük végig

röviden, hogy az adatfelvételnek milyen módozatai lehetségesek. a) Kontrollált kísérlet Az adatszerzésnek ez a módja főleg természettudományokkal kapcsolatos, illetve pszichológiai vizsgálatokban gyakori. Sok más esetben azonban ez a módszer szigorú feltételei és sajátosságai miatt nem alkalmazható. A módszer lényegi összetevője, hogy a megfigyelni kívánt jelenséget befolyásoló körülményeket valamilyen módon ellenőrzésünk alatt tartjuk. Természetesen ügyelni kell arra, hogy 16 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 a kísérlet során a rendszerbe való beavatkozás ne változtassa meg a rendszer eredeti tulajdonságait. Ha egy szobai hőmérővel kívánjuk megmérni egy cm3 víz hőmérsékletét, akkor nagy valószínűséggel a mérés eredményét a hőmérő hőmérséklete is befolyásolni fogja a víz kis tömege miatt, és a víz eredetileg megmérni kívánt hőmérséklete megváltozik. Egy

sokkoló jellegű pszichológiai, vagy orvos-biológiai kísérlet elvégzésekor ügyelni kell arra, hogy a kísérleti személyek ne szenvedjenek sem pszichés, sem egészségügyi károsodást. Különösen a pszichológiai jellegű kísérletek esetében fontos a kontrollcsoport használata. A kontroll-csoport a vizsgált személyeknek olyan csoportja, amely nem rendelkezik a vizsgálat elsődleges tárgyát képező tulajdonságokkal, vagy nem részesült a vizsgálathoz szükséges „kezelésben”. Kontroll-csoport használatára az összehasonlítás objektivitásának megőrzése érdekében van szükség. Ha az a feltételezésünk, hogy az iskolán belül az egyik osztály tanulóinak valamilyen okból (például pedagógiai hiba, vagy enyhe értelmi fogyatékosság miatt) rosszabb az olvasási készségük, akkor ennek felmérése mellett meg kell vizsgálnunk, például egy másik (másik pedagógushoz tartozó, vagy nem értelmi fogyatékosokból álló) osztály

tanulóinak olvasási készségét ugyanazzal a módszerrel. b) Megfigyelés Az adatszerzés legegyszerűbb formája a megfigyelés. Ebben az esetben nincs szükség a befolyásoló tényezők ellenőrzésére, mivel azok hatása vagy elhanyagolható, vagy egyáltalán nem is lényeges. Ebben az esetben a sokaságot a megfelelő ismérvek szerint természetes körülmények között vizsgálhatjuk. Annak az adatnak a megszerzése, hogy az iskola kapuját hány ember lépi át reggel 7:30 és 8:00 között közvetlen megfigyeléssel (számlálással) történhet. Az adat ismeretében kezdeményezhetjük például egy bizonyos fajta biztonságos beléptetőrendszer beépítését. Másik példa lehet a diákok agressziójának mértékét az órák közötti szünetekben való viselkedésen keresztül megfigyelni. A megfigyelés, mint adatszerzési mód speciális esetének tekinthető a mérés. Folytonos ismérvek esetében szinte mindig mérésre van szükség, de bizonyos esetekben

diszkrét ismérvek esetén is szükséges lehet. A méréshez minden esetben szükség van valamilyen mérőműszer használatára, amelyet természetesen a vizsgálat céljának megfelelően választunk ki a megfelelő hatékonysági és költségszempontok figyelembevételével. Testsúly, testmagasság, vagy vérnyomás mérése történhet többféle (például elektronikus, hidraulikus, vagy mechanikus) eszközzel, de a kaput átlépő emberek számlálása is történhet például elektronikus számláló-berendezés segítségével. c) Kikérdezés Ha a kívánt adat nem szerezhető meg egyszerű megfigyelés által, és kontrollált kísérlet végzésére sincs mód, akkor általában a kikérdezés módszerét alkalmazzák. A kikérdezésnek többféle módozata lehetséges: 17 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel • • • 2003 Személyes interjú Telefonos interjú Kérdőíves kikérdezés A személyes interjú esetében a

kérdezőbiztos és az interjú alanya közti „beszélgetés” közben elhangzó információkat rögzítik adatként. Ennek a módszernek elsődleges előnye, hogy a félreértések, torz válaszok elkerülhetők. Hátránya, hogy rendkívül időigényes, költséges és a kérdezőbiztos részéről igen nagy szakértelemre van szükség. Segítségképpen a kérdezőbiztosoknak vázlatkérdéseket, illetve egyéb kiegészítő információkat szokás adni. A kérdezőbiztosnak ügyelnie kell arra, hogy ne befolyásolja a kérdezett személyt, biztosítsa őt az anonimitás megőrzéséről, valamint, hogy a lehető legnagyobb mértékben csökkentse a válaszadástól való szorongását. Mindebből látható, hogy bár ez a kikérdezési forma biztosítja a legrészletesebb és legmegbízhatóbb információt, a magas költségek és szervezési nehézségek mellett igen magas szintű kérdezőbiztosi (gyerekek esetében pszichológiai és pedagógiai) felkészültséget

igényel. A telefonos interjú jellegében hasonló a személyes interjúhoz, azonban jóval személytelenebb, ami a témától függően egyaránt lehet előny és hátrány. Egyértelmű előny, hogy valamivel alacsonyabb költségekkel és szervezési munkával jár, azonban az adatok hitelessége már kevésbé biztosított és az interjú szándékos megszakítása is könnyen előfordulhat. Az adatszerzések során leggyakrabban alkalmazott eljárás a kérdőíves kikérdezés. A kérdőíves kikérdezés történhet személyesen, akár kérdezőbiztos közreműködésével (ezzel biztosítható, hogy a kérdések mind megválaszolásra kerüljenek), akár önálló kitöltés alkalmazásával, amikor a kérdezett személy maga tölti ki a kérdőívet. Önálló kitöltés történhet még postai és elektronikus úton is A postai úton történő kérdőíves kikérdezés hátránya, hogy a válaszok gyakran nem érkeznek vissza, így az bizonytalanabb eredményekhez vezethet.

Az elektronikus kérdőívek általában az Interneten találhatók. Előnyük, hogy feldolgozásuk közvetlenül számítógép segítségével történhet, valamint, hogy viszonylag kis költséggel jár ez kikérdezési mód a többi eljáráshoz képest. Hátránya azonban, hogy az elektronikus kérdőívek kitöltésére nehéz rábírni a vizsgálni kívánt személyeket és az is nehezen ellenőrizhető, hogy a kitöltők valóban a vizsgálati körbe tartoznak-e. Mindenféle kérdőíves kikérdezés hátránya, hogy csak viszonylag egyszerű kérdések tehetők fel, nincs lehetőség a válaszok későbbi pontosítására, illetve kiegészítő információk megadására. Előnyük azonban a bizonyos esetekben igen előnyös személytelen válaszadási lehetőség, valamint a homogén válaszadásból adódó könnyebb kiértékelhetőség és a felvétellel járó viszonylag alacsony költségek. Mindezek miatt a kérdőívek összeállítása rendkívül nehéz feladat és

nagy szakmai körültekintést igényel, de a felvétel során már nincs magas szintű szakértelemre szükség. 3.3 A kérdőívkészítés alapjai A kérdőívek összeállításának alapelveivel és szabályaival külön kurzusok foglalkoznak, ezért itt csak a legfontosabb irányelveket tekintjük át röviden. A kérdőíveknek formai és tartalmi követelményeknek egyaránt meg kell felelniük. Formai követelmény többek között az áttekinthetőség és a válaszadáshoz szükséges feltételek biztosítása. A tartalmi követelményekhez hozzátartozik, hogy valamiféle azonosítóval kezdődjön a kérdőív a válaszadás hitelességének ellenőrizhetősége miatt. Az azonosító általában személyes adatokból (például név, lakcím, 18 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 telefonszám, stb.) áll, amelyeket a későbbi vizsgálat és az eredmények közlése során is bizalmasan kell kezelni az adatvédelmi

előírásoknak megfelelően. A kérdőíven szerepelnie kell a felmérést végző intézmény és/vagy személy nevének, esetleg a felmérés céljának és rövid bevezető szövegnek, valamint útmutatónak a kitöltéshez és a további teendőkhöz. A kérdéseknek mindig célzottaknak, egyértelműeknek és közérthetőeknek kell lenniük. A kérdés feltehető nyílt és zárt formában Nyílt formában feltett kérdésre példa a következő: Milyen nyelven szokott imádkozni? . Zárt formában feltett kérdésre pedig példa a következő: Szokott magyarul imádkozni? Igen/Nem Az első esetben a lehetséges válaszok nincsenek megadva, a válaszadónak kell kitalálni azokat. Ettől lesz a válasz igazán a személyre jellemző Ebben az esetben azonban nehezebb a válaszokat utólagosan kategorizálni, sőt nem is mindig lehetséges az irreleváns válaszlehetőségek miatt. Ezenkívül, mivel a lehetséges válaszok nincsenek felsorolva a válaszadó esetlegesen

passzívan viselkedik, és sablonos, csekély információértékű válaszokat ad. A második esetben csak megerősítést vagy tagadást várunk, ezért az eredmény könnyen kódolható. Ügyelni kell azonban arra, hogy az Igen/Nem alternatíva valóban elegendő-e. A következő kérdésnél elegendőnek tűnik: Végig egy általános iskolába járt? Igen/Nem De a „Szokott magyarul imádkozni?” kérdésnél nem feltétlenül kielégítő az Igen/Nem alternatíva, mert a kérdésben valójában két kérdés van elrejtve, azaz két ismérvet vizsgál. A kérdést tehát célszerű kettébontani: (1) Milyen gyakran szokott imádkozni? (2) Ha imádkozik, milyen nyelven teszi azt? A kérdésekhez pedig az egyértelműség kedvéért válaszlista is csatolható: (1) Soha Ritkán Gyakran (2) Magyarul Szlovákul Németül Románul Egyéb nyelven: A fenti szétbontott kérdések sem veszik figyelembe azt az esetet, amikor az illető esetlegesen több nyelven is szokott imádkozni.

Ez a probléma a kérdés minden valószínű nyelvre való feltevésével oldható meg: Szokott magyarul imádkozni? Szokott szlovákul imádkozni? Szokott németül imádkozni? Szokott románul imádkozni? Ha más nyelven szokott imádkozni, milyen nyelven?. Soha/Ritkán/Gyakran Soha/Ritkán/Gyakran Soha/Ritkán/Gyakran Soha/Ritkán/Gyakran Soha/Ritkán/Gyakran A fenti típusú felbontásra persze csak akkor van szükség, ha a felmérés valamilyen többnyelvű, vagy több nemzetiségű közegben zajlik, tehát minden 19 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 esetben szem előtt kell tartani a konkrét felmérés célját és meg kell vizsgálni a környezeti adottságokat. Problémák lehetnek a válaszlista megadásával is. Tekintsük a következő példát: Tapasztalt-e olyat, hogy amikor oroszul beszélt, a mondanivalójának egy része magyarul jutott eszébe? Igen/Nem/Ritkán Ebben az esetben a kérdéshez tartozó válaszlista

elemei nem zárják ki egymást (a Ritkán és az Igen válaszok átfedik egymást), így a választás nem egyértelmű. Egy lehetséges korrekt válaszlista például így nézhet ki: Gyakran/Ritkán/Sohasem Az egymást kizáró, megfelelő válaszok megtalálása, és a kérdésekhez csatolása sokszor első látásra nem egyértelmű ezért érdemes a kérdések és a válaszlista kidolgozására elegendően sok időt fordítani. Tekintsük a következő példát, amelyben a kérdőíves tétel az együttlakó családtagokra kérdez rá: Sorolja fel, kikkel lakik együtt! Nagyszülőkkel Testvéreivel Más rokonokkal A problémát ismét az okozza, hogy a válaszlista egyes elemei nem zárják ki egymást, hiszen lakhat valaki egyidejűleg a nagyszüleivel és a testvéreivel is egy fedél alatt. Egy lehetséges megoldás a probléma feloldására az, ha a következő kérdéseket mind bevesszük a kérdőívbe, amelyekre a válasz minden esetben egy szám: Hány szülőjével

lakik egy háztartásban?. Hány nagyszülőjével lakik egy háztartásban? Hány testvérével lakik egy háztartásban? . Hány egyéb rokonaival lakik egy háztartásban? A válaszlista összeállítása más esetben is problémákat okozhat: Milyen nyelven beszél a barátaival? Inkább magyarul vagy inkább románul? Inkább magyarul Inkább románul A fenti válaszok feltevése azt feltételezi, hogy nincs olyan személy, aki a két nyelvet egyforma gyakorisággal használná a baráti körben, ezért célszerű ezt a kérdést ismét kettébontani: (1) Szokott a barátaival magyarul beszélgetni? Gyakran Ritkán Sohasem (2) Szokott a barátaival románul beszélgetni? 20 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel Gyakran Ritkán 2003 Sohasem Bizonyos esetekben helyesen feltett kérdések és csatlakozó válaszok esetén is okozhat problémát, hogy a válaszok feldolgozása, kategorizálása nehézkes és időigényes. Tekintsük a

következő kérdést, amely az iskolai tanórák nyelvére vonatkozik egy többféle tanítási nyelvű, illetve kisebbségi iskolában: Milyen tantárgyakat tanítanak németül az osztályban? 1. 2. 3. 4. 5. . . . . . A nehézségeket elkerülendő érdemes a lehetséges válaszokat előre számba venni, s az eredeti kérdést például ilyenformán felbontani több összetevőre: (1) A matematikát németül tanítják-e iskolájában? Igen/Nem (2) A történelmet németül tanítják-e iskolájában?Igen/Nem (3) A biológiát németül tanítják-e iskolájában?Igen/Nem (4) A földrajzot németül tanítják-e iskolájában?Igen/Nem Ha ordinális skálán mérhető ismérvet vizsgálunk (különösen attitűd-kérdések esetében) és kettőnél többféle válaszlehetőség közül lehet választani, figyelembe kell venni azt, hogy gyakran előfordul, hogy a válaszadók valamiféle társadalmi elvárásnak megfelelő és nem a tényleges véleményüket tükröző választ

adnak, ha erre lehetőségük van. Tekintsük a következő két kérdést: Mennyire ítéli Ön el az adócsalást? Egyáltalán nem ítélem el Kissé elítélem Eléggé elítélem Nagyon elítélem Mennyire bánik szigorúan gyermekével? Egyáltalán nem Csak ha szükséges Szigorúan bánok vele Az első kérdés esetében az emberek többsége a társadalmi elvárásoknak megfelelően a magasabb skálaértékeket, a második kérdésnél viszont a középső értéket választaná. A válaszokat tehát célszerű lehet úgy megadni, hogy az első esetben lecsökkentjük a lehetséges válaszok számát és középső értéknek egy magas skálabeli értéket adunk, a második esetben pedig növeljük a válaszok számát, hogy a válaszadót a középső értékről való elmozdulásra kényszerítsük. Ekkor az adott válasz több információt közölhet a válaszadó valódi véleményéről: Mennyire ítéli Ön el az adócsalást? Egyáltalán nem ítélem el Eléggé

elítélem Nagyon elítélem Mennyire bánik szigorúan gyermekével? 21 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel Egyáltalán nem Az átlagosnál kevésbéAz átlagosnál szigorúbbanSzigorúan vele 2003 bánok A fenti esetekben is előfordulhat, hogy a válaszadó úgy érzi egyik választási lehetőség sem illik rá igazán. Ilyen esetekben alkalmazhatunk folytonos skálát, amelyen a válaszadó elhelyezheti magát, azonban ekkor a válaszok feldolgozása jóval nehézkesebb: Mennyire ítéli Ön el az adócsalást? (Helyezze el magát a következő folytonos szakaszon) Egyáltalán nem ítélem el Nagyon elítélem Ha többféle válaszlehetőség elfogadható, alkalmazhatunk jelölőnégyzeteket is: Mely családtagjaival lakik egy háztartásban? (Satírozza be a megfelelő négyzeteket) Édesapjával Édesanyjával Testvérével/Testvéreivel Nagyszülővel/Nagyszülőkkel Más családtagokkal Kérdőíves kikérdezés esetén

gyakran helyeznek el olyan kérdéseket a kérdőív különböző pontjain, amelyek a válaszadás hitelességét, illetve a válaszadó szavahihetőségét hivatottak vizsgálni. Ezeket a kérdéseket ellenőrző kérdéseknek nevezzük. Ellenőrző kérdés lehet például a születési dátum után (több kérdéssel később) rákérdezni arra, hogy az illető hány éves, vagy egyszerűen csak egy ismérvre többféleképpen rákérdezni. Szintén hatékony lehet ellenőrzésképpen olyan jellegű kérdéseket feltenni, amelyekre a hitelességét tekintve csak az egyik válasz lehet megfelelő: Sohasem vagyok ingerült Igaz/Hamis Még senkire sem haragudtam Igaz/Hamis Látható, hogy a kérdőívkészítés rendkívül komplex és összetett feladat, amelyre általánosan érvényes szabályok sem adhatók. Mindezek miatt a kérdőívek összeállítására sohasem szabad sajnálni az időt és tervezésüknél minden lehetséges szempontot mérlegelni kell. 3.4 Az

adatfelvétel típusai Az adatszerzés módozatai után tekintsük át a különböző adatfelvételi típusokat. Az adatfelvétel formái többféleképpen csoportosíthatók: a) Egyszeri és ismétlődő adatfelvétel 22 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Az adatfelvételek rendszerességét tekintve megkülönböztetünk egyszeri adatfelvételt és ismétlődő adatfelvételt. Az egyszeri adatfelvételt keresztmetszeti vizsgálatok során alkalmazzuk, amikor csak a sokaság egy bizonyos állapotát kívánjuk elemezni, míg az ismétlődő adatfelvételt főleg idősoros vizsgálatoknál, azaz amikor a sokaság több egymást követő állapotát kívánjuk összehasonlítani egy jellemző alapján, használjuk. Ha egy bizonyos sokaság esetében több egymást követő időpontban, akár folyamatosan keresztmetszeti vizsgálatokat végzünk, akkor panel-vizsgálatról beszélünk. Ez utóbbi módszer rendkívül költséges és

időigényes lehet, ezért alkalmazására csak igen ritkán és kisméretű sokaság esetében van lehetőség. Ha egy bizonyos középiskolában arra vagyunk kíváncsiak, hogy hogyan változik a felsőoktatási intézményekbe felvettek száma, és ennek érdekében minden évben feljegyezzük ezt a számot, akkor idősoros vizsgálatot végzünk. Ha arra vagyunk kíváncsiak, hogy egy bizonyos (például kísérleti) osztály tanulói közül hányat vettek fel felsőoktatási intézményekbe és ezt a számot feljegyezzük, akkor keresztmetszeti vizsgálatot végzünk. Ha egy kis (például hátrányos helyzetű csoport) tanulmányi eredményeit kívánjuk nyomonkövetni iskolai éveik során (például egy felzárkóztató program hatékonyságának tesztelése miatt), akkor panel-vizsgálatot végzünk. b) Teljeskörű és részleges adatfelvétel Amennyiben az adatfelvétel során a teljes sokaságot, azaz minden egyes egyedét vizsgálat alá vonjuk, teljeskörű

adatfelvételről, ha azonban a felvétel csak a sokaság egy részére korlátozódik részleges adatfelvételről beszélünk. A teljes sokaság megfigyelése természetesen több és biztosabb információt biztosít, azonban számos oka lehet részleges adatfelvétel alkalmazásának. Például, ha a sokaság nagy méretű, akkor rendkívül költséges lehet a teljes felmérése. Ezenkívül bizonyos esetekben a vizsgálat során megváltozhatnak a statisztikai egységek tulajdonságai (például károsodhatnak). Ebben az esetben szintén nem célszerű teljeskörű adatfelvételt alkalmazni. Részleges adatfelvétel esetén a sokaság megfigyelt részét mintának nevezzük. Teljeskörű adatfelvételre a legtipikusabb példa népszámlálás, amikor egy ország lakosságát teljes egészében megfigyelik több tulajdonság szempontjából, de szintén teljeskörű adatfelvételnek számít, ha egy bizonyos iskola nyelvoktatási rendszerének hatékonyságára vagyunk

kíváncsiak és ennek érdekében az iskola összes végzős tanulójának nyelvtudását megvizsgáljuk. Részleges adatfelvételt akkor végezhetünk, ha például egy bizonyos régióban szeretnénk felmérést készíteni a 10 évesek olvasási készségéről, de ennek érdekében csak néhány a régióban véletlenszerűen kiválasztott iskola tanulóival végezzük el a vizsgálatot. Amikor az iskolapadok teherbírását kívánjuk vizsgálni törőpróba által, nyilván nem célszerű az iskola összes padját törőpróba által tesztelni, mivel ekkor egyetlen pad sem maradna, hanem néhány véletlenszerűen kiválasztott pad teszteléséből vonunk le következtetést a többire vonatkozóan. 23 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 c) Primer és szekunder adatfelvétel Ha statisztikai vizsgálathoz szükséges adattömeget közvetlen adatfelvételi eljárással nyerjük, akkor primer adatfelvételről, ha már korábban

elkészített adatbázist, adatforrást használunk, akkor szekunder adatfelvételről beszélünk. Ha egy bizonyos iskolában éveken keresztül feljegyezzük a felsőoktatási intézményekbe felvettek arányát, akkor primer adatfelvételt végzünk, de ha ezt szeretnénk összehasonlítani az országos átlaggal, amely az összes iskolában készült felméréseket összesíti, akkor egy korábbi adatforrásból (például az Oktatási Minisztérium adatforrásából), szekunder adatfelvétel által kell beszereznünk az összehasonlításhoz szükséges adatokat. 3.5 Az adatfelvétel során elkövethető hibák A statisztikai tevékenység jellegéből adódóan a legritkább esetben juthatunk teljesen pontos adatokhoz. Az adatok szinte minden esetben valamilyen hibával terheltek. A hibák egy részének nagysága az adatfelvétel gondos tervezése és szervezése által csökkenthető. Ezeket összességében nemmintavételi hibáknak nevezzük. Ide tartoznak a különböző

definíciós hibák, a válaszadók szándékos, vagy nem szándékolt torzításaiból adódó válaszadási hibák, valamint az kérdezőbiztosok, adatrögzítők hanyagságából, illetve mérőműszerek hibájából adódó végrehajtási hibák. A hibák egy másik része akkor adódik, ha a sokaságnak csak egy részét figyeljük meg, és ebből próbálunk a teljes sokaságra vonatkozó általános következtetéseket levonni. Ekkor ugyanis sosem lehetünk biztosak abban, hogy a megvizsgált részsokaság a teljes sokaságra vonatkozóan minden információt tartalmaz. Ezt a hibatípust mintavételi hibának nevezzük A különféle hibák fellépése miatt minden statisztikai adatot a következő módon indokolt megadni: A±a, ahol A a kérdéses adat közelítő értéke, a pedig a hibakorlát, azaz a „pontos” adat valahol az A-a és A+a értékek között mozoghat. Gyakran alkalmazzák azt a megoldást is, hogy az adatokat eleve olyan nagyságrendre kerekítve közlik,

hogy már csak a valóban „pontosnak” tekinthető számjegyek, az úgynevezett szignifikáns számjegyek látszanak. A Statisztikai évkönyv szerint a népesség száma 1995. január 1-én 10245 ezer fő Látható, hogy a népességszám 1000 főre kerekített értéket takar, és a „10245” képviseli a szignifikáns számjegyeket. Ekkor a hibakorlát ±500 fő, mert 500-tól felfelé kerekítünk. Amikor a tanulók magasságát mérjük cm-ben, akkor az abszolút hibakorlát ±5 mm. Világos, hogy nem lenne érdemes mm-ben mérni a tanulók magasságát, hiszen ekkor az utolsó számjegy értékét nagy mértékben befolyásolnák a mérési hibák. Sok esetben a fentiekben tárgyalt abszolút hibakorlát helyett a relatív hibakorlátot alkalmazzák, mivel az abszolút hibakorlát erősen függ az adatok abszolút nagyságától. A relatív hibakorlát ( α ) kiszámítási módja: a α= . A 24 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel

2003 A népességszám esetén a relatív hibakorlát: α= 500 ≅ 0,005% . 10245000 A tanulók magasságának mérésénél, 150 cm-es tanuló esetén a relatív hibakorlát: α= 5 ≅ 0,33% . 1500 A hibakorlátot valamilyen formában minden adat esetében meg kell adni, különben az adatokkal végzett műveletek által kapott eredmények értelmezése és elemzése teljességgel értelmetlenné válhat. Az adatok pontossága csak az egyik összetevője az adatminőségnek. Fontos még, hogy az adat valóban a vizsgálat tárgyát jellemezze, kellő időben álljon rendelkezésre, és előállítása minél kevesebbe kerüljön. Az utóbbi kettő követelmény szervezési kérdés, az első viszont a sokaság és az ismérvek helyes kiválasztásának kérdése. 3.6 Adathasznosítás Az adatszerzési tevékenység által megszerzett adatokat alapadatoknak nevezzük. Ezek az alapadatok az adathasznosítás során feldolgozásra, elemzésre kerülnek. Az elemzés többféle

céllal történhet Ha csupán a megfigyelt statisztikai egységek összességét, azaz a megfigyelt sokaságot kívánjuk jellemezni, illetve a hozzátartozó adatokat rendszerezni, ábrázolni, leíró statisztikai elemzésről beszélünk. Ebben az esetben az eredmények általánosítására nem kerül sor, vagy azért mert a teljes elemezni kívánt sokaságot megfigyeltük, vagy azért, mert az elemezni kívánt sokaság megfigyelt részére vonatkozó eredményeink nem elég robusztusak ahhoz, hogy a teljes sokaságra általánosítsuk őket. Ha azonban kifejezetten azzal a céllal készítünk felmérést a jellemezni kívánt sokaság egy részéről, hogy eredményeinket a teljes sokaságra vonatkozóan általánosítsuk, akkor induktív statisztikai elemzésről beszélünk. Az induktív statisztikai elemzések eszköztára igen bonyolult, széleskörű módszertani és matematikai ismereteket igényel. Mindezek miatt, valamint azért, mert az oktatási statisztikák

esetében az induktív elemzéseknek kisebb jelentősége van, mi a továbbiakban csak leíró statisztikai elemzésekkel fogunk foglalkozni. Az induktív elemzési módszerek ismertetése megtalálható a szakirodalomban. 3.7 A statisztikai tevékenység etikai vonatkozásai A statisztikai tevékenység minden fázisa alkalmat adhat az adatok szándékolt, vagy nem szándékolt félreértelmezésére, torzítására, amely a statisztikával való visszaélés táptalaja lehet. Mindezek miatt, valamint azért mert hibás, vagy félrevezető információk terjesztése nagymértékben károsíthatja társadalmunkat, a statisztikai tevékenység végzése során be kell tartanunk, illetve tartatnunk bizonyos viselkedési normákat. A statisztikai tevékenység során semmiképpen sem szabad, hogy a szakmai szempontokon kívül a vizsgálatot bármiféle ideológia, vagy szubjektív értékítélet vezérelje. Az adatfelvétel és adatelemzés során a célnak és a körülményeknek

megfelelő eszközöket, módszereket kell alkalmazni. A beszerzett személyes adatokat bizalmasan, az adatvédelmi előírásoknak megfelelően kell kezelni. Az 25 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 adatvédelmi szabályozásokról bővebben például a www.mkogyhu/adatved biztos , vagy a www.obhhu/adatved/magyar/avtvhtm honlapokon olvashatunk Abban az esetben is, ha a vizsgálatban résztvevők valamilyen módon személyesen érintettek a kérdésben, szintén objektív módon kell a problémát kezelni. A tevékenység során minden egyes lépést részletesen dokumentálni kell. A vizsgálat végén készülő jelentésnek, az eredmények értékelésén kívül minden fontos részletet tartalmaznia kell, hogy a vizsgálatot rekonstruálni lehessen. Röviden ismertetni kell a vizsgálat célját és a sokaság, valamint az ismérvek pontos leírását is meg kell adni. Az adatfelvétel módszerét és jellegét (például azt, hogy

teljeskörű, vagy sem) is ismertetni kell, ennek érdekében célszerű mellékelni kitöltetlen kérdőíveket és kérdezőbiztosi utasításokat, interjúk esetén a beszélgetést rögzítő naplók szövegét, illetve hanganyagokat, természetesen biztosítva a válaszadók anonimitását és egyéb jogait. Röviden vázolni kell az elemzési módszer választásának indokait, az elemzés menetét és eszközeit. Ha a feldolgozás során valamilyen okból adatkorrekcióra került sor, azt is fel kell tűntetni a korrekció indokának megjelölésével. Összességében törekedni kell arra, hogy a jelentés akár döntésekhez, akár későbbi elemzésekhez megfelelő kiindulási alapként szolgáljon. Hibás, valótlan illetve torzított adatok közlésének szankcionálása törvényi szabályozás alá esik. Az adatok félreérthető módon való közlése pedig szintén igen nagy társadalmi felelőséggel jár, mivel az adatok hibás döntések alapjául szolgálhat, amely

a társadalom számára beláthatatlan következményekkel járhat. 3.8 Gyakorló feladatok 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Tegyük fel, hogy Ön az iskolájában szeretne felmérést készíteni a diákok továbbtanulási preferenciáiról. Határolja körül a statisztikai egységeket, állapítsa meg, hogy az egyes szempontok szerint milyen statisztikai sokaságot alkotnak. Jelölje ki a vizsgálandó ismérveket, amelyek alapján a felmérés elvégezhető, sorolja fel az egyes ismérvváltozatokat és állapítsa meg milyen skálán mérhetők. Állapítsa meg az ismérvek transzformálhatósági tulajdonságait, amelyre az adatfelvétel könnyítése érdekében szükség lehet. Gondolja végig milyen típusú adatfelvételre lenne szükség. Gondolja végig, hogy az egyes adatfelvételi módozatok közül melyiket érdemes választani és a választott megoldás milyen előnyökkel és hátrányokkal jár. Készítsen kérdőívet Ms Word segítségével a vizsgálathoz, a

tanult szempontok figyelembevételével. Tervezze meg a teljes adatszerzési folyamat lépéseit, ennek keretében gondolja végig, hogy milyen adattároló eszközt alkalmazna, illetve, hogy az adatfelvétel lebonyolításával és az adatrögzítéssel kiket bízna meg. Milyen költségekkel jár az adatszerzés és milyen technikai problémák merülhetnek fel. Gondolja végig milyen etikai problémák merülhetnek fel a vizsgálat során és ezeket hogyan lehetne kivédeni. Keresen országos szintű statisztikákat az Interneten, amelyekkel összehasonlíthatók lesznek az Ön által vezetett vizsgálatban szerzett adatok. 26 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 4. Statisztikai alapműveletek 4.1 Sokaság nagyságának meghatározása Azokat az alapvető fontosságú műveleteket, amelyek szinte minden statisztikai elemzésnek részét képezik statisztikai alapműveleteknek nevezzük. Ezek közül is legegyszerűbb a sokaság

nagyságának meghatározása, amely fontos információt közvetít a vizsgálandó sokaságról. Diszkrét sokaságok esetén, amely az oktatási statisztikáknál is a döntő szerepet játssza, ez az alapművelet egyszerűen a sokaság egyes egységeinek megszámlálásával vihető végbe, de a művelet végrehajtása nem mindig ilyen egyszerű. Folytonos sokaságok esetén a sokaság nagyságának meghatározása valamilyen mérést igényel. Fiktív sokaságok esetében a sokaság nagysága csak valamilyen becslési eljárással és csak közelítőleg határozható meg, míg olyan sokaságok is vannak, amelyek nagysága végtelen, ezért nagyságuk egyáltalán nem határozható meg. Diszkrét sokaság nagyságának meghatározásának legtipikusabb példája a népszámlálás. Ekkor a sokaságot többféle különböző ismérv szerint is vizsgálják, de az elsődleges cél a nagyságának meghatározása. Folytonos sokaság nagyságának meghatározását végezzük akkor,

amikor regisztráljuk egy konkrét tanév ivóvízfogyasztását január 1-től december 31-ig egy iskolában. Fiktív sokaság nagyságát határozzuk meg, amikor megbecsüljük, hogy két év múlva hány tanuló fog felvételre jelentkezni egy konkrét iskolába. Sokaság nagyságának meghatározása MS Excel segítségével, számítógéppel rögzített és tárolt adatokból rendkívül egyszerű. Ha számadatok állnak rendelkezésre, a DARAB függvényt használjuk. Az első esetben (1. ábra) a tanulók magassága cm-ben áll rendelkezésre és arra vagyunk kíváncsiak, hogy hány tanuló vett részt a magasságmérésen (természetesen ennek a feladatnak akkor van értelme, ha a sokaság viszonylag nagy méretű és nem látszik egyértelműen, hogy hány adatunk van, a példa csak illusztráció a függvény használatára). Ha ordinális, vagy nominális skálán mérhető ismérvekkel van dolgunk, tehát szöveges az adatok állnak rendelkezésre, akkor a DARAB2

függvényt használjuk. A második esetben (2. ábra) a tanulók születési helye áll rendelkezésre és szintén arra vagyunk kíváncsiak, hogy hányan vettek részt a vizsgálatban, tehát mekkora a sokaság nagysága. 27 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ha a hiányzó adatok számára vagyunk kíváncsiak és a hiányzó adatok helyén üres cella áll (3. ábra), akkor a DARABÜRES függvényt használjuk 1. ábra 2. ábra 3. ábra Ha a sokaságnak csupán egy bizonyos feltételt kielégítő részének nagyságát kívánjuk meghatározni, akkor a DARABTELI függvényt használjuk. Ez a függvény csak azokat a cellákat számolja meg, amelyek tartalmaznak adatot, és eleget tesznek, valamilyen számszerű (4. ábra), vagy szöveges (5 ábra) feltételnek 4. ábra 5. ábra Oldjuk meg az előző feladatokat Ms Excel segítségével: statf4.xls, statf5xls, statf6xls, statf7.xls, statf8xls 4.2 Sokaságok rendszerezése Az

adatfelvétel során keletkezett adatok rendezetlen statisztikai sort alkotnak. A rendezetlen sorok rendezése, rendezett sorrá alakítása, egyrészt a sokaságról önmagában is információt közvetíthet, másrészt későbbi elemzések kiindulópontjául szolgálhat. Metrikus skálán mért ismérvek (számadatok) rendezése mind csökkenő, mind növekvő sorrendbe könnyen megoldható számítógép segítségével is. Ordinális skálán mért ismérvek esetén szintén egyszerű a helyzet, azonban számítógépes rendezés esetén gyakran szükség van valamilyen skálatranszformációra, mivel az ismérvváltozatok abc-sorrendje nem feltétlenül esik egybe a köztük fennálló hierarchiával. Nominális skálán mért ismérvek estén nem értelmezhető az adatok hierarchiába rendezése, bár hasznos lehet az azonos ismérvváltozatok egymás 28 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 mellé helyezése, a későbbi elemzések

szempontjából. Ekkor az ismérvváltozatok sorrendjét önkényesen választhatjuk, számítógépes rendezés esetén célszerű az abc-sorrendet választani. Három különböző vizsgálatban a következő adatokat regisztrálták. Az első esetben 18 diák elmúlt havi betegnapjainak számát jegyeztük fel (6. ábra) A második esetben a születési helyüket (7. ábra), a harmadik esetben pedig nyelvvizsgájuk szintjét regisztráltuk (8. ábra) A rendezést mindhárom esetben a rendezendő adattartomány kijelölésével (a rendezetlen sort az illusztráció kedvéért először lemásoltuk, hogy látható maradjon, de elemzéseknél erre általában nincsen szükség), majd az ikon segítségével végeztük. A három feladat saját kezűleg is megoldható: statf9xls, statf10.xls, statf11xls 6. ábra 7.ábra 8. ábra 29 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Abban az esetben, amikor a sokaságra vonatkozóan több ismérv szerint

állnak adatok rendelkezésre, a rendezést nem végezhetjük az imént használt ikonnal, mert ekkor az egyes statisztikai egységekhez tartozó adatok összekeverednének. Ilyenkor az összes adatot ki kell jelölni és az Adatok/ sorba rendezés menüpontot kell választani, majd megadni, hogy melyik ismérv szerint kívánjuk az adatokat rendezni. Azt is megadhatjuk, hogy az elsődleges rendezés után a maradék ismérvek közül melyik szerint kívánjuk rendezni adatainkat. A következő példában elsősorban a születési hely, másodsorban a nyelvvizsga és harmadsorban a betegnapok szerint rendeztünk „növekvő” sorrendbe az adatainkat (9. ábra) Ez a feladat is megoldható saját kezűleg: statf12xls 9. ábra 4.3 Sokaságok csoportosítása Egy sokaság egy vagy több ismérv szerinti tagolását a sokaság csoportosításának nevezzük. E művelet segítségével a sokaság szerkezetéről nyerhetünk hasznos információkat. A csoportosítást sokféleképpen

elvégezhetjük, azonban bárilyen csoportosítástól elvárjuk, hogy (1) teljes legyen, azaz minden egyes egysége valamelyik csoportba tartozzon, (2) átfedésmentes legyen, azaz a sokaság minden egyes egysége csakis egy csoporthoz tartozzon, valamint (3), hogy homogén csoportokat eredményezzen, azaz a csoportok tagjai jobban hasonlítsanak egymáshoz, mint a többi csoport tagjaihoz. a) Csoportosítás egy ismérv szerint Az egy ismérv szerinti csoportosítás eszköze a gyakorisági sor, amelyből kiolvashatjuk, hogy a képzett csoportokban a hány darab statisztikai egység található. A fenti példa adatait alapul véve: Születési hely Budapest Pécs Szeged Létszám (fő) 5 4 4 30 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel Győr Debrecen 2003 3 2 Ha x-szel jelöljük a csoportképzés alapjául szolgáló ismérvet és ( x1 , x2 , K , xk )val az x ismérv k darab ismérvváltozatát, valamint ( f1 , f 2 , K , f k )-val a jelöljük

az egyes csoportokba tarozó statisztikai egységek számát (gyakoriságát), akkor a gyakorisági sor általános sémája a következőképpen adható meg: Csoportképző ismérv xi Gyakoriság x1 x2 M xk f1 f2 M fk fi Amennyiben a csoportképző ismérv változatainak, vagy a gyakoriságoknak van valamilyen mértékegysége, célszerű ezeket is feltüntetni a fejlécben az egyértelműség kedvéért. Ordinális és metrikus skálán mért ismérvek esetén célszerű az ismérvváltozatokat a köztük fennálló hierarchia szerint rendezve felsorolni. A gyakoriságok összege megegyezik a sokaság nagyságával, azaz a vizsgált statisztikai egységek számával. (N): k f1 + f 2 + K + f k = ∑ f i = N . i =1 Ms Excel-ben külön kell választanunk azt az esetet, amikor számszerű illetve, amikor szöveges formában állnak rendelkezésre az adatok. Mindkét esetben el kell készíteni a fenti táblázatnak megfelelő fejlécet és a bal oldalt, azaz meg kell nevezni a

csoportképző ismérvet, és fel kell sorolni a lehetséges változatait. Szöveges formában rendelkezésre álló adatok esetében használhatjuk a DARABTELI függvényt a gyakorisági sorok összeállítására. Ekkor a függvény paraméterezésénél tartománynak a teljes adattartományt kell megjelölni (abszolút hivatkozással), kritériumként pedig a megfelelő ismérvváltozatot tartalmazó cellát (relatív hivatkozással, hogy a többi ismérvváltozathoz másolni lehessen). A feladatokat célszerű saját kezűleg is megoldani: statf13.xls, statf14xls 31 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Számszerű formában rendelkezésre álló adatok esetében a GYAKORISÁG függvény segítségével könnyen összeállíthatunk gyakorisági sorokat az eredeti adatokból. Ehhez elsőként készítsük el ismét a táblázat bal oldalának és a fejlécnek megfelelő részeket, azaz nevezzük meg a csoportképző ismérvet, és alá

soroljuk fel a lehetséges ismérvváltozatokat. A függvény használatánál ügyelni kell arra, hogy a GYAKORISÁG függvény tömb-függvény, ezért előre, a függvény használata előtt ki kell jelölni az eredménytartományát, vagyis azt a tartományt, ahova a gyakoriságok bekerülnek, valamint CTRL+SHIFT+ENTER billentyűk együttes lenyomásával kell a függvényt paraméterezés során lezárni és nem a szokásos OK gombbal (ezt jelzi a szerkesztőlécben látható kapcsos zárójel a függvény körül). A függvény paraméterezésénél Adattömbnek az eredeti adatsort kell megjelölnünk, míg Csoporttömbnek az ismérvváltozatokat tartalmazó tartományt. A feladatot megoldhatjuk saját kezűleg is: statf15.xls A GYAKORISÁG függvény használható szöveges formában rendelkezésre álló ismérvek esetén is, azonban ekkor először skálatranszformációt kell végrehajtanunk, hogy számszerű értékeket kapjunk. Bizonyos esetekben felesleges lehet minden

ismérvváltozathoz megadni a gyakoriságokat, sőt nagy mennyiségű ismérvváltozat esetén a gyakorisági sor áttekinthetetlenné válik. Ebben az esetben csökkentenünk kell a csoportok számát, azaz valamilyen szempont szerint össze kell vonnunk egyes ismérvváltozatokat egy csoportba. Nominális és ordinális skálán mért ismérvek esetén a szempont megválasztása teljes mértékben a feladattól függ. Metrikus skálán mért ismérvek esetében erre a célra az osztályközös gyakorisági sorokat használjuk. Tekintsük a következő példát: A betegnapok számát célszerűbb osztályközös gyakorisági sor. és Betegnapok száma (x) 0-2 3-5 6-8 9-11 áttekinthetőbb gyakoriság (f) 10 4 1 3 32 formában megjelenítő Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Az osztályközös gyakorisági sor az eredeti adatokhoz természetesen mindenképpen információveszteséget jelent, azonban általában áttekinthetőbb

formában jeleníti meg a fontosabb és elemzésre alkalmasabb adatokat. Folytonos ismérvek esetén mindenképpen osztályközös gyakorisági sort kell készítenünk, mivel az ismérvváltozatokat nem tudjuk felsorolni. A következő táblázat 42 iskola havi ivóvízfogyasztásáról készített felmérés eredményét mutatja. Baloldalon látható, hogy az egyes fogyasztási csoportokba hány iskola tartozik, tehát például 60 m3 és 80 m3 közötti ivóvízmennyiséget a 42 iskola közül 11 fogyasztott a felmérés hónapjában. Iskola ivóvíz fogyasztása (m3) 0-20 21-40 41-60 61-80 81-100 Iskolák száma 2 4 22 11 3 Folytonos ismérvek esetén nehézséget okozhat az osztályközök alsó és felső határának megadása. Általában konvenció szerint a „valódi” határt jelző érték az osztályköz felső határaként jelenik meg és a következő osztályköz alsó határát ennek egy egységgel megnövelt értékével adják meg. Ekkor minden olyan statisztikai

egység, amelyhez tartozó ismérvváltozat kisebb vagy egyenlő a határt jelző értéknél, az alsó osztályközbe, amelyhez tartozó pedig nagyobb, a felső osztályközbe sorolható. Az osztályköz alsó határát jelölő szám tehát csak jelzés értékű, a félreértések elkerülését szolgálja. A fenti példában tehát, ha egy iskola 19,5 m3 vizet fogyasztott, akkor a „0-20” osztályközbe, ha 20,5 m3 vizet fogyasztott, akkor a „2140” osztályközbe kerül. Az osztályok számát nem érdemes túl nagyra választani, mert ekkor a gyakorisági sor áttekinthetetlenné válik. Az egyes osztályközöknek nem feltétlenül kell ugyanolyan hosszúnak lenniük. Abban az esetben, ha egyforma osztályközöket választva néhány osztályközbe „túl kevés” érték kerülne és ez, az elemzés szempontjából, nem közvetít lényeges információt, érdemes ezeket az osztályközöket egy-egy hosszabb osztályközbe összevonni. Az előző két példában

végezhetünk összevonásokat, amennyiben ez nem jár jelentős információveszteséggel. Betegnapok száma (x) 0-2 3-5 6-11 gyakoriság (f) 10 4 4 33 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel Iskola ivóvíz fogyasztása (m3) 0-40 41-60 61-100 2003 Iskolák száma 6 22 14 Osztályközös gyakorisági sorok esetén is általában szükség van az osztályközöket jellemző, későbbi elemzésekben felhasználható számérték(ek)re. Az i-dik osztályköz egyik jellemzője az osztályközép (xi), amely az osztályköz alsó (xia), és felső (xif) határának kerekített átlagaként határozható meg, másik jellemzője pedig az osztályköz hossza (hi), amely a felső és alsó osztályköz határok különbségeként határozható meg. Folytonos ismérvek esetén, mivel az osztályköz alsó határa csak jelzésértékű, ezért helyette a számításokban az előző osztályköz felső határát használjuk az osztályközép és az

osztályköz hossz meghatározásához. Mindezek miatt az osztályközös gyakorisági sorok, fontos jellemzőkkel kiegészített általános sémája és a jellemzők meghatározási módja a következőképpen adható meg: Alsó határ xia x1a x2a M xka Csoportképző ismérv Felső Osztályközép Osztályköz határ hossza xif xi hi x1f x1 h1 x2f x2 h2 M M M xkf xk hk xi = (x ia + xif ) 2 Gyakoriság fi f1 f2 M fk hi = xif − xia , A két példánk esetében e paraméterek a következőképpen határozhatók meg: Alsó határ xia 0 3 6 Betegnapok száma Felső Osztályközép Osztályköz határ hossza xif xi hi 2 1 2 5 4 2 11 8,5 5 Alsó határ xia 0 41 61 Iskola ivóvíz fogyasztása (m3) Felső Osztályközép Osztályköz határ hossza xif xi hi 40 20 40 60 50 20 100 80 40 Gyakoriság fi 10 4 4 Iskolák száma fi 6 22 14 Az osztályközös gyakorisági sor lehet nyílt végű is (akár felfelé akár lefelé), ha a tömöríteni kívánt információt ez jól

kifejezi: 34 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ha néhány tanuló kiemelkedően sokszor volt beteg, tehát a hozzájuk tartozó ismérvváltozat „távol esik” a többiekhez tartozó ismérvváltozatoktól és kis gyakorisággal rendelkeznek, akkor célszerű nyílt végű osztályközt használni végső osztályköznek. Ha például az eredeti adatokat kiegészítjük egy tanuló adatával, aki 35 napot hiányzott, akkor a gyakorisági sor a következőképpen módosítható: Betegnapok száma (x) 0-2 3-5 6-8 9-11 12- gyakoriság (f) 10 4 1 3 1 Nyílt végű osztályközöknél problémát okozhat az osztályköz jellemzőinek meghatározása. Ekkor az osztályköz hosszát nem célszerű megadni, az osztályközepet pedig, valamilyen egyéb információ alapján célszerű becsülni. Ha az eredeti adatokról nem rendelkezünk kiegészítő információkkal, akkor gyakori eljárás, egyszerűen az osztályközepet annak

feltételezésével becsülni, hogy ugyanolyan hosszú, mint például az előző osztályköz. Az előző példa utolsó, nyílt osztályközepét annak feltételezésével becsültük, hogy az utolsó osztályköz ugyanolyan hosszú, mint az előző. Alsó határ xia 0 3 6 9 12 Betegnapok száma Felső Osztályközép Osztályköz határ hossza xif xi hi 2 1 2 5 4 2 8 7 2 11 10 2 13 - Gyakoriság fi 10 4 1 3 1 Számítógép segítségével könnyen készíthetők osztályközös gyakorisági sorok. A már bemutatott GYAKORISÁG függvény ugyanis a csoporttömb elemeit, mint felső határokat veszi figyelembe, és kezelni tudja a felfelé nyílt osztályközöket is. A lefelé nyílt osztályközöket nem tudja kezelni a függvény, de oktatási statisztikák esetében ritkán fordulnak elő lefelé nyílt osztályközök, mivel a skála kezdőpontja általában egyértelmű. Ha mégis előfordulna, akkor kiegészítő feltevésekkel kell élni A gyakoriságok meghatározása

után a bemutatott képletek alapján könnyen meghatározhatjuk az osztályközepet és az osztályköz hosszát is. 35 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Határozzuk meg most az Ms Excelben rögzített betegnap adatokból a fenti osztályközös gyakorisági sort. Ekkor először készítsük el a táblázat fejlécét, majd töltsük ki az osztályközök felső és alsó határát külön oszlopba írva. Az osztályközepeket és osztályköz hosszokat a megfelelő képletek segítségével számíthatjuk, célszerűen relatív hivatkozást alkalmazva a könnyebb másolhatóság érdekében (a nyílt osztályközhöz tartozó értékeket egyszerűen csak írjuk be). Ezután alkalmazhatjuk a GYAKORISÁG függvényt, amelyhez adattömbnek az eredeti adatokat, csoporttömbnek az osztályközök felső határát jelöljük meg a nyílt osztályköz felső határát jelző üres cellát is beleértve. A következő ábrákon követhető a

számítás menete, a feladat pedig önállóan is megoldható (statf16.xls) b) Csoportosítás részekre bontással Gyakran előfordul, hogy a vizsgált ismérv szempontjából a sokaság egyes részsokaságainak egységei teljesen más tulajdonságokkal bírnak. Ekkor a sokaság egészének elemzése mellett, hasznos lehet a sokaság egyes részeit külön-külön is elemezni. Az elemzés előtt azonban áttekinthető formában részekre kell bontanunk a sokaságot. Erre a Ms Excelnek beépített, automatizált műveletei vannak, bár a részekre bontás elvégezhető függvények segítségével is. Ez utóbbival speciális jellege miatt nem foglalkozunk. Tekintsük a következő példát: Egy tanulmányi versenyen négy iskola tanulói vettek részt. A tanulók adatait Ms Excel táblában (10. ábra) rögzítették (az iskolák neve helyett kétbetűs kód áll, a tanulók azonosítására pedig sorszámot használtunk), és feljegyezték a versenyen 36 Sulinet Expressz

adatelemzési feladatok elvégzése számítógéppel 2003 elért pontszámokat. Ha azt szeretnénk elemezni, hogy hogyan alakultak az eredmények az egyes iskolákon belül és az egyes iskolák között, akkor a sokaságot az iskolák szerint részekre kell bontanunk. Ehhez először az adatokat a részekre bontás alapjául szolgáló ismérv szerint rendezni kell (11. ábra) Ezután a részekre bontást az Adatok/Részösszegek menüpont segítségével végezhetjük el (12. ábra) Csoportosítási alapnak az iskola nevét, állítottuk be, függvénynek a DARAB függvényt, „összegzendő” (valójában megszámlálandó) oszlopnak pedig a tanulókat, mivel szeretnénk azt is meghatározni, hogy az egyes iskolákból hány tanuló érkezett (ez a szám látható az egyes csoportok végén a Mennyiség felirat előtt). A többi függvény használatáról később még ejtünk szót. A feladat több adattal bővített változata önállóan is megoldható (statf17.xls) 10.

ábra 11. ábra 12. ábra 37 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 c) Csoportosítás egyszerre több ismérv alapján Statisztikai elemzések során gyakran előfordul, hogy a sokaságot egyszerre több ismérv szerint vizsgáljuk és az ismérvek viszonyát is elemezni szeretnénk. Ekkor a különböző ismérvek szerinti osztályozást nem egymástól függetlenül, hanem egymásba ágyazva, kombinatív módon kell megvalósítanunk. Egy iskolában a csoportosíthatjuk: tanulók Szülő neme/Iskolai végzettsége Férfiak Nők Összesen szüleinek egyes adatait a következőképpen Alapfokú Középfokú Felsőfokú Összesen 76 24 100 30 34 64 45 75 120 151 133 284 A kombinatív osztályozás eszköze, a fenti példában is alkalmazott kombinációs tábla (Pivot tábla, kereszttábla, kimutatás tábla). Két ismérv esetén, ha a két ismérvet x-szel és y-nal jelöljük, ennek általános sémája a következőképpen

ábrázolható: Ismérvek (x,y) y1 y2 K yc összesen x1 x2 K xr összesen f11 f21 K fr1 f.1 f12 f11 K fr2 f.2 K K K K K f1c f21 K frc f.c f1. f2. fr. N Az f . j és f i gyakoriságokat, amelyek megmutatják, hogy a hozzájuk tartozó ismérvváltozathoz hány statisztikai egység tartozik, peremgyakoriságoknak nevezzük. A kettőnél több ismérv szerinti kombinatív csoportosítást ritkán alkalmazzák, mivel már három ismérv esetén is a tábla áttekinthetetlenné válik, de a lehetőség megvan rá, akár Ms Excel-ben is. Ms Excel segítségével szintén könnyen készíthető kombinációs tábla. Egy iskola diákjairól (sorszámmal azonosítva) ismert az évfolyamuk és a nemük. Szeretnénk e két ismérv szerint kombinatív osztályozást végezni. Ehhez az Adatok/Kimutatás vagy kimutatásdiagram menüpontot választjuk. A kimutatásvarázsló használatakor a következő beállításokat kell alkalmaznunk: Az első lépésnél Kimutatás forrásának

válasszuk a Microsoft Excel lista vagy adatbázist , illetve Kimutatás típusának a kimutatás pontot. 38 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel Második lépésben jelöljük ki a teljes adattartományt. A harmadik lépésnél válasszuk az Elrendezés gombot. 39 2003 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ekkor láthatóvá válik a leendő tábla alakja és jobb oldalon az egyes ismérvek láthatók. 40 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Egérrel húzhatjuk az ismérveket a megfelelő helyre. Állítsuk be az évfolyam ismérvet sorismérvnek, a nemet pedig oszlopismérvnek. A tábla közepébe, az adatmezőbe, húzzuk a sorszámot, mivel ez azonosítja a statisztikai egységeket. Az összesítéshez többféle függvényt is alkalmazhatunk. Alapértelmezésben számszerű adatokhoz az Összeg függvény van beállítva, amit alkalmazni gyakran

(például most is) értelmetlen. Dupla kattintással a kis szürke Összeg: azonosító feliraton új függvényt választhatunk. Válasszuk a DARAB függvényt (egyes Excel-verziókban MENNYISÉG), hiszen arra vagyunk kíváncsiak, hogy hány fiú, illetve lány van az egyes évfolyamokon. 41 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Visszatérve (az OK gomb lenyomásával) a harmadik lépéshez az Egyebek gomb lenyomásával egyéb speciális beállításokat is alkalmazhatunk, majd meg kell jelölnünk a leendő tábla helyét. Ehhez mi a létező munkalapot választottuk, de Új munkalapra is létrehozhatjuk a táblát. A műveletet a Kész gomb lenyomásával zárhatjuk. A következő ábrán látható az elkészült kombinációs tábla: A megjelenő Kimutatás menü segítségével különböző formázási beállítások is megadhatók a Kombinációs táblára. A létrejött táblából kiolvasható, hogy például két 9.

évfolyamos fiú, és összesen 15 lány vett részt a vizsgálatban Gyakorlásképpen oldjuk meg a fenti feladatot önállóan: statf18.xls 42 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 4.4 Sokaságok összehasonlítása A negyedik statisztikai alapművelet egy, vagy több sokaság összehasonlítása. Ez kimerülhet a sokaságok egységeinek felsorolásában is, de általában olyan adatok segítségével történik, amelyek tömören jellemzik a teljes sokaságot. Az összehasonlítást tehát gyakran megelőzi valamiféle információsűrítés, amelynek során az alapadatokból összetett adatokat, statisztikai mutatókat képzünk. alapadato k Információ sűrítés Statisztikai mutató Az egyes sokaságok alapadataiból azonos módon képzett mutatók már jól összehasonlíthatók, azonban gyakori az az eljárás is, hogy a mutatók különbségét, vagy hányadosát (viszonyszám), azaz egy újabb mutatót képezve próbálják

megragadni a sokaságok közti eltérések jellegét és mértékét. A mutatók különbségének képzésekor ügyelni kell arra, hogy különbség csak azonos mértékegységű mutatókból képezhető. Hányadosképzéskor ez a megkötés nem szükséges. A sokaságok összehasonlításánál sokszor alkalmazzuk a grafikus ábrázolás különböző formáit is, mivel ezek az ábrák rendkívül szemléletesen tükrözik a hasonlóságokat és különbségeket. A továbbiakban csak a sokaságok összehasonlításával, illetve az ehhez szükséges eszköztár kiépítésével foglalkozunk. 43 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 5. Elemzés viszonyszámokkal 5.1 Viszonyszámok típusai Két egymással összefüggő statisztikai adat hányadosát viszonyszámnak nevezzük. Ha A-val jelöljük a viszonyítás tárgyát, B-vel a viszonyítás alapját, V-vel pedig magát a viszonyszámot, akkor az általános képlet a következőképpen

írható: A V= B A viszonyszámokat gyakran százalékos formában értelmezzük. Fontos megjegyeznünk, hogy a %-kal, mint önálló mértékegységgel rendelkező százalékot %-pontnak nevezzük. Ha egy iskolában az évről évre felvett diákok növekedési üteme 5%-ról, 6%-ra nő, akkor azt mondhatjuk, hogy 1%-ponttal növekedett, de mondhatjuk azt is, hogy 20%kal növekedett (6/5=1,2). A fontos az, hogy a kétféle terminológiát következetesen alkalmazzuk. A viszonyszámoknak három legfontosabb fajtája a megoszlási viszonyszám, az intenzitási viszonyszám és a dinamikus viszonyszám. Megoszlási viszonyszámról akkor beszélünk, ha egy részsokaságot a hozzá tartozó teljes sokasághoz viszonyítunk. Ha egy gimnáziumban a felsőoktatási intézménybe felvettek számát (42 fő) viszonyítjuk az összes végzős diák számához (84 fő), akkor megoszlási viszonyszámot képzünk (42/84=0,5), amelynek ismeretében kijelenthetjük, hogy a diákok 50%-a nyert

felvételt. Az intenzitási viszonyszámok különböző típusú, de egymással összefüggő teljes vagy részsokaságok nagyságát jellemző számokból képzett hányadosok. Ha egy iskolában egy pályázaton nyert pénz összegét (1000000 Ft) viszonyítjuk a tanulók számához (250 fő), akkor intenzitási viszonyszámot képzünk (1000000/250=4000 Ft/fő). A dinamikus viszonyszámok idősorok adataiból képzett hányadosok. Ha a viszonyítási alapot többször is ugyanannak az időpontnak (bázisidőpont) az adatai jelentik, akkor bázisviszonyszámról, ha mindig az előző időpont adatai jelentik, akkor láncviszonyszámról beszélünk. Egy középiskolában 2001-ben a sikeres érettségi vizsgát tett diákok száma 110 fő, 2002-ben 132 fő, 2003-ban 143 fő. Ha a növekedést a 2001-es adathoz viszonyítva határozzuk meg, akkor bázisviszonyszámmal dolgozunk. Eszerint a sikeresen érettségizők száma 2001-ről 2002-re (132/110=1,2) 20%-kal, 2003-ra 2001-hez

viszonyítva (143/110=1,3) 30%-kal növekedett. Ha viszonyítási alapnak mindig az előző év adatát tekintjük, akkor láncviszonyszámokat képezünk. Eszerint a sikeresen érettségizők száma 2001-ről 2002-re (132/110=1,2) 20%-kal, 2002-ről 2003-ra pedig (143/132=1,083) 8,3%-kal nőtt. Mindez azt jelenti, hogy a növekedés 2002-ről 2003ra kissé lassult, a növekedés üteme (20-8,3=11,7) 11,7%-ponttal csökkent 44 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Látható, hogy két egymást követő adatból képzett bázisviszonyszám hányadosa megegyezik a belőlük képzett láncviszonyszámmal. Az előző példából: (143/110):(132/110)=143/132. Minden viszonyszám meghatározásakor külön gondot kell fordítani a viszonyítási alap kiválasztására. Ennek kiválasztása mindig a konkrét elemzés céljától függő, és ügyelni kell arra is, hogy ne legyen sem szélsőségesen nagy, sem szélsőségesen kicsi. Előfordulhat

az is, hogy egy (A/B) alakú (nyers) intenzitási viszonyszám esetében egy másik viszonyítási alap (b), amely részsokaság B-ben jobban kötődik a számlálóbeli adathoz. Ekkor lehetséges, hogy több információval szolgálna a vizsgálandó sokaságról az (A/b) alakú viszonyszám. Az (A/b) alakú viszonyszámot (tisztított) intenzitási viszonyszámnak nevezzük. Ekkor a következő összefüggést kell használnunk: A Ab , = B b B ahol (b/B) megoszlási viszonyszám, amelyet tiszta részaránynak nevezünk. Egy iskolában február hónapban rendkívül magas volt az ételmérgezéses megbetegedések száma. Az iskola vezetése tudni szeretné, hogy mennyiben felelős a megbetegedésekért az iskolai menzát február óta működtető vállalkozás. Ismertek a következő adatok január és február hónapból: A megbetegedések száma, a tanulók száma és az ebéd befizetésesek száma. Nyilván fontos meghatározni, hogy a megbetegedéseknek a tanulókhoz

viszonyított aránya (január: 25/500, február: 52/520) hogyan változott januárról februárra. A következő ábrán látható hogy igen nagy, kétszeres a növekedés, azaz a januárban „csupán” a tanulók 5%-a, februárban 10%-a betegedett meg. Ez a nyers intenzitási viszonyszám, azonban nem tükrözi igazán a menza felelősségét, hiszen a tanulók egy része nem a menzán étkezik. Helyesebb tehát másik viszonyítási alapot keresni, vagyis a tisztított viszonyszámokat meghatározni. Ez megtehető a megbetegedések és az ebéd befizetésesek arányának kiszámításával (január: 25/384, február: 52/490). Látható, hogy ez az arány kisebb mértékben változott, mint a nyers arány, hiszen januárban az ebéd befizetéseseknek 7%-a volt beteg, februárban pedig „mindössze” 11%-a, vagyis nem egyértelműen a menza üzemeltetője felelős a megbetegedésekért, mert az iskola összes tanulójára vetítve nagyobb mértékben nőtt a megbetegedések

száma. Valószínűleg valamilyen egyéb oka van a tömeges ételmérgezésnek, például az élelmiszer ellátó, amely az egész környék egészségét veszélyezteti, mert mindenki, beleértve a háztartásokat és a menza üzemeltetőjét is, itt szerzi be a szükséges alapanyagokat. Meghatározható még a tiszta részarány, azaz az ebéd-befizetéseseknek az összes tanulóhoz viszonyított aránya (januárban: 384/500=77%, februárban: 490/520=94%), amelynek növekedése szintén a menza üzemeltetőjének ártatlanságát igazolja, 45 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 hiszen több ebéd-befizetéses közül lett összesen kevesebb beteg, mint az iskolában általában. (A januári ételmérgezések száma csupán az illusztráció kedvéért ilyen irreálisan magas) Ha az eredeti adatokat nem ismertük volna, akkor a tisztított viszonyszámot a nyers viszonyszám és a tiszta részarány hányadosaként is meghatározhattuk

volna. A következő ábrán nyomonkövethető a számolás, az első táblázat a képleteket, második az eredményeket mutatja. A számítások önállóan is elvégezhetők (statf19.xls) 46 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 5.2 Néhány egyszerű elemzés viszonyszámokkal A következőkben tekintsünk meg két példát, ahol az elemzésekhez többféle viszonyszámot egyszerre kell alkalmaznunk. Egy településen felmérést végeztek arról, hogy az érettségizők hány nyelvvizsgával rendelkeznek. A felmérést öt évente megismételték Az adatok a következőképpen alakultak: Nyelvvizsgával rendelkezők száma az érettségizők körében Nyelvvizsgák száma 1985 1990 1995 910 990 670 0 70 190 200 1 15 10 24 2 5 10 6 3 vagy több 1000 1200 900 összesen 90 210 230 nyv. összesen A fenti adatokat elemezhetjük megoszlási- és dinamikus viszonyszámok segítségével egyaránt. Ezek meghatározásának módját láthatjuk

a következő ábrákon. A második táblázat a képleteket, a harmadik az eredményeket tartalmazza: A különböző számú nyelvvizsgával rendelkezők megoszlását az érettségizők között a megoszlási viszonyszámok segítségével elemezhetjük. Látható, hogy 1985-ben az érettségizőknek mindössze 9%-a rendelkezett nyelvvizsgával, de ez a helyzet jelentősen javult 1990-re (17,5%), majd 1995-re (25,6%). A növekedés 1985-ről 1990-re 133,3 %-os volt, 1985-ről 1995-re pedig 155,6%-os, tehát a második öt évben a növekedés üteme némileg visszaesett, 1990-ről 1995-re csak 9,5%-kal nőtt a nyelvvizsgával rendelkezők száma. A nyelvvizsgával rendelkezők között a 47 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 különböző számú nyelvvizsgával rendelkezők aránya az összesített aránytól eltérően alakult. Látható, hogy az 1 és 3 vagy több nyelvvizsgával rendelkezők aránya 1985ről 1990-re nagy

mértékben növekedett, míg a 2 nyelvvizsgával rendelkezők aránya jelentősen csökkent. A változás 1990-ről 1995-re másképp alakult, mert ekkor a 3 vagy több nyelvvizsgával rendelkezők aránya drámaian csökkent és megközelítette az 1985-ös szintet, a 2 nyelvvizsgával rendelkezők aránya viszont jelentős növekedésnek indult amellett, hogy az 1 nyelvvizsgával rendelkezők aránya továbbra is növekedett, de jóval kisebb mértékben, mint az azt megelőző öt évben. Pozitívan értékelhetjük, hogy míg az érettségizők összlétszáma először csupán kis mértékben növekedett, majd az 1985-ös szint alá csökkent, a nyelvvizsgával nem rendelkezők aránya folyamatosan csökkent. A számolásokat önállóan is elvégezhetjük (statf20xls) Egy településen öt éven keresztül regisztrálták a végzős tanulók számát, a tanárok számát és a felvételi létszámot. Az adatokat a következő táblázat mutatja (az előző év=100 jelölés azt

jelenti, hogy láncviszonyszámokat képezünk): Év Végzős tanulók száma Tanárok száma 1989 1990 1991 1992 1993 10421 10375 10355 10337 10310 368 382 395 409 414 Felvételi létszám (előző év=100) 100,1 99 97,8 98,7 Az idősoros ismétlődő adatfelvétel eredményeit különféle intenzitási viszonyszámok és azokból képezhető dinamikus viszonyszámok segítségével elemezhetjük. A második táblázat ismét a számításokhoz szükséges képleteket, a harmadik az eredményeket tartalmazza: A táblázatból kiolvasható, hogy a vizsgált időszakban a 100 tanulóra jutó tanárok száma érzékelhetően növekedett ezért a tanárok túlterheltsége csökkent. Folyamatosan csökkent azonban a 100 tanulóra jutó felvételi létszám, így romlottak a 48 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 diákok továbbtanulási esélyei, mindamellett, hogy a tanulók száma is folyamatosan csökkent. A tanulók tanárral

való „ellátottságát” kétféle mutató is szemlélteti, amelyek reciprok viszonyban állnak egymással, az 1 tanárra jutó tanulók száma és a 100 tanulóra jutó tanárok száma. A számításokat ismét elvégezhetjük önállóan (statf21.xls) 49 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 6. Gyakorisági sorok elemzése 6.1 Gyakorisági sorok típusai A gyakorisági sor vagy osztályközös gyakorisági sor formájában csoportosított sokaságot különféle elemzéseknek vethetjük alá. Az elemzés céljától és az ismérv mérési skálájától függően a gyakorisági sorból újabb, bizonyos jellemzőket jobban tükröző statisztikai sorokat készíthetünk. Szemléletes lehet például a gyakoriságokból képzett megoszlási viszonyszámok, az úgynevezett relatív gyakoriságok (gi) meghatározása. Mindez a következő képlet szerint történik: f gi = i N A születési hely, mint csoportképző ismérv szerint

csoportosított gyakorisági sor esetében, ha meghatározzuk a relatív gyakoriságokat, megtudhatjuk, hogy az egyes városokban a teljes sokaságnak hány százaléka született. Például Budapesten született a vizsgált személyek 28 %-a. A számításokat a következő ábra mutatja, az összeggel való osztásnál, mivel minden gyakoriságot ezzel osztunk, abszolút hivatkozást használtunk a könnyebb másolhatóság érdekében (statf22.xls) Abban az esetben, ha a csoportképző ismérv ordinális, vagy metrikus skálán mérhető, szemléletes jelentésük van az ún. kumulált gyakorisági soroknak A kumulálás mindössze a kérdéses ismérvváltozat előtti vagy utáni ismérvváltozatokhoz tartozó gyakoriságok összegzését jelenti. Ha az ismérvváltozat előtti ismérvváltozatokhoz tartozó gyakoriságokat összegezzük, akkor lefelé kumulált gyakorisági sort (fi’), ha az ismérvváltozat utáni ismérvváltozatokhoz tartozó gyakoriságokat összegezzük,

akkor felfelé kumulált gyakorisági sort (fi’’) kapunk. A kumulált gyakorisági sorokat relatív gyakoriságok esetén is meghatározhatjuk (gi’ és gi’’). A meghatározáshoz szükséges képletek a következők: i k i k j =1 j =i j =1 j =i fi = ∑ f j , fi = ∑ f j , gi = ∑ g j , gi = ∑ g j . 50 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ha csoportképző ismérv a nyelvvizsga szintje, akkor mivel ordinális skálán mérhető, meghatározhatjuk a lefelé- és felfelé kumlált gyakoriságokat. Az első táblázatban láthatók a számításhoz szükséges képletek, a másodikban az eredmények. A kumulált gyakoriságok meghatározásánál a kumulálásban részt vevő első értéket követően, relatív hivatkozás használata esetén a képletek könnyen másolhatók (statf23.xls) A lefelé kumulált gyakoriságok harmadik sora például azt jelenti, hogy a vizsgált személyek közül 16 diák

rendelkezik legfeljebb középfokú nyelvvizsgával, tehát középfokú, vagy annál rosszabb nyelvtudással. A lefelé kumulált gyakoriságok harmadik sora azt jelenti, hogy mindössze 6 diák rendelkezik legalább középfokú, tehát középfokú, vagy felsőfokú nyelvvizsgával. A lefelé kumulált relatív gyakoriságok harmadik sora azt jelenti, hogy a diákok 89%-a rendelkezik legalább középfokú nyelvvizsgával. A felfelé kumulált relatív gyakoriságok harmadik sora pedig azt jelenti, hogy a diákok 33%-a rendelkezik legfeljebb középfokú nyelvvizsgával. Metrikus skálán mérhető csoportképző ismérvek esetén meghatározható az úgynevezett értékösszeg sor (Si), illetve az ehhez tartozó relatív értékösszeg sor (Zi). Az értékösszeg sor az egyes csoportokba tartozó ismérvváltozatok összegét mutatja, a relatív értékösszeg sor pedig az értékösszegekhez tartozó megoszlási viszonyszámokat tartalmazza. Meghatározásukhoz szükséges

képletek a következők: S S i = xi f i , Z i = i . N 51 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A betegnapok számát tartalmazó osztályközös gyakorisági sorból meghatároztuk a relatív gyakoriságokat, az értékösszegeket és a relatív értékösszegeket. Ha a relatív értékösszegek meghatározásánál az összegre való hivatkozást abszolút hivatkozással oldjuk meg, akkor az első sor összes képlete másolható (statf24.xls) Az értékösszegek második sora például azt jelenti, hogy a betegség miatt 3-tól 5 napig hiányzók összesen 16 napot hiányoztak. A relatív értékösszeg sor második sora pedig azt jelenti, hogy a betegség miatt 3-tól 5 napig hiányzók az összes hiányzások 21 %-át tudhatják magukénak. Az értékösszeg és a relatív értékösszeg sorokhoz is meghatározhatók a megfelelő lefelé- és felfelé kumulált értékösszeg (Si’ és Si’’), illetve relatív értékösszeg

(Zi’ és Zi’’) sorok. A meghatározásukhoz szükséges képletek hasonlóak a kumulált gyakoriságok meghatározásához szükséges képletekhez: i k i k j =1 j =i j =1 j =i Si = ∑ S j , Si = ∑ S j , Z i = ∑ Z j , Z i = ∑ Z j . Az előző példához meghatároztuk az összes lehetséges kumulált sort is (statf25.xls): 52 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A lefelé kumulált értékösszegek (Si’) második sora azt jelenti, hogy azok a diákok, akik maximum 5 napot hiányoztak betegség miatt, összesen 26 napot hiányoztak. A felfelé kumulált értékösszegek (Si’’) második sora azt jelenti, hogy azok, akik 3 napnál többet hiányoztak, összesen 66 napot hiányoztak. A lefelé kumulált relatív értékösszegek (Zi’) második sora azt mutatja meg, hogy akik maximum 5 napot hiányoztak betegség miatt, azok az összes betegnapok 34%-át tudhatják magukénak. A lefelé kumulált relatív

értékösszegek (Zi’) második sora azt mutatja meg, hogy akik 3 napnál többet hiányoztak betegség miatt, azok az összes betegnapok 87%-át tudhatják magukénak. 6.2 Kvantilisek szerepe és meghatározása Osztályközös gyakorisági sorok készítésénél gyakran előfordul, hogy nem az azonos hosszúságú, hanem az azonos gyakoriságú osztályközök képzése hordoz szemléletes jelentést. Az azonos gyakoriságú osztályközök felső határát nevezzük kvantiliseknek. Tekintsük a következő példát: Egy diák tanulmányai során 48 hónapon keresztül regisztrálták a tanuló igazolt hiányzásainak átlagos számát. A tört adatok tanórákra utalnak Kétféle osztályközös gyakorisági sort készítettünk az adatokból, amelyeknek csak egy része látható a következő ábrán: Az azonos hosszúságú osztályközök meghatározásával és értelmezésével már foglalkoztunk. Az azonos gyakoriságú osztályközöket tartalmazó gyakorisági sor

negyedik sorából kiolvashatjuk, hogy a diák az esetek negyedrészében, azaz 48 hónapból 12-szer havonta átlagosan 5,1 napnál többet hiányzott (igazoltan). A második sorból pedig az olvasható ki, hogy a diák az esetek negyedrészében havonta átlagosan 3,5 és 3,9 nap között hiányzott. A kvantilisek értelmezése tehát sok esetben nagyon hasznos információt közvetít. Térjünk át a kvantilisek meghatározásának problémájára. A fenti példában négy egyforma gyakoriságú osztályköz képzését tűztük ki célul. Ezeknek az osztályközöknek a felső határát negyedrendű kvantiliseknek nevezzük. Néhány kvantilisnek, gyakori használata miatt külön neve is van. A negyedrendű kvantiliseket kvartiliseknek (Qi), az ötödrendű kvantiliseket kvintiliseknek (Ki), a tizedrendű kvantiliseket deciliseknek (Di), a századrendű kvantiliseket percentiliseknek (Pi), nevezzük. Az eredeti adatok felhasználásával a kvantilisek könnyen meghatározhatók.

Az i-dik k-adrendű kvantilis ugyanis nem más, mint a rendezett statisztikai sornak az eleme, amelynek sorszáma: 53 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel si / k = 2003 i ( N + 1) , k ahol N a gyakoriságok összege. A kvantilisek, számítógépen rögzített adatok meghatározhatók Ms Excel függvények segítségével is. 54 esetén, könnyen Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Az előző példában a kvartilis értékek meghatározásához a KVARTILIS függvényt használtuk. A függvény paraméterezése rendkívül egyszerű, tömbnek az adatokat tartalmazó tömböt kell megadni, a későbbi másolhatóság miatt célszerűen abszolút hivatkozással, a második paraméter (kvart), pedig arra utal, hogy hányadik kvartilist kívánjuk meghatározni. Mivel a sokaságot négy azonos gyakoriságú részre szeretnénk osztani, ezért kvartilisből mindig hármat tudunk meghatározni. A

képletek a következő ábrán láthatók (statf26.xls): A kvantilisek közül igen gyakori használata miatt egyedül a kvartilis meghatározásra tartalmaz a Ms Excel külön függvényt. A többi kvartilis meghatározásához a PERCENTILIS függvényt kell használnunk. Az előző példa adataival meghatároztuk a decilis értékeket. Ehhez a percentilis függvény paraméterezésénél az adattömb mellett azt a százalékot (K) kell megadni tizedestört formájában amely a sokaságnak a megfelelő kvantilis alatt elhelyezkedő hányadát tartalmazza. Az első decilisnél ez az érték: 0,1; mivel az első decilis az esetek egy tizedét tartalmazó csoportot jelöli ki. Mivel kilenc darab decilis értéket kell meghatároznunk, ezért célszerű a K értékeket relatív cellahivatkozással megadni, ahogy a következő ábrán is látszik. (statf27xls): 55 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A decilis értékek második sora tehát

például azt jelenti, hogy az esetek 2/10-ében, azaz 20%-ában a diák legfeljebb 3,14 napot hiányzott igazoltan. Látható, hogy a gyakoriságértékek ezúttal nem ugyanolyanok, de ez csupán annak köszönhető, hogy adatsorunkban sokszor fordul elő ugyanaz az érték, és ha ezek pont egy kvantilis körül helyezkednek el, akkor a GYAKORISÁG függvény a kvantilis alatti osztályközbe sorolja őket. Mindez a gyakorlatban nem okoz problémát, mivel ezeknek az adatoknak a hovatartozásáról amúgy is önkényesen döntenénk. Azért, hogy a félreértéseket elkerüljék, gyakran ki sem írják a kvantilisek által határolt osztályközökhöz tartozó gyakoriságokat, mivel azok a kvantilis értelmezéséhez egyáltalán nem szükségesek. 6.3 Statisztikai sorok grafikus ábrázolása Statisztikai sorok elemzésekor gyakran használunk grafikus megjelenítést a fontosabb tulajdonságok szemléltetésére. Az abszolút gyakoriságok ábrázolására általában (attól

függően, hogy függőlegesen, vagy vízszintesen kívánjuk a gyakoriságokat ábrázolni) oszlop- vagy sávdiagramot, illetve ezek térbeli megfelelőit alkalmazzuk. A születési helyekhez tartozó gyakoriságokat térbeli oszlopdiagramon ábrázoltuk (statf28.xls): Osztályközös gyakorisági sorok ábrázolásánál speciális típusú oszlopdiagramot, hisztogramot célszerű használni. Ennek sajátossága, hogy az oszlopok összeérnek az osztályközök határánál, amely a grafikusan ábrázolt osztályközös gyakorisági sor esetében alapvető elvárás. 56 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A betegnapok számát hisztogramon ábrázoltuk. Ehhez első lépésben ábrázolnunk kell az adatokat oszlopdiagramon, majd ha a diagram elkészült az egyik hasábra kattintva kétszer, annak tulajdonságait változtathatjuk. A megfelelő értékek 0-ra állításával beállítható, hogy se átfedés ne legyen az oszlopok

között, se térköz. Ezenkívül még számos speciális módosítás beállítható ízlés szerint, akár a megjelenítés tartalmára, akár formájára (pl.: színére) vonatkozóan Megjegyezzük, hogy a diagramoknak számos eleme (pl.: tengely, diagramfelület, rajzfelület, feliratok, stb.) módosítható az ilyen módon felhívható ablakokban, a későbbiekben még mutatunk példát néhány esetre. A hisztogram készítésének folyamatát nyomon követhetjük a következő ábrákon, ahol az első ábra a kezdeti, módosításokat nem tartalmazó oszlopdiagramot mutatja, a második a hasábra való dupla kattintás után megjelenő párbeszédablak beállításait mutatja, a harmadik pedig a kész hisztogramot (statf29.xls): Relatív gyakoriságok és egyéb megoszlások ábrázolására általában kördiagramot használunk, de több egymást követő adatsor ábrázolásánál gyakori a halmozott oszlop-, vagy halmozott sávdiagram használata is. 57 Sulinet

Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A kördiagram térbeli változatán (tortadiagram) ábrázoltuk a betegnapok relatív gyakoriságait (statf30.xls): A nyelvvizsgával rendelkezők megoszlásának oszlopdiagrammon szemléltettük (statf31.xls): változását halmozott Kumulált gyakorisági sorok, értékösszeg sorok, és általános idősorok esetében grafikus megjelenítéshez leginkább grafikont érdemes használni. 58 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A betegnapokat reprezentáló kumulált gyakorisági sorok ábrázolásához minden adatértéknél jelölt vonalgrafikont használtunk (statf32.xls): A tengelyekre kétszer kattintva újabb formázási lehetőségek állnak rendelkezésre. Mivel 20-as értékű gyakoriság az adatok között nem szerepel, beállítottuk, hogy az Y tengely skálájának maximuma 19 legyen. Az Y tengelyre való dupla kattintás után megjelenő

párbeszédablakot mutatja a következő ábra, ahol még számos beállítás, például a léptékek, a tengely metszéspontjának helye, illetve egyéb formai beállítások is megváltoztathatók: 6.4 Koncentráció elemzése A gyakorisági sorok elemzésekor gyakran felmerül a kérdés, hogy az értékösszeg hogyan oszlik meg a statisztikai egységek, vagy osztályközös gyakorisági sorok 59 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 esetén a csoportok között. Tekintsük a betegnapokat tartalmazó gyakorisági sort A fenti ábrán is látható, hogy az összes betegnapok jelentős részét (30 nap, 39%) a 9 és 11 közötti betegnappal rendelkezőknek köszönhetjük, azaz az értékösszeg jelentős része egy-két osztályközben csoportosul, koncentrálódik. A koncentráció tehát nem más, mint az értékösszeg jelentős részének, vagy egészének kevés egységre történő összpontosulása. A koncentráció jelensége

általában a gyakorisági és értékösszeg sorok elkészítése után felismerhető, azonban mértékének mérésére standard módszereket dolgoztak ki, hogy több sokaság koncentrációja összehasonlítható legyen. Léteznek különféle mutatók is a koncentráció mérésére, azonban a leggyakrabban használt módszer egy grafikus eljárás, a Lorenz-görbe ábrázolásának segítségével történik. A Lorenz-görbe tulajdonképpen a (lefelé) kumulált relatív értékösszegeket ábrázolja a (lefelé) kumulált relatív gyakoriságok függvényében. A görbe és az egységoldalú négyzet átlója által körülzárt terület nagysága arányos a koncentrációnagyságával. A betegnapok gyakorisági sorait tartalmazó táblázat alapján ábrázoltuk a feladathoz tartozó Lorenz-görbét. Ehhez a szükséges kumulált relatív gyakoriságokat és kumulált relatív értékösszegeket külön helyre másoltuk (irányított beillesztés használatával, hogy az

értékek megmaradjanak), valamint kiegészítettük mindkét adatsort a 0 értékkel, mivel konvenció szerint a Lorenz-görbét egy egység oldalú négyzetben szokás ábrázolni. Felvettünk egy segédvonalat, hogy a négyzet átlója is látható legyen, majd a függvények ábrázolására alkalmas Pont (XY) diagramtípust választva, az X és Y tengelyekre a megfelelő adatsort beállítva ábrázoltuk a görbét. Az egységoldalú négyzet konvenció miatt az előző szakaszban ismertetett technikával az 1 értékre állítottuk be a tengelyskálák maximumát. A következő eredményt kaptuk (statf33.xls): Ha a görbe közel egybeesne az átlóval, akkor az a koncentráció hiányát jelezné, ha szinte rásimulna az X tengelyre, majd meredeken emelkedne, akkor igen magas koncentrációval állnánk szemben. Jelen esetben a görbe és az átló által bezárt 60 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 terület valamivel kisebb, mint

a lehetséges legnagyobb terület fele, ezért viszonylag jelentős koncentrációval állunk szemben. 61 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Egy biológiai tanulmányi verseny során feljegyezték a tanulók nevét (név helyett sorszámok állnak), valamint azt, hogy melyik osztályba járnak és a versenyen elért pontszámukat (max. 100) Vizsgáljuk meg a pontszámok összegének osztályok szerinti koncentrációját (statf34.xls) Az eredeti adatok láthatók bal oldalt az A-B-C oszlopokban. A gyakorisági sorok elkészítése ebben az esetben némi megfontolást igényel. A relatív gyakoriság ugyanis azt fogja jelenteni, hogy egy osztály „hányadrészét” képviseli az összes osztálynak, vagyis mivel a példában nyolc különböző osztály lehetséges, ezért (gi=1/8) minden osztály esetében. Az értékösszegek meghatározását a SZUMHA függvénnyel végeztük, melynek paraméterezése a szerkesztőlécen látszik,

vagyis kritériumtartománynak a tanulók osztályát tartalmazó tartományt, kritériumnak a megfelelő osztályt tartalmazó cellát, összegzendő tartománynak pedig a pontszámokat tartalmazó tartományt jelöltük ki, a tartományokat abszolút, a kritériumot relatív hivatkozással a másolhatóság érdekében. Ezek után rendeznünk kellett a teljes táblát az értékösszegek szerint növekvő sorrendbe, azért, hogy a szokásos alakú Lorenz-görbét kapjuk. A rendezés után meghatároztuk a kumulált relatív gyakoriságokat és a relatív, majd a kumulált relatív értékösszegeket. A segédvonal felvétele után ábrázoltuk, majd a tengelyek formázásával a szokásos alakra hoztuk a Lorenz-görbét. Látható, hogy jelentős koncentrációval állunk szemben, azaz a versenyen elért pontszámok összességükben kevés osztályra csoportosulnak, azaz magas pontszámot csak kevés osztály tanulói értek el. A táblázatból kiolvasható, hogy az 1a és 2a

osztályokra összpontosul az összpontszám jelentős hányada. Ha ebben a két osztályban ugyanaz a tanár tanítja a biológiát, akkor levonható a következtetés, hogy a versenyen elért eredmények jelentős részben az ő munkájának köszönhetők. 62 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 7. Sokaságok egy ismérv szerinti vizsgálata 7.1 Sokaságok gyakorisági eloszlásainak jellemzői Sokaságok egy ismérv szerinti vizsgálatánál a gyakoriságok ismérvváltozatok közti elrendeződését gyakorisági eloszlásnak nevezzük. Ha két különböző sokaság azonos ismérv szerinti vizsgálatából származó eredményeket szeretnénk összehasonlítani, akkor a kitűzött cél szem előtt tartásával többféle szempontot kell figyelembe vennünk. A sokaságok sokféle szempontból különbözhetnek egymástól, illetve hasonlíthatnak egymáshoz. Tekintsük a következő gyakorisági eloszlások grafikus ábráit: 1. ábra

2. ábra 3. ábra Az első ábrán két eltérő helyzetű sokaságot láthatunk, amelyeknek a legjellemzőbb, leggyakrabban előforduló ismérvértékeik különböznek. A második ábrán két eltérő szóródású sokaságot láthatunk, amelyeknek a jellemző értékeik hasonlóak, de az egyik eloszlás (kék) gyakoriságai még a leggyakoribb értékektől viszonylag távol is elég nagyok, míg a másik sokaságnak (bordó) a gyakoriságai csak a jellemző értékek közelében lényegesek. A harmadik ábra két eltérő alakú sokaságot mutat. A gyakorisági eloszlás helyzete, szóródása és alakja tehát a sokaságról fontos információt hordoz, amelynek birtokában a sokaságok jobban összehasonlíthatók. A gyakoriságok e három jellemző tulajdonságának kvantitatív jellemzésére különféle statisztikai mutatókat dolgoztak ki, amelyek tömör, számszerű formában jellemzik a sokaság legfontosabb tulajdonságait. Mivel ezeknek a mutatóknak egyezményes

meghatározási módszerük van, segítségükkel az azonos ismérv szerint vizsgált különböző sokaságok jól összehasonlíthatók. A gyakorisági eloszlás helyzetére jellemző mutatók a középértékek. 7.2 Középértékek a) Módusz A módusz (Mo) bármilyen skálán mérhető ismérvek esetén meghatározható helyzeti középérték. Diszkrét ismérvek esetén a módusz a leggyakoribb ismérvváltozat. Megkérdeztek 10 végzős középiskolás diákot, hogy milyen pályán szeretnének továbbtanulni. Az eredmények a következők voltak: 63 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Jogász, Közgazdász, Jogász, Matematikus, Tanár, Tanár, Jogász, Közgazdász, Jogász, Közgazdász Ekkor a négy előforduló ismérvváltozat közül a leggyakoribb ismérvváltozat a „Jogász”, ezért Mo=Jogász. A leggyakoribb ismérvváltozat persze nem minden esetben létezik és nem is mindig egyértelmű. Az első esetben azt

mondjuk, hogy a módusz nem értelmezhető, a második esetben pedig azt, hogy a sokaság többmóduszú. A többmóduszú sokaságokat célszerű egymóduszú részsokaságokra bontani, mert a különféle mutatók értelmezése problémás lehet. Megkérdeztek 10 végzős középiskolás diákot, hogy milyen szintű nyelvvizsgával rendelkeznek. Az eredmények a következők voltak (N: Nem rendelkezik nyelvvizsgával, A: alapfokú, K: Középfokú, F: Felsőfokú): A, K, K, F, N, K, N, F, N, A Ebben az esetben az „alapfokú” és a „Nem rendelkezik nyelvvizsgával” ismérvváltozatok ugyanannyiszor és a leggyakrabban fordultak elő, tehát mindkettő módusz (Mo=A és Mo=N), azaz ez a sokaság többmóduszú. Megkérdeztek 10 végzős középiskolás diákot, hogy hetente átlagosan hány órát készülnek a felvételire. Az eredmények a következők voltak (órában mérve): 10, 1, 5, 6, 20, 13, 9, 3, 11, 2 Ebben az esetben minden ismérvváltozat egyszer fordul elő,

tehát a módusz nem értelmezhető. A módusz meghatározására a Ms Excelben külön statisztikai függvény, a MÓDUSZ függvény áll rendelkezésünkre. Paraméterezése egyszerű Statisztikai függvény, tehát bemenő paramétere az adatsor, eredményül pedig egyetlen értéket ad. A fenti példák esetében meghatároztuk a móduszt függvény segítségével. Ehhez a nominális és ordinális skálákat először transzformálni kellett (FKERES függvénnyel), mert a MÓDUSZ függvény csak számértékeket vesz figyelembe. A számítások után az eredményt visszatranszformáltuk az eredeti skálaértékre. Az eredmény felett a meghatározáshoz szükséges képlet is látható (statf35.xls): 64 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Gyakorisági sorok esetén a módusz a legnagyobb gyakoriságú csoporthoz tartozó csoportképző ismérvváltozat. 65 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel

2003 A születési helyek szerint csoportosított gyakorisági sorban a legnagyobb gyakoriságú csoporthoz tartozó ismérvváltozat a módusz, ezért először MAX függvénnyel megkereshetjük a legnagyobb gyakoriságot, majd FKERES függvénnyel a hozzá tartozó ismérvváltozatot. Ez, mint a táblából is látható: „Budapest” (statf36.xls) Ha az eredeti adatok nem állnak rendelkezésre csupán a belőlük képzett osztályközös gyakorisági sor, akkor a módusz közvetlenül nem határozható meg. A legnagyobb gyakoriságú osztályköz (modális osztályköz) meghatározható ugyan, de a módusznak az osztályközön belüli helyét csak becsülni lehet a következő képlet segítségével: k1 Mo = mo + h k1 + k 2 ahol mo: a modális osztályköz alsó határa, k1: a modális osztályköz gyakoriságának és az előző osztályköz gyakoriságának különbsége, k2: a modális osztályköz gyakoriságának és a következő osztályköz gyakoriságának

különbsége, h: a modális osztályköz hossza. A következő ábrán látható osztályközös gyakorisági sorból a móduszt a következőképpen becsülhetnénk a fenti képletnek megfelelően. Megkeressük a modiális osztályközt, amely a harmadik, hiszen ennek gyakorisága: 17. Ezután alkalmazzuk a fenti képletet: Mo = 6 + 17 − 4 (8 − 6) = 6,9629 (17 − 4) + (17 − 3) . 66 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ennek kiszámítása Ms Excelben az INDEX és HOL.VAN függvények használatát igényli. Először megkerestük a modális osztályközt, majd meghatároztuk annak sorszámát a saját oszlopán belül a HOL.VAN függvénnyel Ezután a sorszámot felhasználva, az INDEX függvénnyel meghatároztuk a modális osztályköz alsó határát és hosszát. A szükséges gyakoriságkülönbségeket is hasonlóan határoztuk meg. Végül a szükséges képletet alkalmaztuk a meghatározott részeredményekre

(statf37.xls): b) Medián A medián legalább ordinális skálán mérhető ismérvek esetén meghatározható helyzeti középérték. Azt az értéket jelenti amelynél kisebb ismérvváltozatok gyakorisága megegyezik a nála nagyobb ismérvváltozatok gyakoriságával. A medián (Me) tehát a megfigyelt értékeket két egyenlő gyakoriságú részre osztja ezért megegyezik például a második kvartilissel, illetve az ötödik decilissel. A medián sorszáma tehát páratlan számú megfigyelt ismérvérték esetén: (N+1)/2. A medián tehát az (N+1)/2-dik sorszámú ismérvváltozat a rendezett sorban: Me = x N +1 2 . 11 végzős középiskolai tanuló nyelvizsgaszintje ordinális skálán mérhető ismérv. Határozzuk meg a mediánt. Ehhez először készítsük el a rendezett sort: N, N, N, N, A, A, K, K, K, F, F Me = x11+1 = X 6 = A . 2 Mindezek miatt az alapfok az a nyelvvizsga szint, amelynél a megkérdezett személyek fele alacsonyabb szintű nyelvvizsgával, fele

magasabb szintű nyelvvizsgával rendelkezik. Páros számú megfigyelt ismérvérték esetén két középső érték adódik. Ekkor lehetőség szerint azokat átlagolni kell, vagyis: 67 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003   Me = 0,5 x N + x N  +1 2  2  Határozzuk meg a 10 megkérdezett végzős diák átlagos heti felvételire való készülési idejének mediánját. Ehhez először készítsük el a rendezzük a statisztikai sort: 1, 3, 4, 5, 6, 9, 10, 11, 13, 20   Me = 0,5 x10 + x10  = 0,5( x5 + x6 ) = 0,5(6 + 9) = 7,5 +1 2  2  Mindez azt jelenti, hogy a diákok fele heti 7,5 óránál kevesebbet, a fele 7,5 óránál többet készül a felvételire. A medián meghatározására szintén beépített statisztikai függvény használható a Ms Excelben, a MEDIÁN függvény. Határozzuk meg a mediánt az előző esetekben Ms Excel segítségével. Az ordinális skálán mérhető

ismérveknél ismét szükség van skálatranszformációra (az eredménynek pedig az eredeti skálára való visszatranszformálására), mivel a MEDIÁN függvény csak számértékeket tud értelmezni. A továbbtanulási ismérvet most kihagytuk az elemzésből, mivel nominális skálán mérhető ismérvek esetében a medián nem értelmezhető (statf38.xls) Gyakorisági sor formájában rendelkezésre álló adatok esetén a medián ahhoz a csoporthoz tartozó ismérvváltozat, amelynél a (lefelé) kumulált relatív gyakoriságok átlépik a 0,5-ös értéket, azaz az annál kisebb ismérvekhez tartozó ismérvváltozatok kumulált gyakorisága közel a fele a gyakoriságok összegének, azaz a statisztikai egységek számának: 68 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A következő ábrán a gyakorisági sornál látható, hogy a második csoportnál lépi át a kumulált relatív gyakoriság a 0,5-ös értéket, ezért a medián

értéke: „alapfokú”, vagyis a megkérdezettek fele rendelkezik alapfokú nyelvvizsgával vagy nem rendelkezik nyelvvizsgával, fele pedig alapfokúnál magasabb szintű nyelvtudással rendelkezik. Képlettel való meghatározása több lépésben történhet. Az FKERES függvénnyel megkereshetjük a 0,5-ös értéket a relatív kumulált gyakoriságok oszlopában, de az FKERES függvény az ehhez alulról legközelebb eső értéket adja eredményül. Emiatt amikor HOL.VAN függvénnyel meghatározzuk ennek a csoportnak a sorszámát, hozzá kell adnunk még egyet, hogy a mediánt tartalmazó csoport sorszámát kapjuk. Ekkor már a medián könnyen meghatározható az INDEX függvénnyel az ismérvváltozatokat tartalmazó tömbből. A számításokat a következő ábra mutatja (statf39.xls): Osztályközös gyakorisági sorok esetén, ha az eredeti adatok nem állnak rendelkezésre, akkor a mediánt hasonlóan a móduszhoz becsülni kell. Mindezt a következő képlet

segítségével tehetjük meg: x − xm−1 Me = xm−1 + m (0,5 − g m−1 ) gm , ahol xm−1 : a mediánt tartalmazó osztályköz alsó határa, xm : a mediánt tartalmazó osztályköz felső határa, g m : a mediánt tartalmazó osztályköz relatív gyakorisága, g m −1 : a mediánt tartalmazó osztályköz előtti osztályköz kumulált relatív gyakorisága. Tekintsük ismét a betegnapokat számon tartó táblázatot és becsüljük meg az adatsor mediánját. Az ábráról leolvasható, hogy a harmadik osztályközben lépik át a kumulált relatív gyakoriságok a 0,5-ös értéket, ezért a fenti képletnek megfelelően a medián a következőképpen becsülhető: Me = 6 + 8−6 (0,5 − 0,4) = 6,41 0,49 ; 69 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 azaz a diákok fele 6,41 napnál többet, fele pedig 6,41 napnál kevesebbet hiányzott betegség miatt. Függvényekkel ezt az értéket úgy kaphatjuk meg, hogy az előző

példához hasonlóan meghatározzuk, a mediánt tartalmazó osztályköz sorszámát, majd az a medián becsléséhez szükséges értékeket a sorszám segítségével, az INDEX függvény alkalmazásával, meghatározzuk. Ezután a fenti képlet segítségével becsülhető a medián értéke. A következő ábrán nyomon követhetők a számolások (statf40.xls): c) Számtani átlag A legelterjedtebb középérték a számtani átlag (röviden csak átlag), amely csak metrikus skálán mérhető ismérvekből számítható. Meghatározása a megfigyelt ismérvváltozatokból a következő képlet alapján történik: x + x2 + K + x N 1 N X = 1 = ∑ xi N N i =1 Határozzuk meg a 10 megkérdezett végzős diák átlagos heti felvételire való készülési idejének számtani átlagát: 1, 3, 4, 5, 6, 9, 10, 11, 13, 20 X = 1 + 3 + 4 + 5 + 6 + 9 + 10 + 11 + 13 + 20 =8 10 Mindez azt jelenti, hogy a 10 végzős diák átlagosan heti 8 órát tanul a felvételire. 70 Sulinet

Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Határozzuk meg a fenti átlagot számítógép segítségével. Ehhez a jól ismert ÁTLAG függvényt használhatjuk. (A másik két ismérvet azért hagytuk ki az elemzésből, mert az átlag csak metrikus skálán mért ismérvek esetében értelmezhető.) (statf41xls): Bizonyos esetekben egyes ismérvváltozatok fontosabb szerepet töltenek be a többi ismérvváltozatnál. Ekkor az átlag egy speciális esetét a súlyozott átlagot használjuk. Ennek általános képlete: s x + s x + K + sN xN 1 N X = 1 1 2 2 = N ∑ si xi s1 + s2 + K + s N si i =1 ∑ i =1 , ahol s1 , s2 , K , s N jelentik a az egyes ismérvváltozatok fontosságát tükröző súlyokat. Egyes helyeken, középiskolai illetve egyetemi-főiskolai felvételiknél nagyobb súllyal veszik figyelembe azokból a tárgyakból szerzett jegyet, amelyeknek a továbbtanulás szempontjából fontosabb szerepe van. Például műszaki iskolák gyakran

számítják be 1,5-es szorzóval a matematika és fizika jegyeket, vagy különböző speciális (humán-, reál-, stb.) tagozatokon nagyobb súllyal veszik figyelembe az emelt szinten oktatott tárgyakat. Tekintsünk erre egy példát Tegyük fel, hogy egy humán tagozatra való felvételinél négy évfolyam osztályzatait veszik figyelembe, de a humán tárgyakat nagyobb súllyal. Határozzuk meg a végső súlyozott átlagot! Ehhez először meg kell határoznunk a tantárgyi átlagokat az összes évfolyamra nézve és meghatározhatjuk az egyes évfolyamok tanulmányi átlagát is. Ezután, mivel a súlyokkal egyenként kellene összeszoroznunk az átlagokat és összeadnunk, a SZORZATÖSSZEG nevű függvényt használjuk. A szorzatösszeget pedig leosztjuk a súlyok összegével, amit SZUM függvény alkalmazásával határoztunk meg. Látható, hogy a tanuló a súlyozott átlagot figyelembe véve valamivel jobb teljesítményt mutat, mintha a súlyozatlan átlagot vennénk

figyelembe (statf42.xls): 71 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Gyakorisági sorok formájában rendelkezésre álló adatok esetén szintén súlyozott átlagot kell számolnunk, ahol a súlyokat a gyakoriságok képviselik. Egy iskolában megkérdeztek 96 tanulót, hogy hány helyre adták be a felvételi jelentkezésüket. A következő ábrán látható az adatok alapján összeállított gyakorisági sor. Számítsuk ki átlagosan hány helyre adták be jelentkezésüket a diákok! Világos, hogy súlyozott átlaggal kell számolni, hiszen egy helyre sokkal többen adtak be jelentkezést, mint három helyre, ezért nem vehetjük az átlagolásnál az 1 és 3 értékeket ugyanúgy figyelembe. Az eredményekből láthatjuk, hogy átlagosan 1,67 helyre adtak be jelentkezést. A számításokat a következő ábrán láthatjuk (statf43.xls): Osztályközös gyakorisági sorok esetében szintén súlyozott átlaggal kell számolnunk.

Ekkor szintén a gyakoriságok játsszák a súlyok, és az osztályközepek az ismérvváltozatok szerepét. Térjünk vissza a betegnapokat tartalmazó példához! Tegyük fel ismét, hogy az eredeti adatok nem állnak rendelkezésünkre. Ekkor az átlagos betegség miatti hiányzás mértékét súlyozott átlaggal tudjuk meghatározni. Az ábráról leolvasható, hogy a diákok átlagosan 5,37 napot hiányoztak betegség miatt (statf44.xls): d) Geometriai átlag Bizonyos estekben, például ha az adatok láncviszonyszám formájában állnak rendelkezésre a számtani átlag meghatározása nem vezet helyes eredményre. Ennek legtipikusabb példája az átlagos növekedési ütemek meghatározása. Ekkor, mivel a végső növekedési ütem az időszakok közti növekedési ütemek szorzataként 72 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 áll elő, ezért azok számtani átlagolása, nem ad eredményül olyan növekedési ütemet, amelyet

az időszakok közti növekedések helyére téve ugyanazt a végső növekedést kapnánk. Ebben az esetben más középértéket, a geometriai átlagot kell használnunk. A geometriai átlag meghatározására szolgáló általános képlet a következő: N X G = N x1 x2 L x N = N ∏ xi i =1 A következő ábrán látható adatok alapján kiszámítottuk a 100 tanulóra jutó tanárok évről évre történő százalékos növekedését. Ezek az adatok láncviszonyszámok, tehát az átlagos növekedés meghatározásához a geometriai átlagukat kell meghatároznunk. Erre a célra a MÉRTANIKÖZÉP nevű Ms Excel függvényt használtuk. Paraméterezése nyomonkövethető a következő ábrán, tartománynak egyszerűen az átlagolandó értékeket tartalmazó tartományt kell megadni. Az eredmények azt mutatják, hogy a 100 tanulóra jutó tanárok száma 1989 és 1993 között évente átlagosan 3,26 %-kal növekedett (statf45.xls): A különböző középértékek közötti

választás mindig a konkrét feladattól függ. Általában célszerű a lehető legtöbb fajta középértéket meghatározni, mert mindegyik értelmezése által újabb hasznos információhoz juthatunk. A módusz nagy előnye, hogy bármilyen skálán mérhető ismérv esetén elvileg meghatározható és nem érzékeny a kiugró értékekre, hátránya azonban, hogy nem mindig egyértelmű, sőt nem is mindig létezik. A medián viszont mindig létezik és mindig egyértelmű, valamint szintén nem érzékeny a kiugró értékekre, azonban legalább ordinális skálán mérhető ismérvek szükségesek ahhoz, hogy meghatározható legyen. A medián további előnye, hogy az ismérvváltozatoktól való eltérések abszolút értékét minimalizálja. A számtani átlag szintén mindig létezik és mindig egyértelmű, azonban csak metrikus skálán mérhető ismérvek esetén határozható meg és rendkívül érzékeny a kiugró értékekre. Mindez azt jelenti, hogy a minél

aszimmetrikusabb a gyakorisági eloszlás az átlag annál kevésbé jellemzi „jól” a sokaságot. A számtani átlag további előnye, hogy az egyes értékektől való eltérések négyzetét minimalizálja, ami azzal, jár, hogyha minden ismérvértéket a számtani átlaggal helyettesítenénk és a továbbiakban így kezelnénk a sokaságot, akkor a lehető legkisebb négyzetes hibát követnénk el. Tehát, ha minden ismérvváltozat helyébe a számtani átlagot tennénk és összegeznénk, akkor ugyanazt az eredményt kapnánk, mintha az eredeti ismérvváltozatokat összegeznénk. Láncviszonyszámok formájában rendelkezésre álló adatok esetén a csak a geometriai átlag meghatározásának van 73 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 értelme. Megjegyezzük, hogy egyéb középértékek is ismertek ezekkel azonban a továbbiakban nem foglalkozunk. Alkalmazható középérték Mérési skála Módusz Nominális skála

Medián Ordinális skála Átlag Metrikus skála A következő adatsorokból látszik, hogy az átlag érzékeny a kiugró értékekre: 101, 102, 102, 103 Mo = 102, Me = 102, X = 102 101, 102, 102, 200 Mo = 102, Me = 102, X = 126,25 7.3 Szóródási mutatók a) Szóródás terjedelme A szóródás terjedelme a legegyszerűbb és legkézenfekvőbb módon jellemzi a sokaság ismérvváltozatainak a szóródását. A terjedelem (R) a legnagyobb és legkisebb ismérvváltozat különbsége. R = max xi − min xi A terjedelem mutató hátránya, hogy csak a legnagyobb és legkisebb értékektől függ, így kevés információval szolgál a köztes értékek elhelyezkedéséről. A felvételire való heti átlagos tanulási órák esetében meghatároztuk a terjedelemmutatót. Ehhez először meg kellett határoznunk az adatsor minimumát és maximumát. Az eredmény azt jelenti, hogy a legtöbbet és legkevesebbet tanuló diák tanulási órái között igen nagy, 19 óra

különbség van (statf46.xls): 74 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 b) Átlagos abszolút eltérés A terjedelemmel szemben az átlagos abszolút eltérés (d) nevű szóródási mutató az ismérvváltozatoknak egy kitüntetett értéktől, az átlagtól való eltéréseinek abszolút értékeit átlagolja: 1 N d = ∑ xi − X N i =1 Ezt a mutatót viszonylag ritkán használják az abszolút érték problémás matematikai kezelhetősége miatt, de Ms Excelben az ÁTL.ELTÉRÉS függvénnyel könnyen meghatározható. Az előző példa adataival meghatároztuk az átlagos abszolút eltérés mutatót. Mindez azt jelenti, hogy a diákok felvételire való tanulási ideje abszolút értékben átlagosan 4,6 órával tér el az átlagos tanulási időtől (statf47.xls): c) Variancia és szórás A leggyakrabban használt szóródási mutatószám a variancia ( σ 2 ), illetve annak négyzetgyöke a szórás ( σ ). A variancia

tulajdonképpen az ismérvváltozatok átlagtól való eltérésének négyzeteit átlagolja: 2 1 N σ 2 = ∑ xi − X N i =1 ( ) ( ) 2 1 N xi − X ∑ N i =1 Az eredeti adatokból Ms Excel függvény segítségével mindkét mutató könnyen meghatározható. A sokaság varianciájának meghatározására a VARP, a szórás meghatározására a SZÓRÁSP függvényt használjuk. Megjegyezzük, hogy a Ms Excel tartalmaz VAR és SZÓRÁS nevű függvényeket is, azonban ezek más (induktív) elemzési célokat szolgálnak, és értelmezésük is eltér a fentiektől, ezért ezekkel a továbbiakban nem foglalkozunk. A sokaság varianciájának és szórásának meghatározására tehát a VARP és SZÓRÁSP függvényeket kell használnunk. σ = Határozzuk meg a felvételire való tanulás átlagos heti idejének szórását és varianciáját. Mivel az átlag: 8, ezért a variancia a következő képlettel lenne számolható: 75 Sulinet Expressz adatelemzési feladatok

elvégzése számítógéppel [ 2003 ] 1 (10 − 8)2 + (1 − 8)2 + K + (11 − 8)2 + (2 − 8)2 = 30,6 10 σ = 30,6 = 5,53 σ2 = A fenti értékeket Ms Excel függvény segítségével is meghatároztuk (statf48.xls): Mindez azt jelenti, hogy a tanulásra fordított idők átlagosan 5,53 órával térnek el az átlagostól. Másik értelmezésben, ha minden diák tanulási idejét az átlagos tanulási idővel (8 óra) helyettesítenénk akkor átlagosan 5,53 órányi hibát követnénk el. Abban az esetben, ha az eredeti adatok nem állnak rendelkezésre, hanem gyakorisági sor formájában adottak, akkor a variancia és szórás meghatározásánál figyelembe kell vennünk a gyakoriságokat, mint súlyokat. Ekkor az általános képlet a következőképpen módosul: 2 1 N σ 2 = ∑ f i xi − X N i =1 ( σ= 1 N ∑ f (x ) N i =1 i i −X ) 2 Határozzuk meg a súlyozott varianciát és a szórást a betegnapok számát nyilvántartó osztályközös

gyakorisági sorból. Ekkor a súlyokat az abszolút gyakoriságok, az ismérvváltozatokat pedig az osztályközepek képviselik. A súlyozott varianciát tehát a következő képlettel lehetne meghatározni: σ2 = [ 1 10(1 − 5,37) 2 + K + 1(13 − 5,37) 2 35 ] A táblázatban először meg kell határoznunk az osztályközepeknek a már korábban meghatározott (súlyozott) átlagtól való eltéréseinek négyzetét. Ezek meghatározási képletei láthatók a G oszlopban, értékei pedig a H oszlopban. Mindezek után ezen értékek gyakoriságokkal vett szorzatának az összegét határoztuk meg a SZORZATÖSSZEG függvény segítségével. A szorzatösszeget osztva a 76 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 gyakoriságok összegével kapjuk a varianciát, annak négyzetgyökét véve pedig a szórást. Az eredmények azt mutatják, hogy a különböző diákok betegnapjainak száma átlagosan 3,23 nappal tér el az átlagos

betegnapok számától (5,37) (statf49.xls): d) Relatív szórás Számos esetben szükség lehet arra, hogy a szóródás mérőszáma ne függjön az ismérv mértékegységtől, hanem valamilyen dimenzió nélküli tiszta mérőszám legyen. A leggyakrabban használt ilyen mutatószám a relatív szórás (V), amely a szórást az átlaghoz viszonyítja: σ V = X 77 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Az előző feladat adataiból meghatároztuk a relatív szórást. Az eredmény azt jelenti, a különböző diákok betegnapjainak száma átlagosan 60,2 %-kal tér el az átlagos betegnapok számától (5,37) (statf50.xls): 7.4 Alakmutatók A sokasági eloszlások alakját többféle mutatószámmal jellemezhetjük. Ezek között megkülönböztetünk csúcsossági és aszimmetria-mutatókat. Csúcsossági mutatókkal nem foglalkozunk, mivel nem rendelkezünk semmiféle összehasonlítási alappal a csúcsosság mércéjeként, ezért

a csúcsosságot itt csak két sokaság összehasonlításánál értelmezzük a két sokasági eloszlás grafikus ábrájának egybevetésével. Az aszimmetria-mutatók a sokasági eloszlások ferdeségét jelzik. Az egyik gyakran használt ferdeségi mutató a Pearson-féle aszimmetria-mutató (P): 3 X − Me P= ( σ ) Látható, hogy ez a mutató az átlag és a medián eltéréséből kiindulva mutatja az eloszlás aszimmetriájának irányát és mértékét. Ha P értéke pozitív, akkor baloldali aszimmetriával, ha negatív, akkor jobboldali aszimmetriával állunk szemben. A mutató értékének abszolút értéke pedig a ferdeség mértékét jelzi, és ha 1-nél nagyobb, az már meglehetősen erős aszimmetriára utal. Ha a mutató értéke 0, akkor a sokasági eloszlás szimmetrikus. A Ms Excel is rendelkezik beépített aszimmetriamutatóval, amely a FERDESÉG függvénnyel határozható meg Ennek értelmezése hasonló a Pearson-féle mutatóhoz. 78 Sulinet

Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Az igazolt hiányzások példájában meghatároztuk a kétféle ferdeségi mutatót. A mutatók értéke és a hisztogram is azt mutatja, hogy a sokaság közepes mértékű bal oldali aszimmetriával rendelkezik (statf51.xls): 79 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 8. Sokaságok több ismérv szerinti vizsgálata 8.1 Ismérvek közti kapcsolat Általában a sokaságok elemzésénél a sokaság több ismérv szerinti elemzését külön-külön is célszerű elvégezni, az előző leckében ismertetett módszerekkel. Mindezen túl azonban vizsgálhatjuk a sokaságot több ismérv szerint egyszerre is. Ha tehát az ismérveket nem egymástól függetlenül vesszük figyelembe, akkor felmerül a kérdés, hogy az egyes ismérvek közt milyen viszony áll fenn. Mivel kettőnél több ismérv együttes vizsgálata további matematikai és módszertani ismereteket

igényel, ezért a továbbiakban csak két ismérv kapcsolatával foglakozunk. Több ismérv esetén a ismérvek kapcsolata egy bizonyos szintig páronként is elemezhető. Milyen kapcsolat állhat fenn az ismérvek között? Tekintsük a következő példát. Az egyik ismérv legyen egy autó sebessége, a másik ismérv pedig az általa megtett út két óra alatt. Az adatokat pont XY-diagramon ábrázolva a következő ábrát kapjuk: Látható, hogy az egyik ismérv értéke egyértelműen meghatározza a másik ismérv értékét, tehát a két ismérv között függvényszerű kapcsolat van. Legyen most az egyik ismérv a diákok magassága, másik pedig a testsúlya. Ekkor a következő pontdiagramot kaphatjuk: 80 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ebben az esetben tehát nem határozza meg egyértelműen az egyik ismérv értéke a másik ismérv értékét, azonban az ábrán jól nyomon követhető, hogy érvényesül egyfajta

tendencia abban, hogy általában nagyobb testmagasság értékhez nagyobb testsúlyérték tartozik. Az ilyen típusú kapcsolatot az ismérvek közt sztochasztikus kapcsolatnak nevezzük. A gyakorlatban szinte mindig sztochasztikus kapcsolattal van dolgunk, mert a véletlen, a jelenségek megfigyelésénél a mérési hibák, illetve elhanyagolt tényezők miatt, mindig játszik valamilyen szerepet. Nem mennyiségi ismérvek esetén a pontdiagram nem alkalmas a sztochasztikus kapcsolat létének eldöntésére. Ekkor a kombinációs táblából kell kiindulnunk. A gyakoriságokból, amelyeket a kombinációs tábla tartalmaz a gyakorisági sorokhoz hasonlóan meghatározhatunk relatív gyakoriságokat (gij). Ezek meghatározása az abszolút gyakoriságoknak a statisztikai egységek számával történő osztása során kaphatók meg: f ij . g ij = N A relatív gyakoriságok mellett meghatározhatunk úgynevezett feltételes relatív gyakoriságokat, amelyek tulajdonképpen az egyes

részsokaságokhoz tartozó megoszlási viszonyszámok. Mindez azt jelenti, hogy az egyik ismérv szerinti ismérvváltozatokat rögzítettnek tekintjük és az azokhoz tartozó részsokaságokon belül képezünk relatív gyakoriságokat. Meghatározásuk tehát úgy történik, hogy az egyes gyakoriságokat elosztjuk a hozzájuk tartozó sor, vagy oszlopösszeggel, azaz a peremgyakoriságokkal, attól függően, hogy a sor, vagy oszlop szerinti ismérvet tekintjük rögzítettnek. Ha x-szel jelöljük a sorokban és y-nal az oszlopokban szereplő ismérvek ismérvváltozatait, akkor kétféle feltételes gyakoriságot számolhatunk: f ij f ij és g ij ( y | x) = , g ij ( x | y ) = f i. f. j ahol a függőleges vonal után jelenítjük meg a rögzített ismérvet. Egy felmérés során feljegyezték a diákokról a várost, amelyben laknak, valamint azt, hogy jelentkeztek-e felsőoktatási intézménybe. Az adatokat kombinációs táblába rendezve meghatároztuk a relatív

gyakoriságokat (1. ábra), majd a feltételes relatív gyakoriságokat először lakóhely (város) ismérv rögzítésével (2. ábra), majd a felvételi jelentkezés ismérv rögzítésével (3. ábra) Ekkor egyszer a sorösszegek, egyszer az oszlopösszegek veszik fel az 1 értéket. A számolásokhoz szükséges másolásra alkalmas képletek a szerkesztőlécben láthatók (statf52.xls) 1. ábra 81 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 2. ábra 3. ábra Abban az esetben, ha a perem relatív gyakoriságok (peremeloszlások) megegyeznének a hozzájuk tartozó sorok, illetve oszlopok feltételes relatív gyakoriságaival, akkor a két ismérv független lenne, mivel az egyik ismérv szerinti csoportosítás egyáltalán nem befolyásolná a másik ismérv szerinti gyakoriságokat. A fenti példában nem ez a helyzet, tehát a két ismérv között van valamiféle sztochasztikus kapcsolat. Ha a fenti példában független lenne a két

ismérv, akkor a feltételes gyakoriságok a következő ábra szerint alakultak volna: 82 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ebben az esetben a felsőoktatási intézménybe jelentkezők és nem jelentkezők aránya minden városban ugyanaz ezért a város ismerete semmiféle információval nem szolgál arról, hogy több, vagy kevesebb diák jelentkezett felsőoktatási intézménybe, így a két ismérv független. Ha a két ismérv között függvényszerű kapcsolat van, akkor az egyik ismérv ismérvváltozatának ismerete egyértelműen meghatározza a másik ismérv ismérvváltozatát. A fenti példában ez például úgy lehetséges, ha csak két várost vizsgálunk és a feltételes relatív gyakoriságok a következőképpen alakulnak: Ekkor tehát Budapesten csak olyan diákok végeztek, akik mindannyian jelentkeztek felsőoktatási intézménybe, Győrben pedig csak olyanok, akik nem jelentkeztek, azaz a lakóhely

(város) ismerete egyértelműen meghatározza, hogy a diák jelentkezett-e felsőoktatási intézménybe, vagy nem. A függvényszerű kapcsolat tehát csak ilyen extrém esetben állhat elő. Miután megállapítottuk, hogy a két ismérv között van-e kapcsolat, hozzáláthatunk a kapcsolat szorosságának elemzéséhez. A kapcsolat szorosságának elemzése után pedig mennyiségi ismérvek esetén kísérletet tehetünk a kapcsolat kvantitatív jellegének megragadására, egy modell segítségével, amely további következtetések forrása is lehet. Ez utóbbi vizsgálati eszközt regressziószámításnak nevezik. Tekintsük át először a kapcsolat szorosság vizsgálatának általános eszközeit. 8.2 A kapcsolat szorosságának mérése Az ismérvek közötti kapcsolat szorosságának mérési módszerét jelentősen befolyásolja, hogy milyen skálán mérhetők a kérdéses ismérvek. Attól függően, hogy a két ismérv ugyanolyan skálán mérhető-e, illetve hogy a

skála nominális, ordinális, vagy metrikus-e, a kapcsolatokat más-más elnevezéssel illették és más-más kapcsolat-szorossági mutatót dolgoztak ki a kapcsolat szorosságának jellemzésére. Ha mindkét ismérv nominális skálán mérhető, akkor asszociációs kapcsolatról, ha mindkét ismérv metrikus skálán mérhető, akkor korrelációs kapcsolatról, ha mindkét ismérv ordinális skálán mérhető, akkor pedig rangkorrelációs kapcsolatról beszélünk. Ha azonban az egyik ismérv metrikus skálán mérhető, a másik pedig nominális skálán, akkor a vegyes kapcsolat elnevezést használjuk. A kapcsolatok szorosságának mérésére ennek megfelelően többféle mutatót dolgoztak ki, mi itt azonban csak a legelterjedtebb mutatókkal foglakozunk. Mindegyik mutató a két ismérv felvett ismérvváltozatainak felhasználásával határozható meg. Egy kapcsolat-szorossági mutató abszolút értéke általában 0 és 1 között mozoghat. Ha az értéke 0, akkor a

két ismérv között nincs kapcsolat, tehát függetlenek. Ha az értéke 1, akkor a két ismérv között függvényszerű kapcsolat áll fenn. Mindkét eset a valóságban igen ritkán fordul elő, a kapcsolatok sztochasztikus 83 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel jellege miatt. Ha a mutató abszolút értéke 0,5 közelében van, erősségű kapcsolatról és minél közelebb van az 1 értékhez kapcsolatról beszélünk. Ellenkező esetben, tehát ha az érték minél nullához, annál gyengébb kapcsolatról beszélünk. Tekintsük legfontosabb kapcsolat-szorossági mutatókat. 2003 akkor közepes annál erősebb közelebb van a át röviden a a) Asszociáció Két nominális skálán mérhető ismérv kapcsolat-szorosságának megítéléséhez induljunk ki az együttes gyakorisági eloszlást tartalmazó kombinációs táblából. Ahhoz, hogy az ismérvek közötti kapcsolatról képet kapjunk határozzuk meg először, hogy

mekkorák lennének az egyes gyakoriságok, ha a két ismérv független lenne egymástól. A két ismérv függetlenségének feltételezése melletti gyakoriságokat (f*) a következő képlet segítségével számíthatjuk ki: f i. f j , f ij* = N azaz a megfelelő gyakoriságokhoz tartozó peremgyakoriságokat összeszorozzuk és osztjuk a gyakoriságok összegével (N). Mindezek után összevethetjük, hogy az eredeti gyakoriságok milyen mértékben térnek el azoktól a gyakoriságoktól, amelyeket akkor kaptunk volna, ha a két ismérv független lenne. A lakóhely (város) és felsőoktatási intézménybe való jelentkezés nominális ismérvek közötti asszociációs kapcsolat szorosságának vizsgálatához meghatároztuk a két ismérv függetlenségének feltételezése melletti gyakoriságokat. A meghatározáshoz szükséges képlet a szerkesztőlécben látható. Az abszolút és vegyes hivatkozásoknak köszönhetően a képlet könnyen másolható. (statf53xls)

Látható, hogy a fenti esetben is bizonyos ismérvkombinációk esetében jelentős az eltérés, bizonyos kombinációk esetében pedig szinte elhanyagolható. Nekünk valamilyen módon az eltérésekből adódó összhatást kellene figyelembe 84 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 vennünk az eltérés irányától függetlenül. Mindezt a khi-négyzet mutató ( χ 2 ) segítségével tehetjük meg, amelynek meghatározási képlete a következő: c r χ = ∑∑ 2 (f ij − f ij* ) 2 , f ij* azaz az eredeti gyakoriságoknak a függetlenség feltételezése melletti gyakoriságoktól való négyzetes eltéréseinek a függetlenség feltételezése melletti gyakoriságokkal elosztott értékét kell minden elem esetében összegezni. Ez a mérőszám jól tükrözi az eltérések összhatását. i =1 j =1 85 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Az előző példa folytatásaként

meghatároztuk az összegzendő relatív eltérésnégyzeteket egy következő táblázatban, majd azok összegzésével meghatároztuk a χ 2 -mutatót. A relatív eltérésnégyzetek meghatározásának képletében, amely a szerkesztőlécben látható, relatív hivatkozást használtunk, a könnyebb másolhatóság érdekében. A khi-négyzet mutató összegzési képlete a kapott érték mellett látható (statf54.xls): A khi-négyzet mutató értéke nulla és N min{c − 1, r − 1} között mozoghat, ahol min{c − 1, r − 1} a c-1 és r-1 számok közül a kisebbet jelenti. Ha tehát a khi-négyzet mutató értékét elosztjuk a lehetséges maximális értékével, azaz a kombinációs tábla sor- és oszlopszámának eggyel csökkentett értékei közül a kisebbel, és az eredményből gyököt vonunk a négyzetre emelés inverzeként, akkor egy kapcsolatszorossági mutatónak alkalmas, 0 és 1 közötti számot kapunk. Ez a mutató a leggyakrabban alkalmazott

asszociációs kapcsolat-szorossági mérőszám, a Cramerféle asszociációs együttható (C). Meghatározásának általános képlete pedig: C= χ2 N min{c − 1, r − 1} 86 . Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A fenti példát folytatva meghatároztuk Cramer-féle asszociációs együtthatót a két ismérv közti kapcsolat mérésére (statf55.xls): Az asszociációs együttható értéke azt mutatja, hogy viszonylag gyenge kapcsolat van a lakóhely (város) és a felsőoktatási intézménybe való jelentkezés ismérvek között. b) Korreláció Metrikus skálán mérhető ismérvek kapcsolatát viszonylag jól szemlélteti a már megismert pontdiagram. Tekintsük most néhány lehetséges esetnek a pontdiagramját: 1. ábra 2. ábra 87 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 3. ábra 2003 4. ábra Az 1. ábrán a két ismérv között pozitív lineáris jellegű kapcsolat van, azaz

ha az egyik ismérv értékeit növeljük, akkor a másik ismérv értékei azzal arányosan szintén nőni fognak. A 2 ábrán egy olyan eset látható, amikor a két ismérv között negatív lineáris jellegű kapcsolat van, azaz ha az egyik ismérv értékei növekszenek, akkor a másik értékei azzal arányosan csökkennek. A 3 ábrán a kapcsolat a két ismérv között nem lineáris, bár világosan látszik, hogy valamilyen tendencia érvényesül abban, hogy az egyik ismérv értékeinek növelésével a másik ismérv értékei hogyan változnak, de a kapcsolatot nem lehet csak arányos változásként jellemezni. A 4 ábrán a két ismérv független, vagy nagyon gyenge lineáris kapcsolat van köztük. A korrelációs kapcsolatok elemzését mindig célszerű a pontdiagram vizsgálatával kezdeni, mivel ez rögtön képet ad a kapcsolat jellegéről, mértékéről és irányáról. A nem lineáris kapcsolat szorosságának mérésére speciális mérési eljárások

szükségesek, amelyek tárgyalása meghaladja e tananyag kereteit. A lineáris kapcsolat szorosságának mérésére azonban jól bevált eszközökkel rendelkezünk. Ha az egyik ismérvet x-szel, a másikat pedig y-nal jelöljük, akkor a két ismérv együtt-ingadozásának fontos mérőszámát a kovarianciát ( C xy ) a következő képlettel kapjuk meg: 88 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 ∑ (x − X )(y − Y ) N C xy = i =1 . N A korrelációs kapcsolat legelterjedtebb mérőszáma pedig az ún. lineáris korrelációs együttható (r), amelynek általános képlete a következő: C xy r= , σ xσ y azaz a kovarianciát el kell osztani a két ismérv alapján számolt szórások szorzatával. A lineáris korrelációs együttható –1 és 1 közötti értékeket vehet fel. Ha értéke 1, akkor azt mondhatjuk, hogy az ismérvek közt pozitív lineáris függvényszerű kapcsolat van. Ha értéke –1, akkor negatív

lineáris függvényszerű kapcsolatról beszélünk. Ha a nulla értéket veszi fel, akkor a két ismérv független, azaz nincs köztük kapcsolat. Ha a korrelációs együttható abszolút értéke 0,5 felett van, akkor előjelének megfelelően erős pozitív lineáris vagy erős negatív lineáris kapcsolatról beszélhetünk. Ha pedig 0,5 alatt van, akkor gyenge pozitív illetve gyenge negatív lineáris kapcsolattal állunk szemben. A lineáris korrelációs együttható és a kovariancia meghatározása Ms Excel segítségével rendkívül egyszerű, mivel beépített függvényt hívhatunk segítségül. Mind a KOVAR, mind a KORREL függvény paraméterezésekor mindössze a két ismérv adatait tartalmazó adattartományokat kell megadnunk. 89 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Egy iskola tanulói között felmérést készítettek, hogy hetente átlagosan mennyit készülnek az egyetemi felvételire, majd a felvételit

követően feljegyezték az elért pontszámokat. Vizsgáljuk meg, hogy mennyire segítette elő a gondos készülés, a jobb felvételi eredményeket, azaz a két metrikus skálán mérhető ismérv között milyen erős a kapcsolat. A pontdiagramos grafikon alatt látható a használt függvények paraméterezése és a kapott értékek (statf56.xls): A pontdiagram alapján megállapíthatjuk, hogy a két ismérv között jó közelítéssel lineáris kapcsolat van, ezért használhatjuk a lineáris korrelációs együtthatót a kapcsolat szorosságának mérésére. Közbenső lépésként meghatároztuk a kovariancia értékét is. A korrelációs együttható értéke azt mutatja, hogy erős pozitív irányú lineáris kapcsolat van a két ismérv között, azaz a felvételire való készülés nagymértékben javította az elért pontszámot a vizsgált diákok körében. c) Rangkorreláció Ordinális skálán mérhető ismérvek esetén szintén vizsgálhatjuk a kapcsolat

szorosságát a metrikus skálán mérhető ismérveknél megismert módszerrel. Ennek érdekében úgy kell eljárnunk, hogy először skálatranszformációval minden ismérvváltozathoz egy számértéket, úgynevezett rangszámot rendelünk. Ezután a számértékekből, mint ismérvváltozatokból meghatározzuk a lineáris korrelációs együtthatót. Az együttható értelmezése azonos az előző szakaszban ismertetett értelmezéssel. 90 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Egy osztályban megvizsgálták, hogy milyen erős a kapcsolat a diákok matematika és nyelvtan osztályzatai között. Az osztályzatokat először skálatranszformációval számértékekké alakítottuk, majd meghatároztuk a lineáris korrelációs együtthatót az előző szakaszban megismert módon (statf57.xls): A korrelációs együttható értéke a két tantárgy osztályzatai között közepes erősségű pozitív kapcsolatot jelez, amely

alátámasztja, de önmagában semmiképpen sem igazolja azt a sejtést, hogy a két tantárgy elsajátításához hasonló képességekre van szükség. d) Vegyes kapcsolat Vegyes kapcsolatról akkor beszélünk, ha az egyik ismérv minőségi ismérv, a másik pedig mennyiségi. Ekkor az elemzéshez a sokaságot a minőségi ismérv ismérvváltozatai szerint részekre kell bontanunk. Az előző leckében tanultakat figyelembe véve meghatározhatjuk a részsokaságok középértékeit és szóródási mutatóit. Ezek összevetése önmagában is érdekes lehet, hiszen képet kaphatunk arról, hogy ha részsokaságokat külön sokaságként kezeljük, akkor a mutatók segítségével történő összehasonlításuk milyen összefüggésekre derít fényt. A részsokaságok együttes kezeléséhez azonban további elemzésekre van szükség. Ha a két ismérv között függvényszerű kapcsolat lenne, akkor a minőségi ismérv minden egyes ismérvváltozatához a mennyiségi

ismérvnek egyetlen ismérvváltozata tartozna. Ekkor tehát a részsokaságokon belül a részekhez tartozó középértékek körüli szóródása a mennyiségi ismérv ismérvváltozatainak nulla lenne. Abban az esetben, ha nem nulla a részsokaságokon belüli szóródás, akkor annak mértéke jelzi a két ismérv közötti kapcsolat szorosságát. 91 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A j-dik részsokaság varianciáját a részsokaságon belüli átlag ( X j ) körüli szóródási mutatóként értelmezhetjük, ahol Nj a részsokaság statissztikai egységeinek száma. Ekkor tehát a részsokaság varianciájának képlete: N 1 j 2 σj = ∑ xij − X j . N j i =1 A részsokaságok varianciáinak a részsokaságok statisztikai egységeinek számával súlyozott átlaga, a belső variancia ( σ B2 ), a teljes sokaságra kiterjesztve jelzi, hogy a részsokaságokon belül átlagosan mekkora a saját középérték körüli

szóródás, tehát a két ismérv kapcsolata mennyire tekinthető szorosnak a sokaság összes adatának figyelembevételével: ( ) k σ B2 = ∑ N jσ 2j . j =1 A sokaság teljes varianciája ( σ ) tehát a részsokaságokon belüli szóródásra jellemző belső varianciából és a sokaság részekre bontásából adódó külső varianciájából ( σ K2 ) áll össze, amely a részsokaságokon belüli részátlagoknak a teljes sokaság átlaga körüli szóródását jellemzi: σ 2 = σ B2 + σ K2 . Ha a belső variancia értéke nulla lenne, azaz a két ismérv között függvényszerű kapcsolat lenne, akkor a teljes variancia megegyezne a külső varianciával. Tehát a külső varianciának a teljes varianciához viszonyított aránya, az úgynevezett variancia hányados (H2) megmutatja, hogy a minőségi ismérv szerinti részekre bontás hány százalékot magyaráz meg a mennyiségi ismérv ismérvváltozatainak szóródásából: 2 H2 = σ K2 . σ2 A variancia

hányados négyzetgyöke pedig, amely valójában a külső és teljes szórás hányadosa (H), egy 0 és 1 közé eső számérték, tehát alkalmas kapcsolatszorossági mérőszámnak. Értelmezése hasonló az asszociációs együtthatóéhoz, azaz ha értéke 1, akkor a két ismérv között függvényszerű a kapcsolat, ha értéke 0, akkor a két ismérv független egymástól. A két szélső határ között pedig megállapíthatjuk a kapcsolat szorosságának mértékét: H= σK . σ 92 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Egy tanulmányi versenyen feljegyezték, hogy a tanulók melyik iskolából jöttek, és hány pontot értek el a versenyen. Az iskola neve minőségi ismérv, az elért pontszám pedig mennyiségi ismérv, így ha azt kívánjuk elemezni, hogy mennyire függ a gyerekek pontszáma attól, hogy melyik iskola küldte őket, akkor vegyes kapcsolattal állunk szemben. Az adatokat már a sokaságok

csoportosításának ismertetésénél részekre bontottuk először a rendezés, majd az Adatok/Részösszegek menüpont választásával. A részsokaságokon belüli átlagok, varianciák és szórások képzése egyszerűen megoldható szintén ennek a menüpontnak a használatával, ahol a szükséges függvények kiválaszthatók. Amennyiben a függvény kiválasztása után a Részösszegek lecserélése pontot inaktívvá tesszük, akkor láthatóvá válik minden fontos adat, amelyeket egyenként újabb függvény választásával határozhatunk meg. A következő ábrán láthatók a szükséges adatok, ahol a jobb áttekinthetőség érdekében csak a rész és teljes sokaságok összefoglaló mutatóit jelenítettük meg (mindezt a Windows Intézőhöz hasonló bal oldali megfelelő – jel, +jellé változtatásával értük el), valamint a párbeszédablakot is megjelenítettük az utolsó beállítás szemléltetése érdekében (statf58.xls): Látható, hogy a PU nevű

iskola diákjai érték el átlagosan a legjobb pontszámot és a pontszámok szóródása is az ő esetükben a legkisebb, ami szisztematikus felkészültségre utal a diákok részéről, azonban ők képviseltették magukat a legkevesebb résztvevővel a versenyen, ami viszont befolyásolja mutatóik alakulását, hiszen a többi iskola több versenyzője között nagyobb eséllyel találunk olyan tanulót, aki rontja az elért pontszám átlagot, illetve növeli a pontszámok szóródását. 93 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Térjünk most vissza eredeti kérdésünkre, azaz arra, hogy mennyiben befolyásolja összességében a küldő iskola, az elért pontszámot. Ehhez meghatároztuk a belső és külső varianciát (a teljes variancia a táblázat alján már rendelkezésre áll), a variancia hányadost és a H-mutató értékét. A belső variancia képlete, hosszúsága miatt a szerkesztőlécben látható (statf59.xls): A

variancia hányados értéke azt mutatja, hogy az elért pontszámok szóródását összességében az iskola ismérv szerinti felbontás közel 70 %-ban magyarázza, azaz a pontszámok eloszlásának bizonytalanságát az iskola ismerete 70 %-kal csökkenti. A H-mutató értéke pedig, az előző megállapítással összhangban, azt mutatja, hogy az iskola, mint minőségi ismérv, illetve az elért pontszám, mint mennyiségi ismérv között igen erős vegyes kapcsolat áll fenn. 8.3 A regressziószámítás alapjai Mennyiségi ismérvek közti kapcsolat esetén a kapcsolat szorosságán kívül, annak kvantitatív jellegét is elemezhetjük. Mindez azt jelenti, hogy ha például tudjuk, hogy a két ismérv között pozitív irányú lineáris kapcsolat van, azaz az egyik ismérv értékeinek növekedése esetén a másik ismérv azzal arányosan szintén nőni fog, akkor megpróbálhatjuk valamilyen módszerrel meghatározni, hogy hányszorosára fog nőni a másik ismérv, vagy

pontosabban fogalmazva milyen függvénnyel tudnánk a kapcsolatot legjobban leírni. Az ilyen típusú függvények meghatározásával és elemzésével foglalkozik a regressziószámítás. 94 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Ha x jelöli az egyik mennyiségi ismérvet és y a másikat, akkor a regressziószámítás elsődleges célja tehát egy olyan függvény keresése, amely egy statisztikai egységhez tartozó x érték ismeretében „viszonylag” jó becslést ad y értékére. Ezt a függvényt regressziós függvénynek nevezzük és ha ŷ jelöli az y-ra becsült értéket, akkor általános alakja a következő: yˆ = f ( x ) . A regressziós függvény típusát tekintve többféle lehet, azonban itt most csak a legegyszerűbb esettel a lineáris regresszióval foglalkozunk, amikor a két ismérv kapcsolatát leíró függvény lineáris függvény. A megfelelő függvénytípust kiválaszthatjuk a pontdiagram

alapján, amely általában megfelelően mutatja, hogy milyen jellegű tendencia érvényesül a két ismérv kapcsolatában. Ha a regressziós függvény lineáris, akkor általános alakja a következő: yˆ = ax + b . A feladatunk tehát az a és b paraméterek meghatározása, abból kiindulva, hogy ŷ a lehető legjobb becslése legyen y-nak, azaz, hogy az ( yˆ − y ) = u négyzetes hiba minimális legyen. A négyzetre emelésre azért van szükség, hogy a becsült értéktől való eltérések előjele ne befolyásolja az eredményeket. Különböző matematikai eljárások segítségével a fenti feladat megoldható, azonban kiterjedt matematikai eszköztárat igényel, ezért a megoldás menetével és részleteivel nem foglalkozunk. Az a és b paraméterek becslését Ms Excelben is elvégezhetjük, amely a szükséges matematikai apparátus ismerete nélkül is lehetővé teszi a további elemzést. Mivel a b paraméter egy lineáris függvénynél az y tengelymetszetet

jelenti, az a paraméter pedig a függvény meredekségét, ezért meghatározásukat rendre a METSZ és MEREDEKSÉG függvények segítik. 2 Vizsgáljuk a meg az előző szakaszban ismertetett példát a felkészülésre fordított idő és az elért felvételi pontszám kapcslatáról. Mivel a pontdiagram alapján megállapítható, hogy a két ismérv között jó közelítéssel lineáris kapcsolat van, ezért a METSZ és MEREDEKSÉG függvényekkel meghatározhatók a lineáris regressziós függvény paraméterei. Ismert y-nak az elért felvételi pontszámok tartományát, ismert x-nek, pedig a felkészülésre fordított időket tartalmazó adattartományt adtuk meg (statf60.xls): 95 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A keresett lineáris regressziós függvény tehát: yˆ = 4,6243 x + 50,67545 . A paraméterek értelmezése a következő. Az a paraméter azt jelenti, hogyha a felkészülésre fordított időt 1 órával

növelné egy diák, akkor átlagosan 4,6243 ponttal növekedne a felvételin elért pontszáma. A b paraméter azt jelenti, hogyha egy diák egyáltalán nem készül (0 órát készül hetente) a felvételire, akkor átlagosan 50,67545 pontot ér el. Az a paraméter tehát mindig értelmezhető, de a b paraméter nem mindig, ekkor pusztán a modell szükséges velejárójának tekintjük. A regressziós elemzés kezdetekor mindig el kell döntenünk, hogy melyik ismérvet tekintjük magyarázó változónak, azaz melyik ismérv tekinthető a másik „okának”. Esetünkben a döntés nem volt nehéz, mivel a felvételire való készülés időben is megelőzi a felvételin elért pontszámot, azonban a döntés korántsem mindig ilyen egyértelmű. Ha nem tudjuk eldönteni, hogy melyik ismérv okozza a másik változását, akkor hasznos lehet kétféle regressziós egyenest is becsülni úgy, hogy egyikben az x ismérv, másikban az y ismérv a magyarázó változó, majd a

kétféle eredményt összevetni. A regressziószámítás speciális esete az idősorok esetén alkalmazott trendszámítás, amely tulajdonképpen formailag egy regressziós modellt takar, amelyben az idő a magyarázó változó. Természetesen az eltelt idő önmagában elég kevés dolognak lehet oka, ezért itt csak formai hasonlóságról van szó, azonban az egyenletek becslése és értelmezése a két esetben azonos. A regressziós modell jóságának megítélésére, azaz arra, hogy eldöntsük mennyire ad jó becslést a regressziós függvény, számos módszer ismeretes. Ezek közül az egyik legegyszerűbb, a determinációs együttható (R2) kiszámítása. A determinációs együttható a becsült ŷ értékek és az ismert y értékek varianciájájának hányadosa, lineáris esetben a korrelációs együttható négyzete: σ y2ˆ R = 2. σy 2 Az előző példához meghatároztuk a determinációs együtthatót (statf61.xls): 96 Sulinet Expressz

adatelemzési feladatok elvégzése számítógéppel 2003 A determinációs együttható értéke azt mutatja, hogy a regressziós modell 64,05 %ban magyarázza a felvételin elért pontszámok szóródását. A regressziós modell fontos tulajdonsága, hogy felhasználásával előrejelzést készíthetünk ismeretlen x érték esetére. Ezt megtehetnénk a hipotetikus x értéknek a regressziós egyenletbe helyettesítésével is, de Ms Excelbenben külön függvényt, az ELŐREJELZÉS függvényt, is találhatunk a feladat megoldására. 97 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 Készítsünk előrejelzést, hogy körülbelül hány pontot érne el a felvételin egy olyan diák, aki hetente átlagosan 6 órát készül a felvételire (ilyen diák nincs a vizsgált sokaságban). Ekkor az előrejelzés függvényben X értéknek a 6-ot tartalmazó cellát hivatkoztuk, az ismert y és ismert x értékek korábbihoz hasonló megadása

mellett (statf62.xls): Az előrejelzés alapján azt mondhatjuk, hogy ha egy diák hetente átlagosan 6 órát készül a felvételire, akkor átlagosan 78,42 pontot fog elérni. A regressziós modell előrejelzései már a vizsgált sokaságon kívüli statisztikai egységekről szolgál információval a sokaság adataiból kiindulva, ezért eredményeit szigorú kritikával kell kezelni. Természetesen az eredmények csak a valóság tényeinek figyelembevételével értelmezhetők. Ha az előrejelzést egy olyan diák leendő pontjaira készítettük volna, aki hetente átlagosan 20 órát tanul, akkor 143,2 pontot kaptunk volna eredményül, ami értelmetlen, hiszen a maximális elérhető pontszám 120 pont. A regressziós függvény grafikonja és egyenlete a pondiagramon is megjeleníthető. Ehhez a kész pontdiagram kijelölése mellett válasszuk a Diagram/trendvonal felvétele menüpontot: 98 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 99

2003 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 A párbeszédablakban kiválaszthatjuk, hogy milyen típusú függvényt szeretnénk az adatsorra illeszteni, látható, hogy könnyen választhatunk a lineáristól eltérő függvénytípust is, azonban ezek jóságának megítélése és értelmezése külön megfontolásokat igényel. Erről útmutatást találhatunk az ajánlott irodalomban Mi a legegyszerűbb lineáris függvénytípust választottuk. Az Egyebek fülre kattintva újabb beállításokat eszközölhetünk: Beállítottunk 5 egységre előre előrejelzést, valamint azt, hogy az egyenlet és a determinációs együttható látható legyen a diagramon (statf63.xls): 100 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 8.4 Záró megjegyzések az ismérvek közti kapcsolatvizsgálathoz Az előrejelzés problémájából is látszik, hogy az ismérvek közti kapcsolatvizsgálat eredményeit

kritikával kell kezelni. Az ismérvek közti kapcsolatok szorosságának vizsgálatánál gyakran előfordul, hogy például erős korrelációs kapcsolat mutatkozik két ismérv között, de a kapcsolat értelmezése nem egyértelmű. Ha például egy országban megvizsgálnánk az egy főre jutó gépkocsik száma és a születéskor várható élettartam, mint ismérv kapcsolatát, akkor erős korrelációt tapasztalnánk a két ismérv között, pedig nyilvánvaló, hogy egyik tényező változása sem okozza a másik változását. Arról van szó, hogy a két ismérv értékeinek alakulása valamilyen közös okra, például az ország gazdasági fejlettségi szintjére vezethető vissza, tehát a kapcsolat további elemzést igényelne. Az is előfordul azonban, hogy hamis korrelációval, illetve hamis regresszióval állunk szemben, amikor semmilyen közös ok nem fedezhető fel az ismérvek alakulása mögött. Egy angliai kisvárosban például kimutatták, hogy erős

pozitív irányú korreláció van az élveszületések száma és a fészket rakó gólyák száma között. A fenti esetek jól megvilágítják a statisztikai elemzés alapvető problémáját, nevezetesen azt, hogy a statisztikai mutatók, mindössze formális jellemzését adják a valós sokaságoknak, ezért értelmezésük mindig a statisztikai elemzés céljának és a valóságos környezeti feltételeknek a figyelembevételével történhet. 101 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 9. Megoldások 2.1 Egy lehetséges megoldás: tárgyi:második osztályos tanulók időbeli: 2004. január 20-án területi: az iskola épületén belül tartózkodik 2.2 Sokaság 1. 2. 3. szempont szempont szempont Egy iskola által beszerzett oktatási mozgó folytonos valós segédeszközök összértéke 2003ban. Egy iskola jövő évi várható mozgó folytonos fiktív villamosenergia fogyasztása 2002-ben a cserére szoruló tanulói mozgó

diszkrét Valós székek száma 2003 jan. 1-én az iskola által álló diszkrét valós birtokolt számítógépek száma 2.4 Egy lehetséges megoldás: tárgyi: valaha a konkrét iskola tanulói voltak, vagy most is azok és nyelvvizsgát tettek iskolai éveik alatt időbeli: 2004. január 20-ával bezárólag területi: Magyarország határain belül tartózkodnak mozgó, diszkrét, valós sokaság A felmért sokaságból kkihagyjuk azokat, akik már végeztek, illetve akik ebben a tanévben szerztek nyelvvizsgát. • Intelligencia-hányados: 100, 110, • Büntetett előélet: Igen, nem • Eltartó neve: Kovács József, Kis Tihamér, • Havi átlagkereset: 150000 Ft, 50000 Ft, • Pulzusszám 10 perc futás után: 110, 90, • Naponta átlagosan fogyasztott folyadékmennyiség:2 l; 3 l; 1; 5 l • Egyetemi oktatói beosztás: Tanársegéd, Adjunktus, Docens, Egyetemi tanár • Érettségi osztályzat: elégtelen, elégséges, közepes, jó jeles 2.5-26 a) Életkor (év)

(mennyiségi-folytonos, metrikus, egyértelműség-monotonitás-linearitás) b) Nem (minőségi-alternatív, nominális, egyértelműség) c) Születési hely (helység) (minőségi, nominális, egyértelműség) d) Évvégi biológia osztályzat (intenzitási, ordinális, egyértelműség-monotonitás) e) Testsúly (kg) (mennyiségi-folytonos, metrikus, egyértelműség-monotonitás-linearitás) 102 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel f) g) 2003 Testvérek száma (fő) (mennyiségi-diszkrét, metrikus, egyértelműség-monotonitás-linearitás) C típusú nyelvvizsga (fok) (intenzitási, ordinális, egyértelműség-monotonitás) 103 Sulinet Expressz adatelemzési feladatok elvégzése számítógéppel 2003 10. Felhasznált és ajánlott irodalom • Heinz Peter Reidmacher: Excel közgazdászoknak, Aula kiadó, Bp. 2000 • Hunyadi László Mundruczó György Vita László: Statisztika. Aula kiadó, Bp. 1997 • Juhász

Györgyné Sándorné Kriszt Éva: Statisztika I. távoktatással Távoktatási Universitas Alapítvány, Bp. 2002 • Vargha András: Matematikai statisztika. Pólya Kiadó, Bp 2000 104