Tartalmi kivonat
Hallgatói Esszék ELTE, MI-sáv Tudásalapú technológia c. tárgy Adatbányászat, automatikus ismeretfeltárás Készítették: Halász Bálint, Makai Zsuzsa, Tringel Mihály, Zahorán Péter, az 1999/2000. tanév és Kondor Viktor, Sasvári Antal, Szűcs Attila, Terray Tamás és Torma Péter, a 2000/2001. tanév V. éves hallgatói Átdolgozta: Sántáné-Tóth Edit vendégelőadó Budapest, 2000/2001. tanév Tartalomjegyzék 1. 2. Bevezetés . 3 Az adatbányászatban alkalmazott technikák . 4 2.1 A felügyelt tanulás 6 2.2 A nem-felügyelt tanulás 7 3. Az adatbányászat módszereiről 8 4. Az adatbányászat eredményeinek reprezentációja 10 5. Konkrét adatbányászati alkalmazások 11 5.1 Gazdasági alkalmazások 12 5.2 Egészségügyi alkalmazások 12 5.3 Marketing alkalmazások 13 5.4 Kiskereskedelmi alkalmazások 13 5.5 Bűnüldözési alkalmazás 14 5.6 Tudományos alkalmazások 14 6. Az adatbányászat eszközeiről 14 7. Felhasznált
forrásmunkák jegyzéke 15 2 1. Bevezetés Egy üzleti vállalkozás megfelelő működéséhez elengedhetetlen a döntések meghozatalát elősegítő információk megszerzése. Ilyen információ lehet pl a vállalkozás szolgáltatásait igénybe vevő vásárlók életkora, a lefolytatott reklámkampány eredményessége, a bankhitelt igénylők családi állapota. Az ilyen információk megszerzéséhez hatalmas adatbázisok állnak rendelkezésre Azonban ezek pusztán adatkezelési (pl. SQL) és statisztikai eszközökkel történő feldolgozása csak a „felszínt” tudja elérni, amely ma már nem elégséges. Olyan automatikus eszközökre van szükség, melyek az adatbázisokban rejlő „mélyebb”, rejtett kapcsolatok felkutatására képes. Az adatbányászat (data mining), mint divatos kifejezés, a kilencvenes években robbant be az üzleti köztudatba. „Az adatbányászat mint önálló diszciplina a statisztika mellett úgy jöhetett létre, hogy könnyen
használható elemzési eszközöket kellett biztosítani az üzleti szakértőknek, a piackutatóknak, valamint a gazdasági és a s tratégiai tervezésben érdekelteknek” 1 ([Dombi, 1999]. Az alkalmazott módszerek között hamarosan megjelentek a mesterséges intelligencia technikák (szabályokat és/vagy döntési fákat generáló induktív technikák, különböző neuronhálózatos modellek, fuzzy-modellek, genetikus algoritmusok – ld. pl [Futó, 1999]) Utóbbiak alkalmazásával a nagy adatbázisokban rejlő rejtett/sejtett szerkezeti minták és összefüggések feltárhatók. Az elvárás az, hogy ezek az így kinyert minták és összefüggések értelmezhetők és haszonnal alkalmazhatók legyenek. 2 Az adatbányászat során tehát „nyers” adatokból olyan információkat, ill. ismereteket állítunk elő, melyek lehetnek korábban nem ismert kapcsolatok, szabályok, esetek, ok-okozati összefüggések stb., amelyek nagyban segíthetik és javíthatják az
üzleti döntések eredményességét. 3 Ezt a tényt a vállalkozások többsége már felismerte – nem csak hasznot ígérő technológiaként, hanem az élet diktálta kényszerként, létszükségletként. A magyar értelmező kéziszótár szerint a bányászat „hasznos ásványok ipari kitermelésére irányuló tevékenység”. Ennek során először meg kell határozni a „lelőhelyet”, és csak ezután (és ott) történik a „f eltárás”, melynek során a m egmozgatott anyagmennyiségnek olykor csak töredéke az ásvány (a kinyert érték). Az adatbányászat is ilyen feltáró, felderítő jellegű tevékenység Első fázisa a lelőhely megteremtése – megfelelő hálózatok, ill. adatáruházak (és az ott elérhető adatok jegyzéke, metainformációs rendszere) létrehozásával. A feltárás során – az adatbányászat eszközeinek és módszereinek alkalmazásával – először megfelelő adatelemzésekkel leszűkítik a vizsgált adathalmazt, majd
ezután történik a tényleges feltáró munka. Az emberek régóta szerzik/bővítik ilyen módon ismereteiket: a vadászok megfigyelik az állatok vándorlását, a farmerek a növények fejlődését, a politikusok választóik viselkedését, a párok partnerük reakcióit stb., és a m egfigyelések alapján újabb összefüggésekre, várható viselkedési mintákra jönnek rá. Az ötlet, hogy az elektronikusan rögzített adatokból (automatikusan vagy félautomatikusan) számítógéppel nyerjünk ki korábban nem ismert információt, már régebben is 1 A korábban a t isztán statisztikai módszereken alapuló adatbányászat (data mining) megnevezés helyett az elmúlt években a mesterséges intelligenciához közelebb álló adatbázisokból való automatikus ismeretfeltárás (knowledge discovery from/using databases, KDD) megnevezés terjedt el – az alkalmazott mesterséges intelligencia technikák dominanciáját kiemelendő. Napjainkra azonban a KDD helyett újra
a (rövidebb) data mining megnevezést használják – módosult, „ismeretfeltáró” tartalommal. 2 Egy korszerűen gondolkozó cég – a cégen belül szétszórt, nem egységes elvek alapján létrehozott, rendezetlen adatállomány konszolidálása céljából – adatáruházat (data warehouse) hoz létre, amely egy komplex informatikai rendszert konszolidál. Az adatbányászat nem a teljes rendszert, hanem annak csak egy részét (pl csak a marketing részt) konszolidálja! 3 Meg kell itt jegyezzük, hogy a kutatásfejlesztésben korábban alkalmazták az adatbányászat módszereit, mint az üzleti életben. Így pl a Glaxon cégnél a molekulák szerkezetére és tulajdonságaira vonatkozó kísérletek jó részét el lehetett hagyni e módszerek (pontosabban a neuronhálókkal történő tanulás) alkalmazásával. 3 felmerült. Ami a mostani adatbányászatban új, az az, hogy rengeteg adatunk van (becslések szerint a világ adatbázisaiban tárolt adatok
összes mennyisége 20 hónaponként megduplázódik). Ráadásul a hálózatokon szinte minden számítógépen tárolt információ elérhető (az alkalmazott új és új biztonsági eljárások dacára). Hogy a ránk zúduló hatalmas mennyiségű információáradatban el ne vesszünk, azt átláthassuk és kezelhessük, ezt próbálják segíteni az adat- és a szövegbányászat jelenlegi eszközei és módszerei. 4 Az igen bő angol nyelvű források mellett magyar nyelvű ismertetések is rendelkezésre állnak a nyomtatott és elektronikus médiákon. Ezek mind elméleti, mind gyakorlati szempontból segítik a tájékozódást az adatbányászatban: mik a célok, az alkalmazott technikák, milyen termékek vannak a piacon és azokat milyen feladatok megoldásához célszerű alkalmazni (kiindulásként javasolható cím: http://www.datamininghu) A következő összeállításban – a mesterséges intelligencia technikák adatbányászati alkalmazásaira fektetve a hangsúlyt
– az anyag végén felsorolt forrásmunkák feldolgozását vállaltuk. Először vázoljuk az adatbányászatban alkalmazott technikákat és módszereket (néhány jellegzetes fejlesztői fogást bemutatva). Ez után szó lesz az adatbányászati eszközök által eredményként nyújtott kimenetek változatos formáiról, majd egy 1995-ös összefoglaló elemzés alapján ismertetünk néhány korai sikeres alkalmazást. Végül név szerint megemlítünk néhány hazánkban is elérhető, ismertebb eszközt, és egy képernyőképpel illusztráljuk a Clementine eszköz szolgáltatásait. 2. Az adatbányászatban alkalmazott technikák Az adatbányászat alapfeladata [Decker and Focardi, 1995]: adott egy adathalmaz (adatáruház), amelyből számítógépes tanulás útján új információt, ill. új ismeretet, tudást kell előállítani 5, azaz olyan mintákat, kapcsolatokat, motívumokat, amelyekről előzően nem tudták, hogy léteznek, vagy nem voltak láthatóak.
(Információ pl. minta vagy döntési tábla; ismeret/tudás pl döntési vagy osztályozó szabály) Adat Gépi tanulás modelljei Információ ill. Ismeret, tudás Az adathalmaz nagy méretű és jellemzően elosztott (általában több, egymástól független adatbázisban). A gépi tanulás célja az, hogy keressük azt a hipotézist, amely „legjobban illeszkedik” 4 Szövegbányászat (text mining): nem strukturált, természetes nyelven megfogalmazott szövegekben keres kapcsolatokat, kulcsszavakat, rövidítéseket, megpróbálja a szöveg tartalmi kivonatát elkészíteni stb. – adatvizualizációs technikákkal megjelenítve a fogalmakat és a feltárt kapcsolatokat. (Az adatbányászat adatbázisokban tárolt, strukturált, többnyire numerikus adatok között keres mintákat, kapcsolatokat.) Az eddigi szövegelemző eszközök legnagyobb problémája az volt, hogy hosszadalmas előkészítésre volt szükség (pl. címkézés, kulcsszavak hozzárendelése).A
szövegbányászat kézenfekvő területei: web-oldalak, Lotus Notes dokumentumok, Email-ek, szövegfájlok stb. 5 Egy számítógépes döntési folyamatban játszott szerepe szerint az adat, információ és ismeret szerepe: Adat: észlelt, de nem értelmezett szimbólum, jelminta, mintázat; nyers, jelentés nélküli, szintaktikai fogalom. Információ: értelmezett adat, amelynek tehát jelentése is van; jelentéssel bíró, szemantikai fogalom. Tudás vagy ismeret: egy döntési folyamat során felhasznált információ. A tudás nem más, mint megtanult és hasznosított, aktivizált információ. A feladatmegoldó ember/rendszer tudását a döntéshozatal során mozgósítja – miközben állandóan tanul, ill. korábbi tudását finomítja, továbbfejleszti (Sántáné-Tóth E „Tudásalapú technológia, szakértő rendszerek – Javított és bővített kiadás” , DF Kiadói Hivatala, Dunaújváros, 2000.) 4 a kiindulásul vett adatokra – azzal az
elvárással, hogy ez a hipotézis alkalmazható legyen előre nem látott adatok esetére is. Egy adatbázis felett megfogalmazott SQL lekérdezés során a feltett konkrét kérdésekre konkrét válaszokat kapunk (mégpedig az adott kérdésben megfogalmazott feltételeknek eleget tevő adathalmazt). Az adatbányászatban jellemzően olyan kérdésekre keressük a választ, amelyeket fel sem tudunk tenni! Itt a munka két részből áll: az első a hipotézisek felállítása és tesztelése, a második – a hipotézis alapján történő – tényleges adatfeltárás. − Az első részben az adatbányász szakember a k iinduló adatbázis elemzése révén („ránézésre”) feltevéseket, hipotéziseket állít fel, és megfelelő adatbányászati eszközökkel megpróbálja azokat igazolni. A hipotéziskeresés és an nak igazolása matematikai statisztikai módszerekkel és (az adatbányászati eszközök által erősen támogatott) különböző vizualizáló módszerek
alkalmazásával történik. − A második részben a szakember – az igazolt hipotézis alapján – feltárást végez, melynek során a rendelkezésére szolgáló különböző algoritmusok felhasználásával az (első részben előkészített) adatbázisból jellemző mintákat, összefüggéseket emel ki. A feltárás jellemzően a gépi tanulás módszereinek alkalmazásával történik a vizualizáló lehetőségek kihasználásával; az eredmény egy leíró és (táblázatokkal, grafikonokkal stb.) vizuálisan megjeleníthető modell. Ez a két rész gyakran összefonódik: az adatfeltárás eredményeit elemezve esetleg újabb hipotéziseket készít a szakember, majd azok sikeres igazolása után újabb feltárást indít (ld. 3) Természetesen, az alkalmazott adatbányászati technikáktól, eszközöktől függően a kiindulási adathalmazt előfeldolgozásnak kell alávetni; ez az adatok megszűrését, tisztítását, kiválogatását, esetleg transzformációját
jelenti. A korszerű adatbányászati eszközökben felhasznált technikák [Kiss, 1996]: 1. magasszintű statisztikai és egyéb elemző módszerek (pl statisztikai próbák, klaszter-, faktor-, diszkriminancia analízis, többdimenziós skálázás, lineáris és nemlineáris modellek, kontingenciatáblák, conjoint elemzés, preferencia térképek, továbbá idősorok elemzése, lineáris és n emlineáris regresszió-analízis, lineáris és n emlineáris programozás, ökonometriai modellek, szimulációs és egyéb speciális eljárások), 2. vizualizációs technikák (két- és háromdimenziós grafikonok, tudományos és üzleti diagramok, speciális ábrázolások, térképek, térinformatikai eszközök, valamint multimédia), 3. következtető technikák (döntési fát vagy szabályhalmazt generáló induktív technikák, fuzzy technikák, genetikus algoritmusok), 4. neuronhálózatok A két utóbbi két csoport az adatbányászás második részében alkalmazott
„ismeretfeltáró” mesterségesintelligencia-technikákat fogja össze. A „feltáró” jellegű adatbányász technikák tipikusan induktív jellegűek: egyedi esetekből jutnak általános érvényű következtetésre, szemben a logikai rendszerekben alkalmazott deduktív következtetéssel, amely az általánosból indult ki. (A relációs adatbáziskezelő rendszerek már rendelkeznek bizonyos deduktív képességekkel, de induktív kiterjesztésük az adott technológián belül nem lehetséges.) Az induktív technikák az adatokból – a gépi tanulás egyes módszereit alkalmazva – különböző modelleket építenek, melyeket az adatbányászati eszközök az intuitív ráérzést segítendő, vizuálisan is megjelenítenek. A következőkben szó lesz az adatbányászatban alkalmazott a gépi tanulás jellegzetes módszereiről. Mindegyik módszer végső célja az, hogy a megtanult minta vagy összefüggés alkalmazható legyen előre nem látott esetekben is. A
gépi tanulásnak felügyelt és nem-felügyelt változatait szokás megkülönböztetni: 5 2.1 - A felügyelt tanulást (supervised learning) prediktív vagy következtető, jósló elemzésnek is nevezik. Ez az adatbányász szakember által manuálisan irányított tanulási folyamat, melynek során ismert adatokból új adatokat következtet ki, eredményül rendre egy új, „megjósolt” adatmező értékeit kapva. - A nem-felügyelt tanulást (unsupervised learning) deszkriptív vagy leíró elemzésnek is nevezik. Ez egy olyan automatikus folyamat, melynek célja az adatbázisból (új) minták, összefüggések felfedezése. A felügyelt tanulás A felügyelt tanulás a meglévő adatok között összefüggést keresve egy új, „megjósolt” adatmezőt ad eredményként (melyet az angol terminológia label-nek nevez). A tanítás során ennek az új adatmezőnek értékét az adatbányász szakember határozza meg. A tanításhoz tanító példákat használnak,
míg a kikövetkeztetett eredményt tesztelő példák felhasználásával tesztelik. Általában azonban az irányítás oly módon történik, hogy ez az új mező a tanító és a tesztelő példákban eleve értékkel rendelkezik (pl. a beteg vizsgálati adatai mellett tartalmazzák a beteg diagnózisát is) Formálisan a felügyelt tanulás algoritmusai egy függvényt határoznak meg, ill. közelítik azt: legyenek adottak (x j ,y j ) változópárok, ahol i = 1m (az x j vektort jelöl); előállítandó az az y:=f(x) függvény, amely minden változópárra teljesíti, hogy y j = f(x j ). Általában minden x j érték valamely objektum vagy esemény leírása (pl. a beteg tünetei) Az y j értékek az x j értékekből történő következtetéseket reprezentálják (pl. a beteg diagnózisa) Feltételezzük, hogy, a tanulás során az y j értékeket a „felügyeletet ellátó tanár” határozza meg. A bemenő adatok, azaz x j értékei lehetnek számszerűek (pl. életkor,
fizetett összeg), kategorizáltak (pl. nem, lakhely), de lehetnek valamely előfeldolgozás eredményeként kapott értékek is (pl. átlag, maximum, minimum) Ha az y-nak csak két lehetséges értéke van (pl. „influenzás”/„nem-influenzás”), akkor fogalmi tanulásról (concept learning) beszélünk. Ebben az esetben a tanító példákat két diszjunkt részhalmazra lehet bontani: a pozitív és a negatív példák halmazára. A felügyelt tanulás során két feltételezéssel élünk: 1. Az f függvény egyedi példákból általánosítással történő előállítására egyszerű számítógépes modellt tudunk adni – bizonyos pontosság mellett (ld. pl Abu-Mustafa dolgozatát 6). 2. A tanító példahalmaz eléggé informatív az előbbi általánosítás elvégzéséhez A tesztpéldák futtatása során éppen erre a k érdésre keressük a v álaszt (feltéve, hogy azok megfelelően lettek-e kiválasztva). Az elemzés ezeknél az algoritmusoknál jellemzően nem
pontos (csak hipotézist kapunk), amelynél fontos kérdés a pontosság mértékének megállapítása. E módszerek között – a szerint, hogy az új mező (a label) diszkrét vagy folytonos értékkel rendelkezik – megkülönböztetünk osztályozást, ill. regressziót Az osztályozás vagy klasszifikáció tanító példák alapján tanulja meg az osztályozás szabályait, melyeket szabályok vagy döntési fa formájában fogalmaz meg. (A tanító példák rendre tartalmazzák a megfelelő osztály-értéket). A kapott eredményt teszt-példákkal szokás ellenőrizni Az eredmény (vagyis az osztályozás) pontossága növelhető a betanítás során alkalmazott tanítópéldahalmaz méretének növelésével. Egyes algoritmusok kezelni tudják a hiányosan, illetve a hibásan megadott példákat is. 6 Abu-Mustafa, Y. S, „The Vapnik-Chervonenkis Dimension: Information versus Complexity in Learning”, Neural Computation, No. 1, 1989, pp 312-317 6 Jellemző
osztályozó módszerek: döntési fákat generáló induktív módszerek (ID3 algoritmus és bővített változata alapján működő C4.5 rendszer), szabályhalmazok tanulása, tanulás neuronhálózatok (pl. Hopfield típusú hálózatok) felhasználásával (ld pl [Dombi, 1999]) Az osztályozó eljárások alkalmazásai főképpen az üzleti jellegű problémáknál történik. Tipikus eset az, amikor egy címjegyzék elemeiről kell eldöntenünk, hogy érdemes-e nekik termékmintát és/vagy prospektust küldeni, azaz fognak-e vásárolni az adott termékből (fogalmi tanulás). Nagy haszna van a banki hitelkérelmet elbíráló rendszereknél történő „előrejelző” alkalmazásoknak: a k orábbi ügyfél-adatok (a kérelemben szereplő fontosabb adatok, a visszafizetés pontossága, késedelmek stb.), mint tanító példák alapján kidolgozott osztályozó alkalmazása nagyban megkönnyíti – és biztonságosabbá teszi – a bejövő új kérelmek elbírálását.
Ehhez hasonló problémakör pl. a hitelkártyákkal elkövetett csalások gyakoriságának vizsgálata A regresszió esetében hasonló a helyzet, mint az osztályozásnál, azonban az új mező értéke nem diszkrét, hanem folytonos. Mivel ez nem mesterséges intelligencia technika, ennek részletezésével itt nem foglalkozunk. 7 A regresszióval történő függvényrekonstrukció leggyakoribb felhasználása a gazdaságtani matematikában található, ahol idősorok (egy része) alapján kell előre jelezni az adott idősorok jövőbeni állapotát. Szintén alkalmazzák még termékek üzleti sikerességének előrejelzésére is A hagyományos (köz)gazdaságtani matematikai módszerek egy ún. sikerfüggvény alkalmazásával dolgoznak, amelynek argumentumai között szerepelhet pl. a termék reklámkampányára költött összeg, a megcélzott vásárlói réteg vagy a termék ára, míg kimenete a várható haszon. 2.2 A nem-felügyelt tanulás Jóllehet a felügyelt
tanulást alkalmazó adatbányászati szoftvermegoldások nagy hatékonyságra képesek, alkalmazásuk eléggé költséges és időigényes (informatív tanító- és tesztpéldák előállítsa, módosítása). Bizonyos feladatokra egyszerűbb módszerek is elegendőek, amelyek működése eléggé generikus tud lenni ahhoz, hogy automatikusan alkalmazhatók legyenek. A gépi tanulás ilyen egyszerűbb, automatikusan alkalmazható módszerei a nem-felügyelt tanuló technológiák. Itt a fő cél az, hogy az adatbázisban korábban nem ismert mintákat, összefüggéseket találjanak. Formálisan: az algoritmusok csak az x j értékeket kapják meg (i = 1 m), és azok elemzése révén szabályosságokat „fedeznek fel” e minta elemei között. A nem-felügyelt tanulásnak két jellemző módszere az csoportosítás és az asszociáció. A csoportosítás vagy klaszterezés (clustering) feladata az, hogy az elemzendő adathalmazokat homogén diszjunkt részhalmazokra bontsuk. A
homogenitást ebben az esetben a csoport elemeinek hasonlóságára alapozzuk. Szemléltetésként képzeljünk el egy kupac labdát, pirosakat és fehéreket. Nyilvánvaló ekkor, hogy a labdák két homogén csoportra oszthatók, mégpedig a színük szerint. Amennyiben a labdák méretükben is különböznek (kicsik és nagyok), úgy már négy homogén csoportot nyerünk: piros kicsik, piros nagyok, fehér kicsik valamint fehér nagyok. Általánosítva a fentieket, a feladat nem egy függvény, hanem valamely homogenitási reláció definiálása. Ez a legegyszerűbben egy távolságmetrika segítségével oldható meg, vagyis egy csoportot homogénnek veszünk, ha bármely két eleme közt a t ávolság nem ér el egy küszöbszámot (ez a küszöbszám a rendelkezésre álló adatok alapján automatikusan is számolható). A probléma a fenti megközelítéssel, hogy a t ávolságmetrikával definiált hasonlósági reláció nem kötelezően ekvivalencia reláció (abból hogy
A hasonlít B-re, és hogy B hasonlít C-re nem feltétlen következik, hogy A is hasonlít C-re), ezért nem alkalmas a homogén ekvivalencia-osztályok 7 Ld. pl ld Prékopa A, „Valószínűségelmélet”, Műszaki Kiadó, 1962 és Reimann J., „Valószínűségelmélet és matematika statisztika mérnököknek”, Tankönyvkiadó, Budapest, 1992 7 meghatározására. Különböző módszerek léteznek a hasonlósági reláció megfelelő átalakítására, hogy ekvivalencia relációt kapjunk. Osztályozási szabály kidolgozásával optimális particionálási feladatot tudunk megoldani. Itt a hasonlóság mértékének meghatározása halmazfüggvények alkalmazásával történik: Legyen a feladat egy A halmaz megfelelő diszjunkt A j részhalmazokra bontása. Definiáljuk az A j részhalmazok súlyát valamely F(A j ) halmazfüggvény segítségével, az A halmaz súlyát pedig ezek összegével vagyis: F(A) := Sum j (F(A j )) Ekkor a particionálási feladat a
következőképpen határozható meg: vegyük azt a részhalmazrendszert, amely mellett F(A) optimális (pl.: minimális) A csoportosításnak sokféle módszere van; ezek alkalmazása különösen akkor ajánlható, ha a vizsgált adathalmaz nagy és/vagy áttekinthetetlenül bonyolult. A módszer az adatok közötti rejtett összefüggések feltárásával hasonló karakterisztikájú csoportokba tudja rendezni az adatokat. (Egy-egy csoporton belül esetleg már rá lehet érezni valamilyen heurisztikára – így alkalmazható lehet ott a felügyelt tanulás valamely módszere.) A nem-felügyelt tanulás fontos esete az asszociáció – egyesítés vagy összekapcsoló elemzés – módszere. Ennek célja általában az, hogy az adatbázisból kikeressék az összes olyan tranzakciót, amelyek nagy valószínűséggel ismétlődnek. Igen sok kiskereskedelmi alkalmazása van e módszernek (pl.: a t ejet vásárlók 55 százaléka egyéb tejterméket, 42 százaléka pedig kenyeret is
vásárol) Az asszociatív algoritmusok bővítik az SQL lehetőségeit – változó adatállomány és változó „viselkedés” figyelembevételével. Sokféle asszociációs technika áll rendelkezésre az egyes adatbányász eszközökben; ezeket mind az ipar, mind az üzleti folyamatok területén kiterjedten használják. Az asszociatív algoritmusokhoz hasonlóak a sorrendi minták, amelyek meghatározott időtartam szerint kigyűjtött adatokkal dolgoznak, és e történeti adatok elemzésének eredményeként megadják a legnagyobb valószínűséggel ismétlődő mintákat (mintaelemzés). A sorrendi minták mellett a hasonló sorozatok technikáját is szokták alkalmazni az üzleti életben. Itt nem az események időbeli lefolyását elemzik (mint a sorrendi mintáknál), hanem az időbeli események sorrendjét. Példa: hasonló árképzéssel dolgozó kiskereskedelmi üzlet keresése vagy hasonló ármozgással dolgozó raktárak keresése. 3. Az adatbányászat
módszereiről Az előző részben láttuk, hogy milyen színes az a technikai paletta, amelyből az adatbányászat jelenlegi eszközei építkeznek. Ezen technikák – és a kereskedelemben kapható adatbányász eszközök – ismerete azonban nem elég a si keres ismeret-feltárási munkához. Tudni kell azt is, hogy hogyan fogalmazzuk meg a p roblémát, és hogy milyen lépéseket, lépés-sorozatot célszerű tenni a probléma megoldása érdekében. Az egyes adatbányász eszközök kínálnak ilyen fejlesztői módszertant az adatbányász szakember számára ([Dombi, 1999]). Egy adatbányászati alkalmazás fejlesztésének módszertana a következő fázisokat, életciklus-modellt írja elő (az elemzésen belül egy iteratív ciklussal): 1. az üzleti probléma megismerése és fogalmazása 2. a rendelkezésre álló adatok megértése 3. elemzés; ez egy ciklus, melynek lépéseit többször hajthatjuk végre: 3.1 adatelőkészítés – a probléma és az alkalmazandó
eszköz specifikumaira figyelve 3.2 modellezés 3.3 tesztelés 3.4 kiértékelés 4. alkalmazás 5. esetleg karbantartás 8 E fázisokat nem taglaljuk részletesen, csupán néhány jellegzetes fejlesztői fogást vázolunk a következőkben. Megemlítjük itt az IBM már 1996-ban kiadta saját adatbányászati módszertanát ismertető „fehér könyvét” ([IBM, 1996]). a) Adat tisztítás: A hiányzó, vagy rossz adat kezelésének módszerei Nagy adatbázisokban gyakran előfordul, hogy egyes attribútumok rosszul kerülnek be az adatbázisba, vagy be sem kerülnek oda. Ennek több oka lehet: hiba vagy hanyagság történt az adatfelvitelben, vagy egyszerűen az adott attribútumról nem volt információ (nem adták meg, titkos, magánjellegű stb.) Ugyanakkor szeretnénk konzisztens, helyes ismerteket kinyerni az adatbázisból a hibák, hiányok ellenére is. A hibás adatok kezelésére kínálkozó módszerek: • Nem vesszük figyelembe a hibás adatot az
adatbányászat során. • Figyelembe véve az adott attribútumhoz tartozó többi adatot, az adatbázisban statisztikai eljárásokkal javítjuk a valószínűleg hibás adatot. • Olyan tanuló algoritmust használunk majd az adatbányászat során, amely kevésbé érzékeny a hibákra. • stb. A hiányzó adatok kezelésének szokásos módszerei: • Nem vesszük figyelembe a hiányzó adatot tartalmazó adatbázis tételeket. • Figyelembe véve az adott attribútumhoz tartozó többi adatot, az adatbázisban statisztikai eljárásokkal pótoljuk a hiányzó adatot. • Új változót vezetünk be a hiányzó adat jelölésére. • stb. b) Adat integrálás: több forrásból származó adatok integrálása Elképzelhető olyan eset, amikor az adatbányászathoz szükséges adatok több különböző adatbázisban vannak. Lehetséges, hogy az egyes adatbázisokat különböző adatbázis szerverek tárolják, különböző formában. Ekkor az adatokat össze kell gyűjteni
az egyes adatbázisokból, és egységes formátumra kell hozni. Erre a p roblémára nyújtanak megoldást az ún. adatraktárak (data warehouses), melyek egyszerű konzisztens hozzáférést nyújtanak szervezetek és intézmények adatbázisaihoz, egységesítve az egyes osztályok adatbázisait. Ezekben a raktárakban általában a cégek régebbi adataikat publikálják (tehát amennyiben aktuális adatokkal akarunk dolgozni, akkor az adatokat a megfelelő adatbázisokból kell kigyűjteni). c) A tanuló algoritmus megválasztása Az adott feladatnál a tanuló algoritmus megválasztásakor figyelembe kell vennünk, hogy a megszerzett ismeretet milyen formában akarjuk reprezentálni. Például egy osztályozó problémát viszonylag jól tud megoldani egy neuronháló alapú alkalmazás, ugyanakkor rejtve marad a döntési mechanizmus, hogy egy adott példányt mi alapján sorolt be az osztályba, illetve vetett el. Lehetséges, hogy ugyanerre a feladatra egy szabályalapú
rendszer kevésbé jó megoldást ad, de a felhasználó sokkal több információt („magyarázatot”) tud adni a felhasználónak. Mivel az adatbányászat során a próbálkozás a jellemző, előnyösen alkalmazhatók a többféle tanuló (és további) technikákat együttesen tartalmazó, ún. hibrid eszközök d) Adat választás: hogyan kell a megfelelő tanító halmazt megválasztani? Az adatbányászat során nem használjuk az adatbázisban tárolt egész adatmennyiséget – annak méretei miatt –, csak annak egy jóval kisebb részét. Ezt a kiválasztott részt hívjuk tanító halmaznak. E z alapján fogjuk a mintákat, összefüggéseket megkonstruálni és 9 elvárásaink szerint ezek az összefüggések az egész adatbázisra vonatkozni fognak. (Célszerű a tanító halmaz meghatározásakor a tesztelő halmazra is gondolni!) Ha feladatunk az adatok osztályozása, szeretnénk, hogy az algoritmus jól működjön a tanító halmazon, azaz minimális hibát
vétsen. Ugyanakkor ezt a tulajdonságát megtartsa, amikor egy tetszőleges adatbázisbeli példányra alkalmazzuk, vagyis megfelelően robosztus legyen. Ezt úgy érhetjük el, ha tanító halmazba megfelelően sok szélsőséges eset veszünk fel. Sajnos sok esetben az adatbázis, és így a t anító halmaz is, kevés lehetséges esetre ad példát, így a szélsőséges eseteknél bizonytalanul vagy rosszul működhet a kapott modell. Lehetséges megoldás: érdekes esetek, vagy plusz információk keresése az adatbázisban. e) Adat transzformáció: hogyan hozzuk az adatot olyan formára, hogy a tanuló algoritmus használni tudja? Sok esetben, az adatbányászatban használt tanuló algoritmus adott formában várja a bemenő adatokat (pl. ha döntési fát kívánunk generálni, szimbolikus adatokból dolgozunk). A bemenet típusa lehet szám is ha neuronhálót, Support Vector gépet vagy más függvény közelítő módszereket használunk. Ekkor az adatokat megfelelő
formára kell hozni. Az utóbbi esetben ez azt jelenti, hogy kell találnunk egy olyan függvényt, amely az adat tulajdonságait egy olyan számra képezi le, amely megfelelően reprezentálja az adatot. A függvény megkonstruálása lehet nagyon könnyű vagy igen bonyolult; ez mindig az adott konkrét esettől függ. Általános recept nincs, ugyanakkor az i nformáció elmélet eszközeit sokszor sikeresen lehet alkalmazni (entrópia, kölcsönös információ stb.) 4. Az adatbányászat eredményeinek reprezentációja Lényeges kérdés a felderített eredmények megjelenítésének formája. Bármilyen értékes új felfedezésre jutottunk egy eszköz segítségével, ha azt nem lehet érthetően és látványosan megjeleníteni, haszna kevés lesz. A kibányászott eredmény reprezentálásának főbb fajtái: döntési táblák, döntési fák, osztályozó szabályok, társító szabályok, kivételek, példány-alapú reprezentáció, csoportok (ld. pl [Decker and Focardi,
1995]). Az alábbiakban ezek rövid informális bemutatása található • Döntési táblák (decision tables) Ez a legegyszerűbb, legalapvetőbb, közismert reprezentációs forma. A probléma itt az, hogy nem tudjuk a táblázat alapján „ránézésre” eldönteni, hogy mely attribútumok hagyhatók el anélkül, hogy a döntés eredménye ne változzon. • Döntési fák (decision trees) Ez a r eprezentáció – az oszd meg és uralkodj (devide-and-concuer) megközelítéssel – konzisztens reprezentációt ad a megszerzett ismeretekről. A gyökértől a levélig vezető utakról leolvashatjuk az egyes döntési szabályokat. Ugyanakkor már nem túl nagy vizsgált attribútum halmazra is nehezen értelmezhető, hatalmas méretű és két dimenzióban nehezen ábrázolható fához juthatunk a különböző attribútum értékek vizsgálatakor. • Osztályozó szabályok (classification rules) Egy osztályozó szabály olyan tesztek sorozata, amely (mint a döntési
fa egy ága) egy osztályt (vagy osztályokat) határoz meg. A szabály feltételrésze tartalmazza a teszteket, következményrésze pedig az osztályt/osztályokat. Előfordulhat azonban, hogy ezek a szabályok nem konzisztensek, ellentmondásra vezetnek – különösen, ha nem egy döntési fa 10 alapján generálják őket. A problémára megoldást nyújthat, ha megszámoljuk, hogy egy adott példányt az algoritmus hányszor sorol az egyik, ill. a másik osztályba, és a n agyobb számosságút vesszük figyelembe. Másik megoldás, hogy az adott példányt nem soroljuk be egyik osztályba se. Előnye e reprezentációnak, hogy egy új szabály az előzőek módosítsa nélkül hozzáadható a szabályhalmazhoz (a döntési fánál az egész fát át kell alakítani). Hátrány az, hogy a szabályhalmaz nem tartalmazhat egymásnak ellentmondó következményrészű szabályokat. • Társító szabályok (asszociation rules) Ezek olyan osztályozó szabályok, melyeknek
következményrésze attribútumokra vonatkozó értékadást is tartalmaz. A társító szabályok különböző törvényszerűségeket fejeznek ki, és sorrendjük kötött. • További, speciális szabályformák A szabályokban megfogalmazhatunk kivételeket (exceptions) is a speciális, kirívó esetek kezelésére. A kivételeket megfogalmazó szabályok egymásba is ágyazhatók Bizonyossági tényezőt (certainty factor) is kapcsolhatunk a szabályokhoz, amely megmutatja, hogy az adott szabály mekkora bizonyossággal áll fenn. • Példány-alapú reprezentáció (instance-based reprezentation) A tanulás legegyszerűbb formája az egyszerű memorizálás, melynek során jellemzően a legjobban hasonló példányokat vesszük segítségül. A „legjobban hasonló” definiálása sokféle módon történhet. Lehet akár pl osztályozó szabályok segítségével is Ismertek az euklideszi távolságmértékkel operáló legközelebbi szomszéd, k-szomszédsági
eljárások. Ezek esetén az attribútum-értékeket normalizálni szokás. Bizonyos esetekben a távolságmérték számításához csak az „érdekes” attribútumokat veszik figyelembe. Nem-numerikus attribútumok esetén az egybeesés, ill. a hasonlóság mértékének reprezentációját meg kell oldani A példány-alapú reprezentációnál az egyes példányokat pontokként jelenítjük meg a képernyőn, ahol pl. az egy osztályba tartozó (ilyen értelemben hasonló) példányok egy téglalapba kerülnek. Más módszerek lehetőséget nyújtnak bonyolultabb döntési felület megjelenítésére. • Csoportok (clusters) Sokszor nem osztályozni szeretnénk, hanem adott tulajdonság(ok) alapján csoportokba osztani a példányokat. Az ábrázolás módja igen sokféle lehet: az n dimenziós síkok felosztása n-1 dimenziós terekkel; halmazokkal történő ábrázolás (Venn-diagram); táblázatos ábrázolás (valószínűségekkel); fastruktúra-ábrázolások
(dendogram), csoport-alcsoport ábrázolás (egy elem több csoportba is beletartozhat, ld. Venn-diagram) stb A fastruktúra-ábrázolásokból könnyű osztályozó szabályokat kiolvasni. Itt minden levélhez egy szabály tartozik: a következményrész a levélhez kapcsolt osztály, míg a f eltételrész a csomóponti feltételeknek felel meg. 5. Konkrét adatbányászati alkalmazások Az első „intelligens” adatbányászati konferenciát 1995-ben tartották (KDD-95: Knowledge Discovery and Data Mining Conference). A [Hall, 1995] összeállítás e konferencia tanulságait összegezve áttekintést ad az akkori adatbányász eszközpiac, ill. az adatbányászati technikákat alkalmazó, sikeres alkalmazások helyzetéről. A következőkben kiemelünk utóbbiak közül néhány tanulságos alkalmazást (intézményt), megjelölve a fejlesztés során felhasznált adatbányász eszközöket (a fejlesztés intézményét); az eszközbe integrált vagy más eszközből vett
MI-technikákat. 11 5.1 Gazdasági alkalmazások a) Gazdasági adatok tisztítása (Lockheed) Eszköz: Recon (Lockheed); deduktív adatbázis, induktív szabálygenerálás. Az alkalmazás célja egy pénzügyi történeti adatállomány megtisztítása volt; az adatbázis több mint 2200 m exikói, brit és Euro kötvényről tartalmazott adatot. 10 tábla és 150 mező felhasználásával írta le az egyes kötvények feltételeit és további háttér-információkat. Ugyanakkor az adatbázis nem tartalmazott szigorú adatellenőrzési mechanizmust, így az adatok integritása kétséges volt. Ezért volt szükség a Recon eszköz alkalmazására Elemzők különböző adatbázisokból a R econ segítségével információkat (különböző korlátozásokat) nyertek ki az egyes kötvényekkel kapcsolatban, amelyeket beleépítve a Recon-ba, futatták azt a k ötvényeket tartalmazó adatbázisra. A kirívó esetek megtalálására természetesen felhasználták a R econ
vizuális eszköztárát is. Ezt az eljárást alkalmazva sikeresen növelték az adatbázis konzisztenciáját, kiszűrve a hibás bejegyzéseket és a lejárt kötvényeket. b) Tőzsdei árfolyamok ellenőrzése (Reuters) Eszköz: Clementine (Integral Solution Ltd.); neuronhálózatok, induktív fa- és szabálygenerálás Ez egy olyan, külföldi tőzsde-adatokban hibát kereső alkalmazás, amely a kurrens árfolyam alakulás alapján durva előrejelzést is szolgáltat. Nagy előnye, hogy a rendelkezésére bocsátott adatokból automatikusan, (emberi) szakértő alkalmazása nélkül képes dolgozni – változó árfolyam-alakulás feltételei mellett. c) Hátralék problémák előrejelzése (The Leeds) Eszköz: XpertRule Analyzer (Attar Software); induktív szabálygenerálás, A Leeds célja az volt, hogy feltárja, milyen hátralék problémák léphetnek fel az általa kezelt 500000 szervezet jelzálog számláján. Kifejlesztettek több adatprofil-meghatározó szabályt:
egészséges számla, hátralékban lévő számla, teljesíthetetlen kintlévőség, regionális hátralékok, és a hátralékokban lévő számlák egyéb karakterisztikájának a kiszűrésére. A Leeds ugyancsak adatbányászó algoritmust alkalmazott a h itelképesség kiértékelésére, illetve célorientált marketing-terv elkészítésére. 5.2 Egészségügyi alkalmazások 8 d) Med-AI: Betegségek modellezése, súlyossági esetek kiszűrése, adattisztítás (Med-AI Inc.) Eszköz: a Med-AI egyben eszköz is; neuronhálózatok, indukciós technikák. Med-AI célja az volt, hogy nagy kórházi adatbázisokból olyan ismereteket nyerjen ki, amelyekkel javítani tudnák az ellátás hatékonyságát. Először különböző adatbázisokból összegyűjtötték két év kórházi bejegyzéseit. Ezek közül a h ibás adatokat – neuronhálózatos és induktív technikák alkalmazásával – kiszűrték. Ennek során sikerült feltárni nem csak a h ibás számlákat, hanem
helytelen, ill. gazdaságtalan klinikai eljárásokat is. Fény derült többek között arra is, hogy a klinikán miért volt olyan sok operáció után fellépő megbetegedés. Ezeket a fertőzéseket emelt szintű antibiotikum adagolással kezelték, ami jelentősen megnövelte a gyógyítás költségeit. Korábban nem tudták kideríteni e rejtély okát. A Med-AI kimutatatta, hogy az érintettek zöme olyan helyen lakott, ahol csatorna 8 Megemlítjük még az I BM Fraud And Abuse Managment System alkalmazását, amely az a merikai egészségügyi szervezet számára készült. Fuzzy modellezésre és statisztikai módszerekre épül Célja a visszaélések és jogosulatlan igények felderítése. (Az USA-ban az egészségügy éves kiadásai meghaladják az 1 trillió dollárt, a visszaélésekkel okozott kár a 100 billiót!) 12 vagy más mérgező anyagokat tároló hely található. Így az orvosok már specifikusabb gyógyszerekkel sikeresen vehették fel a harcot az
operációk után fellépő fertőzésekkel szemben. Számos kórház alkalmazza a Med-AI szolgáltatásait. (Florida államban 25 millió beteg rekordot vizsgáltak meg felhasználásával.) e) KEFIR: Key Findings Reporter for Analysis of Healthcare Information (GTE Labs) Eszköz: Information Harvester (Information Harvesting); -. A KEFIR-t arra fejlesztették ki, hogy automatikusan megtaláljon kirívó eltéréseket egy nagy, időben gyorsan változó kórházi adatbázisban, ill. annak jelentősebb attribútumaiban Az eltéréseket a várt és múltbeli értékek alapján szűri ki. Ahol szükséges, a program egy megfelelő értéket generál és ajánl fel az általa hibásnak vélt érték helyére. A program további érdekessége egy Netscape-et használó grafikus felhasználói felület. 5.3 Marketing alkalmazások f) Vásárlási trendek feltérképezése (Dickinson Direct) Eszköz: Information Harvester (Inf. Harvesting); induktív szabálygenerálás, fuzzy technika A
Dickinson Direkt ugyan csak 230 főt foglalkoztató direkt marketing cég, de olyan nagy vállalatóriásokkal áll kapcsolatban, mint az AT&T és az IBM. Az Information Harvester adatbányászó szoftvert arra használják, hogy – a rendelkezésére álló történeti vásárlási adatok alapján – kimutassák ügyfeleinek főbb vásárlási trendjeit, és szabályszerűségeket mutassanak ki a korábbi marketing tevékenység alapján. Adatbányászati módszerekkel meg tudják többek között állapítani a tipikus vásárló profilját, melynek alapján célorintált marketing stratégiát tudnak kidolgozni. g) Piackutatás (Reader’s Digest Canada) Eszköz: Knowledge Seeker (Angloss Software); döntési fa és induktív szabálygenerálás. A főbb piaci szegmensek meghatározása után meghatározták a profitábilis részeket, majd feltárták a változó kapcsolatokat (kölcsönhatásokat, értékcsoportokat, hierarchikus kapcsolatokat stb.) Ezzel erős piaci
pozíciót tudtak szerezni. 5.4 Kiskereskedelmi alkalmazások h) Lottógépek felállítási helyének kijelölése (Automated Wagering, Inc.) Eszköz: ModelMax (Advanced Software Applications); neuronhálózat. Egy kisvállalkozás megnyitásakor nagyon fontos a megfelelő helyszín kijelölése; ez olykor eldöntheti, hogy az adott vállalkozás sikeres lesz-e. Florida államban a ModelMax prediktív modellezését és a földrajzi elemzés módszereit együttesen alkalmazva sikeres előrejelzéshez jutottak lottógépek felállítási helyének meghatározásában. i) Gépkocsik sztereo berendezéseinek piackutatása (Washington Auto Audio, Inc.) Eszköz: AIM – Abductive Information Modelling (AbTech Corp.); neuronhálózat és regressziós analízis helyett abduktív modellezés, fuzzy technika. Négy év (14000 ember) demográfiai adatait elemezve arra a kérdésre kerestek választ, hogy kik lehetnek a potenciális vásárlók – és ezeket célozták meg marketing
akcióikkal. 13 5.5 Bűnüldözési alkalmazás j) Pénzmosás kiszűrése – FAIS (US Dep. of Treasury, Financial Crimes Enforcement Network) Eszközök: (1) NetMap (Alta Analytics); -. (2) Nexpert Object (Neuron Data); frame- és szabályalapú következtetés. Az USA nagy pénzügyi visszaéléseket felderítő hivatala a FAIS (FinCen AI System) alkalmazást abból a célból fejlesztette ki, hogy kiszűrje a gyanús pénzügyi tranzakciókat, a lehetséges pénzmosásokat. A FAIS nem csak egy (a Nexpert Object eszközzel készített) hagyományos szakértő rendszer, amely automatizálja a d öntési folyamatot, hanem a N etMap fejlett adat vizualizációs eszközeivel erősen támogatja azt. Adatbányászó technikákat arra használták, hogy a legkülönbözőbb perspektívákból összefüggéseket találjanak, és hatékony formában jelenítsék meg a feltárt relációkat a felhasználó előtt, megkönnyítve a hatalmas adattömegben való tájékozódását. 5.6
Tudományos alkalmazások k) JarTool: a Vénusz krátereinek felderítése (JPL: Jet Propulsion Lab) Eszköz: JPL Adaptive Recognition Tool (JPL and Caltech). A JPL adaptív felismerő eszköztárát alkalmazták a Vénusz SAR képeinek elemzésére, mely során sikeresen katalogizálták a Vénusz felszínén található kis vulkánokat. l) SKICAT: Az égi objektumok katalogizálása (JPL: Jet Propulsion Lab) Eszköz: Sky Image Cataloging and Analysis Tool (nemzetközi fejlesztés); döntési fa. A SKICAT adatbányászó programban döntési fák alapján osztályozták égi objektumok millióit − precízebben és gyorsabban, mint bármilyen (emberi) szakértő. Rövid idő alatt a SKICAT több százmillió égi objektumot katalogizált, és segítségével 10 új kvazárt fedeztek fel az univerzumban. 6. Az adatbányászat eszközeiről A jelenleg hazánkban is elérhető, ismertebb adatbányászati eszközök: SAS Enterprise Miner (SAS Institute), Intelligent Miner (IBM),
Clementine (ISL, jelenleg:SPS), DataScope (Cygront, Szeged). Ezek tehát olyan, nagyméretű adatállományokon hatékonyan alkalmazható eszközök, melyek a 2. pontban felsorolt négyféle technika-, ill funkciócsoport adott elemeit integrált módon támogatják IBM Intelligent Miner for Text az IBM Intelligent Minerhez 1998-ban készített, szövegbányászati 9 szolgáltatáscsomag. További adatbányász eszközökről tájékoztatók pl.: http://www.kdnuggetscom/software/indexhtml http://www.datamininghu Az alábbi ábra a Clementine rendszerrel való munkát illusztrálja részletesebben ld. pl [Hall, 1996a,b]). A felhasználó a Clementine funkcióit ikonok kiválasztásával tudja elérni, és n emcsak az eddig kidolgozott modelleket nézheti meg újra és ú jra, hanem a r endszer az adatbányászat eddigi menetét is vizuálisan megjeleníti. 9 Megyjegyezzük, hogy már 1998-tól kezdtek megjelenni a kereskedelemben olyan adatbányászati eszközök, amelyek
szövegbányászati komponenseket is tartalmaztak. 14 7. Felhasznált forrásmunkák jegyzéke [Decker and Focardi, 1995] Decker, K. M and Focardi, S, „Technology Overview: A Report on Data Mining”, Swiss Scientific Computing Center, CSCS-ETH TR-95-02, p. 29 [Dombi, 1999] Dombi J., „Adatbányászat”, In: [Futó, 1999], 569-581 old [Futó, 1999] Futó I. (szerk) „Mesterséges intelligencia”, Aula Kiadó, Budapest, 1999, [Hall,1995]: Hall, C., „The devil’s in the details: techniques, tools, and applications for database mining and knowledge discovery − Part I. II”, Intelligent Software Strategies XI(9): 1-16, XI(10): 1-15, 1995. [Hall,1996a]: Hall, C., „The intelligent software development tools market − Part I-II”, Intelligent Software Strategies XII(2): 1-12, 1996. [Hall,1996b]: Hall, C., „Intelligent data mining tools”, Intelligent Software Strategies XII(7): 1-10, 1996. [Hall,1996c]: Hall, C., „Clementine 20”, Intelligent Software Strategies
XII(1): 1-10, 1996 [IBM, 1996]: „White Paper – Data Management Solutions”, IBM’s Data Mining Technology, IBM, April 1996. [Kiss, 1996] Kiss F., „Adatbányászati módszerek oktatása a S AS rendszerrel”, Informatika az otatásban’96, Networkshop’96 Kiadványa, Debrecen, 1996, aug. 27-30, 701-708 old http://www.datamininghu 15