Informatika | Adatbázisok » Az adatelemzés alapfeladatai

Adatlap

Év, oldalszám:2017, 55 oldal
Nyelv:magyar
Letöltések száma:22
Feltöltve:2022. június 11
Méret:3 MB
Intézmény:-

Csatolmány:-

Letöltés PDF-ben:Kérlek jelentkezz be!

Értékelések

Ezt a doksit egyelőre még senki sem értékelte. Legyél Te az első!


Új értékelés

Tartalmi kivonat

Forrás: https://doksi.net Az adatelemzés alapfeladatai 2017 ősz 6./7 alkalom Kocsis Imre ikocsis@mit.bmehu Budapesti Műszaki és Gazdaságtudományi Egyetem Hibatűrő Rendszerek Kutatócsoport Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1 Forrás: https://doksi.net MACHINE LEARNING / DATA MINING: ALAPFELADATOK 2 Forrás: https://doksi.net Adatelemzés: legfontosabb problémák Csoportosítás (clustering) Osztályozás (classification) Asszoc. szabályok (assoc. rules) Regresszió (regression) 3 Forrás: https://doksi.net Megközelítés  Probléma-osztály;  Szemléltetés;  (Egy algoritmus kivonata)  Fő cél: orientáció  Deep learning, TensorFlow, .  N.B egyre kevésbé „kézműves” tevékenység o „10 Algorithms every Data Scientist has to know” o SaaS/PaaS o Lásd később 4 Forrás: https://doksi.net Csoportosítás Forrás: https://doksi.net K-means 

Adatpontok: vektortér  Klaszter reprezentációja: súlyponttal / ”középponttal” (vektor-átlag)  �(�� ): i-edik klaszter reprezentánsa  Minimalizálandó a négyzetes távolságösszeg, mint hiba: � � � = � �, � �� �=1 �∈�� 2 Forrás: https://doksi.net Demo  https://github.com/rstudio/shinyexamples/tree/master/050-kmeans-example 7 Forrás: https://doksi.net Egy megoldás {� �1 , � �2 , , �(�� )} ← repr. kezdeti halmaza while �(�� ) változik do for ∀� ∈ � adott sorrendben do ℎ ← � klaszter-indexe Régi klaszter � ← ������� �(�, �(�� )) if ℎ ≠ � then { Új klaszter �� ← �� ∪ � �� ← �� ∖ � return � 1 �(�� ) ← � |�� | �∈�� 1 �(�ℎ ) ← �} �∈� ℎ |�ℎ | Itt rögtön újra is számoljuk Forrás: https://doksi.net Alapkérdések  Klasztereken belül maximális homogenitás o

„nagy hasonlóság” o „kis távolság”  Klaszterek között „nagy távolság” o „kis hasonlóság” különböző klaszterek elemei között  Hasonlósági mérce: „similarity metric” o o o o Kategorikus változókra nehéz Skálatranszformáció kellhet Lehet választani. Hierarchikus klaszterezés: dissimilarity metric  Hasonlósági küszöb választása?  Optimális klaszterszám? 9 Forrás: https://doksi.net Néhány távolság-mérték  (0,0) és (1,1) távolsága? 10 Forrás: https://doksi.net Mahalanobis távolság?  Pont és eloszlás távolsága (S: kov-mátrix)  “Szemléletesen”: https://stats.stackexchangecom/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance 11 Forrás: https://doksi.net További változatok  Lineárisan nem szeparálható klaszterek: sűrűség alapú klaszterezés  “packing together closely grouped points”  Pl. DBSCAN (“Density-based spatial clustering of

applications with noise”) o Magpontok: legalább minPts pont e távolságon belül o Sűrűség-elérhető pontok o Outlierek 12 Forrás: https://doksi.net (Agglomeratív) hierarchikus klaszterezés   CSAK KITEKINTÉS https://github.com/joyofdata/hclust-shiny 13 Forrás: https://doksi.net Osztályozás Képosztályozás: a képen látható objektum madár vagy repülő? Forrás: https://doksi.net Osztályozás Levelek osztályozása: SPAM vagy nem SPAM? Forrás: https://doksi.net Osztályozás Szabályok alapján Severity osztályozása Kép forrása: http://192.917290/bigadmin/features/articles/3pmi mgmtfulljsp Forrás: https://doksi.net Döntési fák (Titanic, túlélési esélyek) Túlélés esélye -> osztály “tisztasága” Number of siblings or spouses aboard Megfigyelések aránya https://en.wikipediaorg/wiki/Decision tree learning Forrás: https://doksi.net Klaszterezés ésSemi-supervised klasszifikáció alapfeladat ~=

„klaszterezés” ~= „klasszifikáció” Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941 Forrás: https://doksi.net Felügyelt és nem felügyelt tanulás  Felügyelt tanulás o Adott néhány pontra az elvárt kimenet is o ≈ a tanuló példákból való általánosítás o Output: függvény Tanulóhalmaz: • a meglévő mintapontokra jól képez le • megfelelően általánosítható  Nem felügyelt tanulás amin építjük a modellt Teszthalmaz: amin ellenőrizzük o Nincs meg az elvárt kimenet o Visszajelzés nélkül építi a modellt o ≈ szabályok, összefüggések keresése (ismeretfeltárás) Forrás: https://doksi.net Demo  R „party” csomag  Conditional Inference Tree, iris o Hogy ez mi, azt nem kezdjük itt nagyon részletezni o Party ctree dokumentáció: “Roughly, the algorithm works as follows: • 1) Test the global null hypothesis of independence between any of the input variables and the response (which may be

multivariate as well). • Stop if this hypothesis cannot be rejected. • Otherwise select the input variable with strongest association to the response. This association is measured by a p-value corresponding to a test for the partial null hypothesis of a single input variable and the response. • 2) Implement a binary split in the selected input variable. • 3) Recursively repeat steps 1) and 2).” 20 Forrás: https://doksi.net Demo  R „party” csomag  Conditional Inference Tree, iris o Hogy ez mi, azt nem kezdjük itt nagyon részletezni o Party ctree dokumentáció: “Roughly, the algorithm works as follows: •Kis1)érték Test the global null hypothesis of independence betweenellen any of (tip. 0.05) indikatív a (függetlenségi) hipotézis the input variables and the response (which may be multivariate as well). • Stop if this hypothesis cannot be rejected. • Otherwise select the input variable with strongest association to the response. This association

is measured by a p-value corresponding to a test for the partial null hypothesis of a single input variable and the response. • 2) Implement a binary split in the selected input variable. • 3) Recursively repeat steps 1) and 2).” Pl. entrópia-csökkenés maximalizálásával: a split csökkenti az össz-entrópiát (alágak entrópiájának súlyozott összege) 21 Forrás: https://doksi.net Demo 22 Forrás: https://doksi.net Bináris döntések jóságának mérése 23 Forrás: https://doksi.net Érzékenység vagy specifikusság a fontos? További jellemzők: https://en.wikipediaorg/wiki/Confusion matrix 24 http://people.infeltehu/kiss/11dwhdm/rocpdf Forrás: https://doksi.net Asszociációs szabályok Forrás: https://doksi.net Alapfogalmak  Asszoc. szabályok: elemhalmazok közötti asszociáció vagy korreláció o if LEFT then RIGHT  Pl. Tx DB-k: „sör + pelenka + fejfájáscsillapító”  Adatkeretre is működik „Sokszor igaz”

„Ritkán téved” „Nem véletlen” ����� ������� ���� → ����� = ������ ����� ���������� ���� → ����� = ����� ����������(���� → �����) ���� ���� → ����� = ������ 26 Forrás: https://doksi.net  ���� � → 1 = Alapfogalmak �({�;1}) � �;∗ �({∗;1}) ≈ 1.56  >1: “többször fordulnak elő együtt, mint várható” o “ha pelenka, akkor többször sör”  <1: “kevesebbszer fordulnak elő együtt, mint várható” Lásd még: https://en.wikipediaorg/wiki/Lift (data mining) 27 Forrás: https://doksi.net Néhány megfontolás  Potenciálisan rengeteg szabály  Amit szeretnénk: „elég magas” confidence és support  Redundanciák is lehetnek  A „legérdekesebbeket” bányásszuk ki o Valamilyen „érdekességi”

metrika alapján 28 Forrás: https://doksi.net  Demo (Titanic, ismét) http://brooksandrew.githubio/simpleblog/articles/association-rules-explore-app/ 29 Forrás: https://doksi.net Regresszió Forrás: https://doksi.net Regresszió f függvény, • bemenet: az attribútumok értéke, • kimenet: megfigyelések legjobb közelítése • „ökölszabály” • Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető Forrás: https://doksi.net Regressziós módszerek  Alapelv: Véletlen változó Yt  f      t Hiba Közelítés Y  f ( X1, X 2 ,., X n ) Jósolt esemény Megfigyelhető változók •Átlagos hiba (mean error) n Becsült érték ME   Y  F  t 1 t n t Mért érték Forrás: https://doksi.net Lineáris regresszió  Egyszerű lin. függvény illesztése az adatokra o “nem vár alapvető változást a rendszer viselkedésében” Y  a  bX  Legkisebb

négyzetek módszere o keressük azokat az a,b paramétereket, amelyekre n n SSE    t 2  Yt  Ft  t 1  cél: 2 minimális (Sum of Squared Errors) t 1 n 2 n  Y  F    Y   a  bX  minimalizálása t 1 2 t t t 1 t t Forrás: https://doksi.net Zárt alak: levezetés (parc. deriválás) n d  Yt   a  bX t  2 n    2  Yt   a  bX t   0 t 1 da t 1 n na   Yt  bX t  t 1 a  Y  bX n d  Yt   a  bX t  t 1 db Xi, Yi a mért értékpárok (pl. idő, terhelés) 2 n   X t Yt   a  bX t   0 t 1 n 1 n 1 n    n  n  1  n  n X t Yt   Yt  bX t   bX t    X tYt    X t   Yt   b   X t    X t   b X t2  0  n t 1 n  t 1 

t 1  n  t 1   t 1  t 1 t 1   t 1 n  n  n  n X tYt    X t   Yt   t 1  t 1  b  t 1 2 n n   n X t2    X t  t 1  t 1  n Forrás: https://doksi.net Ismétlés: Anscombe négyese  Legjobban illeszkedő egyenes mindenre van  Minőségileg különböző adatpontokra is Forrás: https://doksi.net Demo  https://github.com/ShinyEd/ShinyEd/tree/master/slr diag 36 Forrás: https://doksi.net Néhány tulajdonság 0-1; „a várhatóérték körüli varabilitás mekkora részét magyarázza a modell” (de: bias!) Kvantilisek: azonos valószínűségű intervallumokat adó vágáspontok (2-kvantilis: medián) 37 Forrás: https://doksi.net Néhány tulajdonság Tfh. A hiba ftlen, normál eloszlású, 0 várhatóértékű és konstans szórású. „Szinte biztos, hogy ide esik az előrejelzés” (ált. 95%) „Szinte biztos, hogy a függő

változó átlaga ide esik” (ált. 95%) 38 Forrás: https://doksi.net Adatelemzés: legfontosabb problémák Idősorelemzés- és előrejelzés Anomália-detektálás (anomaly detection) „Structured prediction” Osztályozás (classification) Asszoc. szabályok (assoc. rules) Csoportosítás (clustering) Regresszió (regression) Mintakeresés (freq. pattern mining) Graph analysis 39 Feature selection Dimensionality reduction Feature extraction Forrás: https://doksi.net Principal Component Analysis  Ortogonális transzformáció olyan ortogonális bázisra (lineárisan független változók; “főkomponensek”), ahol o Az első komponens varianciája a lehető legnagyobb o Az i-edik varianciája a lehető legnagyobb úgy, hogy merőleges legyen az eddigiekre.  Értelme: lehet, hogy összvarianciát leíró komponens jóval kevesebb lesz, mint változó  Nem faktoranalízis; az látens változók által okozott közös varianciát keres o És ezzel

felteszi egy mögöttes modell létezését o Az “Exploratory Factor Analysis” tartalmazhat PCA-szerű lépést 40 Forrás: https://doksi.net Principal Component Analysis  Eltolás a várhatóértékbe + utána forgatás  Skálaérzékeny, de lehet normalizálva is csinálni (pl. Z-score-ra)  Ennek persze megint lehetnek nem kívánt hatásai  Matematikáját nem tárgyaljuk 41 Forrás: https://doksi.net Biplot  (Implicit) feltételezés: 2 komponens “elégségesen leírja”  Komponensenkénti “koordináták” (score-ok)  + Az eredeti változók súlya (“loading”) az első két faktorban 42 Demo Forrás: https://doksi.net Gépi tanulás 43 Forrás: https://doksi.net Adatbányászat 44 Forrás: https://doksi.net ML vs DM 45 Forrás: https://doksi.net ML alapú üzleti intelligencia alkalmazások 46 Forrás: https://doksi.net Machine Learning, Data Mining, statisztika  Az eszközök és a „DNS”ugyanaz; különböző

kultúrák  Statisztika: (stochasztikus) adatmodellezés  ML: informatikusok tanuló programot akartak  DM: tudás kinyerése az adatokból (EDA.stat Modellezés) Lásd [2][3] 47 Forrás: https://doksi.net “Közel ugyanaz” Lásd [4] 48 Forrás: https://doksi.net AUTOMATIZÁLT ADATELEMZÉS: IBM WATSON ANALYTICS 49 Forrás: https://doksi.net Automatizált adatelemzés – IBM Watson Analytics Automatikus “predikció” 50 Forrás: https://doksi.net Automatizált adatelemzés – IBM Watson Analytics “Érdekes asszociációk” automatikus feltárása Automatizált adatminőségértékelés 51 Forrás: https://doksi.net IRODALOM 52 Forrás: https://doksi.net Javasolt magyar nyelvű anyagok  Helyenként nagyon mély, de kiváló tanulmány/jegyzet a Számításelméleti és Inf. Tud Tanszékről: o http://www.csbmehu/nagyadat/bodonpdf  Egyéb: o Dr. Abonyi János: Adatbányászat a hatékonyság eszköze o Iványi Antal: Informatikai

Algoritmusok 2. kötet (28-29 fejezetek), ELTE Eötvös Kiadó 53 Forrás: https://doksi.net További javasolt kezdőirodalom 54 Forrás: https://doksi.net Hivatkozások  [1] Theus, M., Urbanek, S: Interactive graphics for data analysis: principles and examples. CRC Press (2011)  [2] https://projecteuclid.org/download/pdf 1/euclidss/1009213726  [3] https://www.r-bloggerscom/whats-the-difference-between-machinelearning-statistics-and-data-mining/  [4] http://statweb.stanfordedu/~tibs/stat315a/glossarypdf 55