Informatika | Információelmélet » Dr. Magyar Gábor - Információ menedzsment

Alapadatok

Év, oldalszám:2006, 200 oldal

Nyelv:magyar

Letöltések száma:129

Feltöltve:2009. február 10.

Méret:1 MB

Intézmény:
-

Megjegyzés:

Csatolmány:-

Letöltés PDF-ben:Kérlek jelentkezz be!



Értékelések

Nincs még értékelés. Legyél Te az első!

Tartalmi kivonat

INFORMÁCIÓ MENEDZSMENT Dr. Magyar Gábor BME TMIT Információ menedzsment / BME VIK / Dr Magyar G. 2 1 Információ menedzsment / BME VIK / Dr Magyar G. 3 Oktatási segédlet a most következő anyagrészhez: • letölthető a tárgy honlapjáról //alpha.tttbmehu/pub/jegyzet/informacio mgmnt/ • Fekete-fehér PDF változat: - 2 dia/oldal, - 4dia/oldal. • Színes PDF változat. Információ menedzsment / BME VIK / Dr Magyar G. 4 2 ZH információ ugyancsak a honlapon található. • Időpontok, • helyek • eredmények Információ menedzsment / BME VIK / Dr Magyar G. 5 Információ menedzsment / BME VIK / Dr Magyar G. 6 3 Információ menedzsment / BME VIK / Dr Magyar G. 7 Információ menedzsment / BME VIK / Dr Magyar G. 8 4 Információ menedzsment / BME VIK / Dr Magyar G. 9 Információ menedzsment / BME VIK / Dr Magyar G. 10 5 Információ menedzsment / BME VIK / Dr Magyar G. 11 alapfogalmak Információ menedzsment / BME VIK /

Dr Magyar G. 12 6 Adat, információ, tudás • Adat: a valóság nem értelmezett (de értelmezhető) tükörképe Az adat nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít. • Információ: értelmezett adat • Tudás: az ember által kontextusba helyezett információ Információ menedzsment / BME VIK / Dr Magyar G. 13 Adat Adat + értelmezés Információ Információ + kontextus Információ menedzsment / BME VIK / Dr Magyar G. Tudás Tudás 14 7 Adat és információ négy dimenzió: ismerni kell a tárgyat illetve jelenséget amelyre az adat vonatkozik - általában és konkrétan; + a tárgy bizonyos tulajdonságát, jellemzőjét általában és konkrétan. Példa: „X autótípus az NCAP biztonsági teszten * minősítést ért el, általában tudni kell, hogy mi az autó, konkrétan tudni kell, hogy mi a mondatban említett autótípus; általában tudni kell, hogy mit értsünk az autók biztonságán, és

konkrétan ismernünk szükséges az NCAP tesztet Információ menedzsment / BME VIK / Dr Magyar G. 15 Adatkezelés • Adatkezelés: a nyers adatok tárolásának, lekérdezésének és manipulálásának feladatai. [adatmodellek, adatbázis-lekérdező és adatmanipulációs nyelvek,stb.] Információ menedzsment / BME VIK / Dr Magyar G. 16 8 Információmenedzsment • Információmenedzsment: az információk előállításának, rendszerezésének, értékelésének és visszakeresésének feladatai. Információ menedzsment / BME VIK / Dr Magyar G. 17 tudásmenedzsment • Tudásmenedzsment: a szervezeti tudástőke növelését célzó törekvések összessége. (A tudástőke a vállalati vagyon része. Három összetevője: piaci kapcsolatok tőkéje, strukturális tőke, emberi tőke. Az információmenedzsment megoldható kizárólag IT eszközökkel, a tudásmenedzsmentben kritikus az emberi szerep. A gyakorlatban a tudásmenedzsment egyik fontos eszköze az

információmenedzsment. Információ menedzsment / BME VIK / Dr Magyar G. 18 9 Adatmodellek Az adatbázisban történő tároláshoz kell: • a tárolt adatok szerkezetét és „felhasználási szabályait” leíró modell (formalizált jelölésrendszerrel az adatok, adatkapcsolatok, és az azokon végrehajtható műveletek leírása). Információ menedzsment / BME VIK / Dr Magyar G. 19 Különböző modellekben különböző struktúrákat használhatunk. Információ menedzsment / BME VIK / Dr Magyar G. 20 10 Strukturált adatok Ha tárolás által meghatározott struktúra jól illeszkedik az adatok által hordozott információ struktúrájához: strukturált adatokról beszélünk. • A meglévő és a jövőben eltárolandó adatok struktúrája leírható egy állandó sémával (adatbázis esetén egy adatbázis-sémával). • Példa: egy vállalat táblázatban tárolt ügyfél-információi, amelyek az ügyfelek azonosítóját, nevét és

levelezési címét tartalmazzák egy relációs adatbázisban. Információ menedzsment / BME VIK / Dr Magyar G. 21 Félstrukturált adatok • Ha az adatok tárolása által meghatározott struktúra nem jól illeszkedik az adatok információtartalma által meghatározott struktúrához (az adatok értelméhez, azaz szemantikájához), félstrukturált (szemistrukturált) adatokról beszélünk. • Példa: HTML dokumentum közepén megjelenő táblázat. Itt az információ kinyeréséhez előbb az információ struktúráját is azonosítani kell (példánkban megtalálni a táblázatot és azonosítani az egyes oszlopok jelentését a .html állományban), hiszen azt a tárolás struktúrája nem határozza meg azt ! Információ menedzsment / BME VIK / Dr Magyar G. 22 11 A félstrukturált adatokra alkalmazott megoldások nagy része a hagyományos értelemben nem tekinthető adatmodellnek, mivel az adatokon végzett műveletek halmaza nincs egyértelműen definiálva.

Információ menedzsment / BME VIK / Dr Magyar G. 23 Ennek ellenére ezekre a kvázi-adatmodellekre is szokás az adatmodell szót használni. Gyakorlati magyarázata: az ismertetett formális reprezentációk mindig csak egy konkrét műveleti halmazzal, egy konkrét adatmanipulációs nyelvvel együtt használhatók, így a valós alkalmazás során, adott közegben egy teljes értékű adatmodellel találkozunk. Információ menedzsment / BME VIK / Dr Magyar G. 24 12 Figyeljük meg: egy kvázi-adatmodellből lehet a hagyományos értelemben vett adatmodell, ha az adatokon megengedett műveleteket egyértelműen definiálják (szabványosítják). Például az XML nyelv által meghatározott modellben az értelmezett műveletek halmaza még kialakulóban van, de lehet, hogy (széles körben) szabványossá válik. Információ menedzsment / BME VIK / Dr Magyar G. 25 Strukturálatlan adatok Strukturálatlan adatoknak olyan adatokat nevezünk, ahol az adatok által

megjelenített információ értelmesen nem strukturálható, az adathalmaz egésze hordozza az információt. • Példa: pixelgrafikus kép, ahol az egész kép hordozza az információt (pl. egy ember arcképe), a képet alkotó biteket feldarabolni - tartalmilag értelmetlen. Információ menedzsment / BME VIK / Dr Magyar G. 26 13 Strukturált adatbázisok • Lásd: az Adatbázisok című tárgyat Információ menedzsment / BME VIK / Dr Magyar G. 27 Félstrukturált modellek A hagyományos (relációs, OO) modellek túl merevek voltak félstrukturált adatok tárolásához. A Világháló mint globális információs rendszer terjedésével a félstrukturált formátumban jelentkező adatok tömege drámaian megnőtt, ami szükségessé tette ilyen típusú adatok kezelésére szolgáló modellek kidolgozását. Információ menedzsment / BME VIK / Dr Magyar G. 28 14 A félstrukturált adatok tulajdonságai • Az adatok struktúrája szabálytalan Az általános

struktúrától sok adatelem eltér, különböző formában. Példa: Előfordulhat, hogy új (többlet) elem jelenik meg (ez egy hagyományos adatbázisban olyan sémaelemet indukálna, amely a legtöbb adatelem esetében csak üres értéket tartalmazna !). Másik példa: az adatok típusa változik, pl. egy lakcím lehet egyszerű karakterlánc: „1101 Budapest, Utca u. 11”, máskor struktúra: „utcanév: Utca, irányítószám: 1101, város: Budapest, házszám: 11”. (Itt is is új elemek felvételére kényszerülnénk hagyományos adatmodellben, hiszen egy adatmező csak egy típussal rendelkezhet.) Információ menedzsment / BME VIK / Dr Magyar G. 29 A félstrukturált adatok tulajdonságai • Implicit struktúra A struktúra definíciója nem, vagy nem teljes egészében található meg az adatforrásban, azt részben vagy teljes egészében nekünk kell kinyerni az adatokból. Példa: egy HTML-oldal tartalmaz ún. címkéket (tag), amelyek biztosítanak valamilyen

struktúrát a dokumentumnak, ez azonban (általában) a dokumentum formázását definiálja, és nem fedi a dokumentum adatainak információtartalma által meghatározott struktúráját. Információ menedzsment / BME VIK / Dr Magyar G. 30 15 A félstrukturált adatok tulajdonságai • Részleges struktúra Félstrukturált dokumentum tartalmazhat olyan részeket, amelyek egy adott nézőpontból tekintve nem strukturálhatók. Példa: képek egy HTML oldalon, ha a szöveges információkat szeretnénk feldolgozni). Olyan részei is lehetnek az adathalmaznak, melyeket szándékosan nem is akarunk tovább strukturálni (pl. egy szöveges termékleírás egy katalógusban). Információ menedzsment / BME VIK / Dr Magyar G. 31 A félstrukturált adatok tulajdonságai • Csak a-posteriori sémainformáció áll rendelkezésre A hagyományos adatbáziskezelő rendszereknél az adatok struktúrája, típusa az adatbázissémában előre rögzített, és gondoskodunk róla,

hogy az új adatok ennek az előre rögzített sémának pontosan megfeleljenek. Félstrukturált adatok esetében sok esetben csak az adatok adatbázisba való betöltése után lehet valamilyen sémainformációt kinyerni. Információ menedzsment / BME VIK / Dr Magyar G. 32 16 A félstrukturált adatok tulajdonságai • Szabálytalan adatstruktúra • Implicit struktúra • Részleges struktúra • Csak a-posteriori sémainformáció Információ menedzsment / BME VIK / Dr Magyar G. 33 Ahhoz, hogy egy adathalmazt félstrukturáltnak tekinthessünk, nem kell az összes felsorolt tulajdonsággal rendelkeznie. Amennyiben egy is teljesül már félstrukturált adatról beszélhetünk. Példa: az egyszerű DTD-vel rendelkező XML dokumentumok esetén egy laza séma már előzetesen ismert. Információ menedzsment / BME VIK / Dr Magyar G. 34 17 Félstrukturált séma A félstrukturált adatok esetében létezik az adatok által hordozott információnak valamilyen

struktúrája, itt is lehet sémát definiálni (bár sok esetben csak utólag). E félstrukturált séma azonban nem azonos a hagyományos adatbáziskezelő rendszerekben használatos sémával - több olyan tulajdonsága is lehet, amely a hagyományos adatbáziskezelő rendszereket alkalmatlanná teszi ilyen típusú adatok kezelésére ! Információ menedzsment / BME VIK / Dr Magyar G. 35 Félstrukturált séma - tulajdonságok MÉRET-PROBLÉMA. Az adatok nagy változékonysága miatt a séma mérete igen nagy is lehet. Így nem tételezhető fel, hogy a felhasználó a lekérdezés megfogalmazásánál ismeri a sémát. (Sőt: a séma lekérdezésére is eszközöket kell biztosítani.) Információ menedzsment / BME VIK / Dr Magyar G. 36 18 Félstrukturált séma – tulajdonságok (2) VÁLTOZÉKONYSÁG. Ha a séma nem előre definiált, hanem csak a mindenkori adatokból következtetünk rá, maga a séma is változékony lehet. Információ menedzsment / BME VIK /

Dr Magyar G. Félstrukturált séma – tulajdonságok 37 (3) LAZASÁG. Amennyiben a félstrukturált séma előre ismert, akkor is csak laza kényszereket határoz meg az adatokra nézve, azaz opcionális és alternatív adatelemek is előfordulhatnak. Esetleg az adattípusok kezelése sem olyan szigorú, mint a hagyományos esetekben. Információ menedzsment / BME VIK / Dr Magyar G. 38 19 Félstrukturált séma – tulajdonságok (4) • BÖNGÉSZHETŐSÉG. Az adatokat a felhasználók a sémainformációtól függetlenül csak böngészni szeretnék, ellentétben azzal, amikor az adatokat csak a séma ismeretében, lekérdezések útján kaphatjuk meg a rendszertől. Információ menedzsment / BME VIK / Dr Magyar G. 39 Félstrukturált séma - tulajdonságok • MÉRET-PROBLÉMA • VÁLTOZÉKONYSÁG • LAZASÁG • BÖNGÉSZHETŐSÉG Információ menedzsment / BME VIK / Dr Magyar G. 40 20 Félstrukturált adatok keletkezése 1 Dokumentumközpontú

kategória: olyan, elsősorban emberi „fogyasztásra” készült dokumentumok tartoznak, amelyek valamilyen szinten strukturált információt hordoznak. Példa: egy táblázatot tartalmazó HTML oldal, esetleg egy Word dokumentum. Itt a struktúra implicit, amelyet legtöbbször csak utólag, az adatok feldolgozása után lehet kinyerni az adathalmazból. Információ menedzsment / BME VIK / Dr Magyar G. 41 Félstrukturált adatok keletkezése (2) 2 Adatközpontú kategória: olyan adatok, amelyek független adatforrások egyesítésekor vagy független adatforrások közti adatcsere során keletkeznek. Adatforrások integrációjakor kényelmes olyan adatmodellben gondolkodni, amely nem igényli előre meghatározott, és részletesen kidolgozott séma meglétét. (Különösen: ha nem előre ismert számú és tulajdonságú adatforrásról van szó, vagy az adatforrások ugyan ismertek, de a nagy számuk miatt egy, az összes adatforrás lényeges részét egyszerre leíró

séma megalkotása túl nagy erőfeszítésbe kerülne.) Adatforrások integrációjakor a félstrukturált adatok tulajdonságai közül a legfontosabb az, hogy a félstrukturált séma csak lazán írja le az adatokat, ami gyakran elegendő arra, hogy a felhasználók dolgozni tudjanak az integrált adathalmazzal. Információ menedzsment / BME VIK / Dr Magyar G. 42 21 Követelmények a félstrukturált adatmodellekkel szemben: • Tolerálja a séma változékonyságát, illetve lazaságát. • Biztosítson lehetőséget a sémainformáció lekérdezésére is. • Biztosítson lehetőséget az adatok szabad, sémainformáció ismerete nélküli böngészésére is. Információ menedzsment / BME VIK / Dr Magyar G. 43 Tehát: a félstrukturált adatok Strukturált adatok Struktúra adat elem adat elem adat elem Információ menedzsment / BME VIK / Dr Magyar G. félstrukturált adatok adat elem adat elemadat elem 44 22 A modellezés kérdése Adatelemek

reprezentálása: Címkézett értékek készlete: {name: {first: “Feri”, last: “Fekete”}, tel: 11223344, email: ff@abc.hu} Gráf: objektum pontok (nodes) Címkézett élekkel összekötve name tel first Feri last email 11223344 Fekete ff@abc.hu Információ menedzsment / BME VIK / Dr Magyar G. 45 • Minthogy nincs adatszerkezeti definíció, ez a reprezentálás kevésbé előírt: (Szabálytalan adatstruktúra ) – Egy adott címkézett érték esetleg csak az adatobjektumok egy részében található meg. – Egy adott címke akárhányszor előfordulhat ugyanabban az objektumban. – Egy adott címke különböző objektumokban különböző típusú értékeket is jelölhet. A gyakorlatban azért „szeretik” az adatobjektumokat egy struktúratípus szerint meghatározni. Információ menedzsment / BME VIK / Dr Magyar G. 46 23 RDB példa r1: r2: a b c A1 B1 C1 A2 B2 C2 c d C2 D2 C3 D3 C4 D4 Lehetséges félstrukturált

reprezentáció {r1: {row: {a: A1, b: B1, c: C1}, row: {a: A2, b: B2, c: C2}}, r2: {row: {c: C2, d: D2}, row: {c:C3, d: D3}, row: {c:C4, d: D4}}} Információ menedzsment / BME VIK / Dr Magyar G. 47 Példa gráffal: row row row row row a A1 b B1 c C1 VAGY: a A1 a A2 c b B2 C2 c d c d C2 D2 C3 D3 r2 r2 r1 B1 c C1 a A2 b B2 C4 d D4 r2 r1 b c c C2 Információ menedzsment / BME VIK / Dr Magyar G. c C2 d c d D2 C3 D3 c C4 d D4 48 24 ODB példa személy személy személy gyerek &o1 anya név ország gyerek &o2 kor “Mary” &o3 név 45 “John” anya név kor “Kate” 17 “Canada” nővér Információ menedzsment / BME VIK / Dr Magyar G. 49 {szemely: &o1{nev: “Mary”, kor: 45, gyerek: &o2, gyerek: &o3}, szemely : &o2{nev: “John”, kor: 17, rokonok: {anya: &o1, nover: &o3}} szemely : &o3{nev: “Kate”, orszag: “Canada”, anya: &o1}}

Információ menedzsment / BME VIK / Dr Magyar G. 50 25 Az OEM modell • Készült: Stanford University • Széles körben ismert Információ menedzsment / BME VIK / Dr Magyar G. 51 Az OEM modell • Lényege: az adatokat objektumokként fogjuk fel, egy objektum vagy egy konstans érték, vagy további objektumok halmaza, ahol az objektumok halmazbeli szerepét („attribútum”) egy (beszédes) címkével adjuk meg. A konstansoknak típusleíró információt kell adnunk (ez ténylegesen csak leíró információ, nem az ellenőrzést szolgáló eszköz). Információ menedzsment / BME VIK / Dr Magyar G. 52 26 Példa: új típust bármikor létrehozhatunk azáltal, hogy egy „attribútum” típusának olyat adunk meg, amit eddig még nem használtunk. Minden objektumhoz egyedi azonosító tartozik, az objektum-orientált szemléletnek megfelelően. Információ menedzsment / BME VIK / Dr Magyar G. 2001 Adatbázisrendszerek megvalósítása 53 Könyváruház

Panem &12 &25 &16 &20 Kiadó Kiadási év Cím Könyv Könyv Adatbázisrendszerek &13 hivatkozik &15 Szerzo Cím &30 Szerzo Szerzo &31 &17 Szerzo Hector Garcia-Molina Név Email &28 Jennifer Widom Szerzo &14 widom@cs.stanfordedu Információ menedzsment / BME VIK / Dr Magyar G. &21 Jeffrey D. Ullman 54 27 OEM modell • Egy OEM séma egy irányított gráfnak tekinthető ahol az objektumok a gráf csúcsai, a címkék/attribútumok a gráf élei, és a konstans értéket tartalmazó csúcsokból már nem indul ki él. Flexibilis és önmagát leíró modell, melynél a séma információ az adatokkal együtt tárolódik - így az is lekérdezhető. Sémainformáció: az élek címkéinek összessége, valamint az egyes csomópontoknál megadott típusleírások; adat: a csomópontokban levő értékek. Figyelem: a sémainformáció és az adatok nem válnak el egymástól élesen (ami a félstrukturált

modellek illetve adatok egyik jellegzetes tulajdonsága). Információ menedzsment / BME VIK / Dr Magyar G. 55 A fenti példa OEM leírása <DB:: Family {<o1: person {<name str “Mary”> <age 45> <child &o2> <child &o3>}> <o2: person {<name “John”> <age 17> <relatives {<mother &o1> <sister &o3>}>}> <o3: person {<name “Jane”> <country “Canada”> <mother &o1>}>}> • DB állandó szimbolikus objektum azonosító, belépési pontként használható Információ menedzsment / BME VIK / Dr Magyar G. 56 28 LORE • Lightweight Object Repository (by DB Group at Stanford) • Félstrukturált adatokhoz kifejlesztett adatbáziskezelő. • (Lorel: adatmanipulációs nyelv) Információ menedzsment / BME VIK / Dr Magyar G. 57 LORE komponensek • Lorel Query Language • XML adatindexelő • Query optimization • DataGuides • Managing External Data

Információ menedzsment / BME VIK / Dr Magyar G. 58 29 LORE elvek • Különböző alkalmazásokból legyen elérhető • Mechanizmusok multimédia adattípusok megtekintésére • Az eredmény az API-hoz XLM objektumként jön vissza API Lekérdezés összeállítása Adatmotor Információ menedzsment / BME VIK / Dr Magyar G. 59 Lorel • Nyelv félstrukturált adatok lekérdezésére, manipulálására • Deklaratív • Az OQL kiterjesztése • „Do the intuitive thing” Információ menedzsment / BME VIK / Dr Magyar G. 60 30 „Do the intuitive thing” • Objektumok összehasonlítása sohasem eredményez hibát. – Például kép és hang objektumok összehasonlításának eredménye: „false” (nem „error”). – Megengedi különböző objektumtípusok összehasonlítását, például: • „0.9”< 1 • „05”= 5 és „05”!= 5 Információ menedzsment / BME VIK / Dr Magyar G. 61 Elérési út kifejezés - példa Select

Guide.restaurant From Guide.restaurant Where Guide.restaurantname=„McDonald’s” OQL: Select Guide.restaurant From Guide.restaurant Where Guide.restaurant x, x.name=„McDonald’s” Információ menedzsment / BME VIK / Dr Magyar G. 62 31 Select Guide.restaurantname Where Guide.restaurant(address)?zipcode=1111 Select Guide.restaurantname Where Guide.restaurant(nearby)*.name =„McDonald’s” Select Guide.restaurantname Where Guide.restaurantzip%=1111 and Guide.restaurant%=„cheap” Információ menedzsment / BME VIK / Dr Magyar G. 63 A Lore és az XML • A Lore 1999-től támogatja az XML-t. • Az OEM címkék csak belépési pontként szolgáltak, megjelölni a relációt más objektumokhoz. Az XMLben minden (non-text) elemnek van azonosító címkéje. • Megkülönböztetés az attribútum és a szubelem között. Egy út kifejezése Lorelben címkék szekvenciája. (Pl: DBlaborresztvevoprojektbeosztas) • Minden címke lehet attribútum vagy szubelem.

Információ menedzsment / BME VIK / Dr Magyar G. 64 32 DataGuides • Az adatbázis szerkezetének ismerete fontos az értelmes lekérdezés összeállításához. • Data Guide: tömör, szabatos szerkezeti összefoglaló a félstrukturált adatbázisról. • Az adatbázisból nyert dinamikus sémaként funkcionál. Információ menedzsment / BME VIK / Dr Magyar G. 65 Címke út (label path): ponttal elválasztott címkék sorozata (l1.l2) Így áthaladhatunk n élen (ei-en) a kiindulási pontból (ahol ei címkéje l1 ). Célkészlet (target set): t azon objektumok készlete, amelyeket érinthetünk l címke úton haladva. (t=Ts(l)) Információ menedzsment / BME VIK / Dr Magyar G. 66 33 • A tömörség miatt előírjuk, hogy egy DataGuide minden egyedi címke utat csak egyszer ír le. • A szabatosság miatt előírjuk, hogy egy DataGuide nem kódol olyan címke utat, ami egyszer sem szerepel a forrásban. • Az egyszerűség miatt előírjuk, hogy egy

DataGuide maga is egy objektum. Információ menedzsment / BME VIK / Dr Magyar G. 67 A megjegyzés (annotáció) további információ bevitelét teszi lehetővé. • Például egy megjegyzés l címkeútról egy állítás az adatbázis azon objektum-készletéről, amelyik l úttal bejárható. Információ menedzsment / BME VIK / Dr Magyar G. 68 34 DataGuide interfész • lekérdezés összeállításához azok számára, akik nem járatosak a Lorelben. Információ menedzsment / BME VIK / Dr Magyar G. 69 Néhány példa Select DBlabor.labor membername; Keresd az összes labor-tag nevét ! Select DBlabor.labor member; Keresd az összes adatot az összes labor-tagról ! Információ menedzsment / BME VIK / Dr Magyar G. 70 35 Select DBlabor.publikacio Where DBlabor.publikacio(Abstract|Cim) like „%Lore%”; Keresd a DBlabor összes olyan publikációját, amelynek van absztraktja és címében megtalálható a „Lore” ! Select DBlabor.publikacio Where

DBlabor.publikacio%like„%Lore%”; Keresd a DBlabor összes olyan publikációját, amelyek bármely attributumában vagy szubelemében megtalálható a „Lore” ! (A % jel az út kifejezésben: bármely attributum névre vagy tag-re találatot ad.) Információ menedzsment / BME VIK / Dr Magyar G. 71 Select m From DBlabor.labor member m,m%Otthon% h, m.Kedvenc#%nyaralas% v Where h grep v or v grep h; Keresd az összes embert, aki ott szeret nyaralni, ahol lakik ! Select m.name, mtutorname From DBlabor.labor member m Where m position grep „[Ss]tudent”; Párosítsd össze a hallgatókat tutor oktatóikkal ! Információ menedzsment / BME VIK / Dr Magyar G. 72 36 Select DBlabor.labor member{m}name, m.NumPubs; Keresd a labor tagjainak neveit és publikációik számát ! Select count(DBlabor.labor member); Add meg a labor tagjainak számát ! Select m From DBlabor.labor member m Where m.NumPubs=max(DBlaborlabor member NumPubs); Keresd azt a labor-tagot, akinek a legtöbb

publikációja van ! Információ menedzsment / BME VIK / Dr Magyar G. 73 Select m.name, mkutatasi tema[1-2] From DBlabor.labor member m; Keresd a labor tagjainak neveit és két legfontosabb kutatási témájukat ! Információ menedzsment / BME VIK / Dr Magyar G. 74 37 Internet > új alkalmazásfejlesztési stratégiák: dinamikus és adatban gazdag alkalmazások. A nyílt, elosztott számítási környezet igénye elosztott middleware technológiához vezetett. (CORBA) > objektum-orientált programozási nyelvek, fejlesztési környezetek, alkalmazás-integráció Információ menedzsment / BME VIK / Dr Magyar G. 75 ODMG Object Database Management Group Az ODMG ODBMS gyártók-fejlesztők informális konzorciuma. Céljuk szabványfejlesztés, ami termékeik közötti hordozhatóságot nyújt. Információ menedzsment / BME VIK / Dr Magyar G. 76 38 ODMG Szabvány az objektum-tároláshoz. Szabványos interfész, ami lehetővé teszi a fejlesztőnek, hogy Java

objektumait közvetlenül tárolja – adatbázisfüggetlen API segítségével. A szabvány az OMG (Object Management Group), SQL, INCITS (korábban ANSI) szabványokra és a Java specifikációra épül. Információ menedzsment / BME VIK / Dr Magyar G. 77 OMG objektum modell kiterjesztése: ODMG objektum modell OMG Interface Definition Language kiterjesztése: ODMG ODL Object Query Language: az SQL-92-re épül SmallTalk C++ sztenderd JavaSoft sztenderd OMG OMG SmallTalk C++ om om SQL’92 Java Más Szabványokra épül ODMG Specifikációk 2.0 JavaSoft INCITS X3J20 OMG INCITS X3J16 INCITS X3H2 Információ menedzsment / BME VIK / Dr Magyar G. Kidolgozó szervezetek 78 39 Az ODMG specifikáció a következőkből áll: • Object Model Közös adatmodell ODBMS támogatással, ami integrált az OMGs objektum modellel. (Az ODBMS-hez szükséges komponensekkel (pl. relationships) bővítették az OMG modellt. Információ menedzsment / BME VIK / Dr Magyar G. 79 •

előny: – könnyű új adatot felfedezni és betölteni – könnyű heterogén adatok integrálása – könnyű a lekérdezés az adattípusok ismerete nélkül • hátrány: – adattípusvesztés – az optimalizálás nehezebb Információ menedzsment / BME VIK / Dr Magyar G. 80 40 • Object Definition Language (ODL) Adatdefiníciós nyelv az adatbázishoz. Az ODL az OMGs Interface Definition Language (IDL) bővítése, programnyelv-független mechanizmust biztosít a felhasználói objektum modellek (sémák) kifejezéséhez. Információ menedzsment / BME VIK / Dr Magyar G. 81 Az adatbáziskezelőkhöz van adat-definíciós nyelv (DDL), amivel leírjuk a sémát. Az ODMG ODL-lel megadhatjuk az objektum típusát, atrribútumait, viszonyait és a műveleteket. Az ODL absztrakciós szintet jelent: az ODL-ben generált séma független mind a programnyelvtől, mind a konkrét ODMG-megfelelésű DBMS-től. Ennek megfelelően az ODL csak az objektum típusdefinícióra

van tekintettel és figyelmen kívül hagyja az aktuális implementációs módot. > egy ODL-ben generált alkalmazás szabadon mozgatható ODMG-megfelelésű DBMS-ek, különböző nyelvű implementációk között, és átfordítható más DDLre. Információ menedzsment / BME VIK / Dr Magyar G. 82 41 • Object Query Language (OQL) Declaratív (non-procedural) nyelv az adatbázis objektumok (interaktív és programozható) lekérdezésére és frissítésére (updating), mint az SQL egyfajta általánosítása. Információ menedzsment / BME VIK / Dr Magyar G. 83 Az OQL egy SQL-szerű deklaratív nyelv. Objektum készletekhez és struktúrákhoz magas szintű primitíveket, stb. tartalmaz Az SQL-92 szintakszis bővítésével hozták létre. Támogatja például az objektum azonosítást, összetett objektumokat, útkifejezéseket, művelethívásokat, öröklődést. ODMG környezetben lehetséges OQL beágyazott művelethívás. A lekérdezés: a „szokásos”

stílusú (SQL, OQL), és Web stílusú böngészés és pattern matching (IR stílus). Információ menedzsment / BME VIK / Dr Magyar G. 84 42 Az adatok és a séma egyidejű lekérdezése. Lekérdezési verzió, lekérdezési változáskezelés. (Továbbra is probléma az útra összetett feltételek kifejezése.) Információ menedzsment / BME VIK / Dr Magyar G. 85 • Programnyelv bindings Megadja, hogy a támogatott programnyelveken (C++, Java, Smalltalk) írt alkalmazások hogyan manipulálhatják az objektumokat (object definition, manipulation, query) Információ menedzsment / BME VIK / Dr Magyar G. 86 43 más szavakkal A szabvány három meglevő szabvány-csoport egymásra hatásából született: SQL adatbázisok, objektum-szemlélet (OMG), és (egyes) objektum-orientált programozási nyelvek (C++, Smalltalk, and Java). Információ menedzsment / BME VIK / Dr Magyar G. 87 ODMG nyelvi és alkalmazás-fejlesztési hierarchia ODBMS alkalmazás

létrehozására Információ menedzsment / BME VIK / Dr Magyar G. 88 44 Információ menedzsment / BME VIK / Dr Magyar G. 89 referenciák • The Object Database Standard: ODMG-93 Release 1.2, edited by R G G Cattell, is published by Morgan Kaufmann Publishers. November, 1995 • The Object Database Standard: ODMG 2.0, edited by R. G G Cattell and Douglas K Barry, is published by Morgan Kaufmann Publishers. May, 1997 • The Object Data Standard: ODMG 3.0, edited by R G. G Cattell and Douglas K Barry, is published by Morgan Kaufmann Publishers. January, 2000 Információ menedzsment / BME VIK / Dr Magyar G. 90 45 Serge Abiteboul tanácsai A „tisztán” félstrukturált adathalmaz fikció. Készíts strukturált nézetet a félstrukturált adataidról. Fedezd fel a mögöttes szerkezetet! Ha megtudsz (felderítesz) egy struktúrát, próbáld megtartani. Ebben a felfogásban a nézet specifikáció a lényeg (új adatbázis konstruálása?). Nézet karbantartás? A

gráfban nehéz észrevenni, ha egy változás módosítja a nézetet, még nehezebb újraszámolni a nézetet. Információ menedzsment / BME VIK / Dr Magyar G. 91 Serge Abiteboul tanácsai „Mire” nyerjük ki a struktúrát? Lekérdezés optimalizálásra? Lekérdezés formulázhatóságra? (felhasználói interfész) Metaadatokra? (az adatok kifejtésére) Ellentmondások felfedésére? Információ menedzsment / BME VIK / Dr Magyar G. 92 46 A félstrukturált adatok jelene Információ menedzsment / BME VIK / Dr Magyar G. 93 A félstrukturált adatok jelene Ma az interneten az adatok nagy része HTML formátumban található. Egyre népszerűbb az XML formátum. Mindkét specifikáció kapcsolatban áll az ISO/IEC 8879:1986-os szabvánnyal (SGML). A HTML és az XML – az SGML-lel ellentétben – nem ISO szabványok. Információ menedzsment / BME VIK / Dr Magyar G. 94 47 Közjáték A tartalom, a forma (megjelenítés) és a szerkezet hármasságának

megértéséhez. Információ menedzsment / BME VIK / Dr Magyar G. 95 Az információs rendszerekben klasszikussá vált háromsémás architektúrában elválik a felhasználói felület(ek), az alkalmazás-logika és az adatszerkezet. Információ menedzsment / BME VIK / Dr Magyar G. 96 48 Felhasználói Felhasználói felület felület AlkalmazásAlkalmazáslogika logika HáttérHáttér- adatbázis adatbázis Információ menedzsment / BME VIK / Dr Magyar G. 97 A háromrétegű architektúra Képernyők, ablakok, jelentések formátuma Entitás modell Felhasználói funkciók: Be- és kimenet kezelés Rendszerfelület-terve Fogalmi modell Adat oldal Belső terv Fizikai adatbázis tervezés Információ menedzsment / BME VIK / Dr Magyar G. Entitás esemény modellezés: eseményekhez kötőtő eljárások formájában Folyamat oldal Adatbázis függő olvasó/író eljárások 98 49 ANSI/SPARC adatbázis architektúra Logikai nézőpont Fizikai nézőpont

A használat A jelentés kifejezése megkönnyítése végett érdekében csoportosított adatok csoportosított adatok Belső Séma Rekordok Indexek Mutató láncok stb. Fogalmi Séma Entitások Kapcsolatok Attribútumok Külső Séma Nézetek (View) Információ menedzsment / BME VIK / Dr Magyar G. 99 Fogalmi modell: a szervezet működési szabályait, a felhasználói ismereteket, tudást tükrözi vissza a szervezet működéséről (entitás adatmodell és entitás viselkedés modell). A szervezeti modell elvileg független a felhasználói felülettől, ezért különböző megvalósítási környezetekben alkalmazható. Tartalma mint logikai adatbázis folyamatok programja jelenik meg ( a logikai adatmodell entitásainak írása/olvasása). Információ menedzsment / BME VIK / Dr Magyar G. 100 50 A rendszerfelület terve (a külső terv): a felhasználói felület terve (bemeneti/kimeneti adatállományok, képernyők és jelentések adatdefiníciói, a képernyőn

keresztül folytatott párbeszéd folyamatok leírása, programok bemeneti / kimeneti adatállományainak meghatározása). Kompromisszum (szervezeti felépítés, felhasználók egyéni preferenciái, auditálási előírások, biztonsági kérdések, felhasználói célok, politikák, stb.) Heurisztikus megközelítés, prototípus-készítés Információ menedzsment / BME VIK / Dr Magyar G. 101 Belső terv: a fizikai adatbázis terve, adat-folyamat kapcsolatok. Az adat-folyamat kapcsolat: a DB belső adattárolási leírása, az ehhez tartozó adatvisszakereső eljárások specifikációja. Elfedi a fizikai adattárolás részleteit a logikai adatfeldolgozó folyamatok elöl. Kompromisszumok idő, erőforrásigény, karbantarthatóság, stb. alapján (szubjektív prioritás-meghatározás, heurisztikus megközelítés). Információ menedzsment / BME VIK / Dr Magyar G. 102 51 Megjelenítés <table BORDER=1 CELLPADDING=3 WIDTH=100%> <tr><th class=col2

width=5%>Utaló</th> <th class=col2 width=7%>KapcsRekord</th> <th class=col2>A tétel</th><tr> Struktúra <tr> <td class=col4 width=5%"><br></td> <td class=col4 width=8%> 1</td> Adat <td class=col4> <A HREF=http://>Információ</A></td> </tr> <tr> <td class=col4 width=5%"><br></td> <td class=col4 width=8%> 1</td> <td class=col4> <A HREF=http://>Az informácíó</A></td> </tr> Információ menedzsment / BME VIK / Dr Magyar G. 103 Lekérdezés Megjelenítés Vizualizáció Adatbázis Kinyerés XML Adatcsere Feldolgozás Információ menedzsment / BME VIK / Dr Magyar G. További feldolgozás 104 52 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE Konyvaruhaz SYSTEM "konyvaruhaz.dtd"> <Konyvaruhaz> <Konyv ID="k13">

<Szerzo>Jeffrey D. Ullman</Szerzo> <Szerzo> <Nev>Jennifer Widom</Nev> <Email>widom@cs.stanfordedu</Email> </Szerzo> <Cim>Adatbázisrendszerek</Cim> <Kiado>Panem</Kiado> </Konyv> <Konyv ID="k15" hivatkozik="k13"> <Szerzo>Hector Garcia-Molina</Szerzo> <Szerzo>Jeffrey D. Ullman</Szerzo> <Szerzo> <Nev>Jennifer Widom</Nev> <Email>widom@cs.stanfordedu</Email> </Szerzo> <Cim>Adatbázisrendszerek megvalósítása</Cim> <Ev>2001</Ev> </Konyv> </Konyvaruhaz> Információ menedzsment / BME VIK / Dr Magyar G. 105 Konyvaruhaz ID = k15 Konyv Szerzo Email widom@cs.stanfordedu Nev Szerzo Jeffrey D. Ullman Szerzo Hector Garcia-Molina hivatkozik Cim Adatbázisrendszerek megvalósítása Konyv ID = k13 Ev Szerzo 2001 Jennifer Widom Információ menedzsment / BME VIK / Dr Magyar G. Email

widom@cs.stanfordedu Szerzo Nev Jeffrey D. Ullman Cim Kiado Adatbázisrendszerek Panem Jennifer Widom 106 53 Címkéző nyelvek Egy címkéző nyelv (markup language) szöveges formátumot definiál, ahol a folyó szöveget címkék (tag) törik meg. Egy adott szövegrészletet nyitó ill. záró címkék közé zárva lehet felcímkézni. Nyitó címke formátuma: <Címke>, záró címke: </Címke> . Információ menedzsment / BME VIK / Dr Magyar G. 107 • A címkék egymásba skatulyázódnak, azaz ha egy adott nyitó címke a dokumentumban később jelenik meg, mint egy másik nyitó címke, akkor a hozzá tartozó záró címkének meg kell előznie a korábbi nyitó címkéhez tartozó záró címkét. • Példa: szabályos: <C1>szöveg<C2>szöveg</C2></C1>, szabályzatal: <C1>szöveg<C2>szöveg</C1></C2> Információ menedzsment / BME VIK / Dr Magyar G. 108 54 • Gyakran (pl. HTML) megengedett

magányos címkék használata, amikor a nyitó címkéhez nem tartozik záró címke. Példa: HTML <BR> címke. Információ menedzsment / BME VIK / Dr Magyar G. 109 Makró (entity) : egy speciális jelet, vagy egy karaktersorozatot jellegzetes névvel jelölünk. A makró tartalmát a dokumentumba az &makrónév; formában lehet beilleszteni. Figyeljük meg: általános esetben elkerülhetetlen a makrók használata, hiszen pl. a <,>,& karaktereket csak a megfelelő &lt; &gt; és &amp; makrók használatával tudjuk megadni, egyébként a dokumentumot feldolgozó program tévesen címkéknek vagy makró hivatkozásnak értelmezné a speciális karakterek után/előtt levő szöveget. Információ menedzsment / BME VIK / Dr Magyar G. 110 55 A nyitó (ill. a magányos) címkék tetszőleges számú attribútumot is tartalmazhatnak, amelyekkel tovább árnyalhatjuk jelentésüket, Példa: <a href=”http://host”>. Információ

menedzsment / BME VIK / Dr Magyar G. 111 Címkézett dokumentum részlet <darab cim="Romeo es Julia" szerzo="Shakespeare"> A főszereplők: <foszereplo>Rómeó</foszereplo> &amp; <foszereplo>Júlia</foszereplo> </darab> Információ menedzsment / BME VIK / Dr Magyar G. 112 56 Az XML jelentősége Információ menedzsment / BME VIK / Dr Magyar G. 113 Információ átadás • Szóbeli előadás (prédikáció, rege, ének) – Tartalom/Szerkezet/Forma, teljes metakommunikáció • Gutenberg galaxis (írás, képi megjelenítés) – Tartalom (nincs metakommunikáció) – Szerkezet fontossá válik – Forma (hordozza a szerkezetet, az emberi agy dolgozza fel) • Digitális világ – Tartalom – Forma (WYSIWIG, csábítóan módosítható) – elsikkad a Szerkezet Információ menedzsment / BME VIK / Dr Magyar G. 114 57 Információ feldolgozás Hagyományos Információ (ember) Szövegszerkesztő

Információ (gép,ember) Digit tárolás Korszerű Információ (ember) Papír Digit feldolgozás Információ (gép) Digit feldolgozás Információ (gép) Digit feldolgozás Papír Kép Információ (ember) Információ menedzsment / BME VIK / Dr Magyar G. 115 Problémák - Megjelenítés • Gyártó függőség – Sok gyártó (Freelance - Power Point) – Saját formátumok • Időtállóság – Sok alkalmazás (ChiWriter, Word) – Sok verzió (Word 6, 7, 8, 2000) – HW függés (Commodore, 5.25” FDD) • Egyfolytában konvertálni kell !!! – igen sokat ! általában a legrosszabbkor ! • Részleges megoldások – RTF - szép megjelenés – PS,PDF - lapleíró nyelvek Információ menedzsment / BME VIK / Dr Magyar G. 116 58 (első) Megoldás - SGML • Cél: – – – – – kereshető, szűrhető (tartalmi szerkezet) újrafeldolgozható (időtálló, kereshető) hosszú életű (időtálló, szabványos) tervezhető (a struktúra

„felélesztése”) több (multi) média • Megoldás: • Tartalom, Megjelenés, Szerkezet SZÉTVÁLASZTÁSA – kb. szöveges adatbázis • Standard Generalized Markup Language - ISO:1996 Információ menedzsment / BME VIK / Dr Magyar G. 117 SGML Szabványos (ISO/IEC 10179:1996) • Megtalálható benne mindaz, ami a HTML-t és az XML-t jellemzi (címkék, amelyek közé tetszőleges szöveg zárható, DTD, stb.: bonyolult, ami a tömeges használatát gátolta.) Ma is használják profi publikációkkal foglalkozó vállalatoknál, mert gyakorlatilag bármilyen dokumentum leírására alkalmas, és utána a kész eredmény más formátumban (HTML, PDF, PS stb.) előállítható. Információ menedzsment / BME VIK / Dr Magyar G. 118 59 Az SGML hatóköre Tartalom (Információ) WO R D L M SG Forma (Megjelenítés) Szerkezet (Struktúra) Információ menedzsment / BME VIK / Dr Magyar G. 119 A szerkezet megadása • Tervezhető dokumentum típus – egységes,

szabványos – külön állományban tárolódik a DTD (lásd később) – ellenőrzést tesz lehetővé • Az elemek szabadon definiálhatók – Típusmegkötések, értéktartományok – Fa struktúra – Előírt sorrend, számosság • Felhasználás (nagyobb cégek már csak így hajlandók) – szótárak, jogszabályok – ipar (autó, repülő, Pentagon) Információ menedzsment / BME VIK / Dr Magyar G. 120 60 Példa - Dokumentumszerkezet BOLT KÉSZLET CIKK+ NÉV DARAB LEÍRÁS+ Információ menedzsment / BME VIK / Dr Magyar G. 121 Megjelenítés kérdései • Problémák – – – – sokféleség, változékonyság a szerzői jogok „formához” kötöttek a lényeg nem a kiadás, hanem a „befogadás” a lényeg nem a forma, hanem a tartalom+szerkezet • Hagyományos „multimédia” előállítás Word 2 Word 6 papír Word 95 HTML Word 2000 PDF Információ menedzsment / BME VIK / Dr Magyar G. ? XML? Zsákutcák 122 61

Megjelenítés SGML-ben • Az SGML önmagában nem jelenít meg Állandó (tartós) DTD Tartalom Forma PDF SGML editor HTM CD Információ menedzsment / BME VIK / Dr Magyar G. 123 SGML előnyei/ hátrányai Előnyök • Tartalom és forma szétválasztása (szöveges adatbázis) • Független (hardver, operációs rendszer, szoftver verzió) • Sokféle médiumra dolgozhat (www, CD, papír, WAP) Hátrányok • • • • • Bonyolult, nehezen integrálható Körülményes terjesztés Speciális szaktudást igényel Drága A megjelenítéshez külön modulok kellenek Információ menedzsment / BME VIK / Dr Magyar G. 124 62 HTML • 90-es évek eleje -> HTML, SGML alkalmazás a használható címkék halmaza előre definiált, nem változtatható Példa: <P> címke, amely egy új bekezdést kezd, vagy a <BR> címke, amely sortörést iktat be. • Előnyök: – – – – Egyszerű, jól olvasható, készíthető Szabvány, szoftver független

(!? - MS/Netscape) Hivatkozásokat jól kezeli Sok, olcsó szoftver • Hátrányok: – – – – Forma orientált, nem a tartalomra koncentrál Nem jól kereshető (túl sok találat - hiányzik a szerkezet) Túlságosan leegyszerűsített . Nem fejleszthető már tovább Információ menedzsment / BME VIK / Dr Magyar G. 125 EDI - Electronic Data Interchange Strukturált (feldolgozható) üzleti adatok elektronikus cseréje • Egyezményes üzenetformátumokkal és szabványokkal • Üzleti partnerek között. Az adatcsere független kell legyen • az alkalmazott eszközöktől, • az alkalmazói programoktól • és a választott kommunikációs hálózattól. Információ menedzsment / BME VIK / Dr Magyar G. 126 63 Megoldandó problémák Értékes EDI SGML gyors pontos elérhetőség újrafelhasználhatóság Rövid távú XML Hosszú távú HTML ??? gyorsan készül Internet kompatibilis (Archiválás) „Nem értékes” Információ menedzsment /

BME VIK / Dr Magyar G. 127 XML (eredeti) céljai • Az SGML és a HTML hátrányinak kiküszöbölése, előnyeinek megtartása mellett – – – – – Interneten is felhasználható SGML kompatibilis Könnyen integrálható Bővíthető Specifikáció és az adatok könnyű feldolgozása (Az XML specifikáció nincs 40 oldal) – Független (W3C) – Ember által is jól olvasható (ASCII) – Egyszerű ellenőrzés, validálás, Well-formed document Információ menedzsment / BME VIK / Dr Magyar G. 128 64 SGML, XML, HTML SGML XML HTML Információ menedzsment / BME VIK / Dr Magyar G. 129 Az XML, HTML, XHTML és az SGML kapcsolata SGML XML HTML Honlap Architektúra XHTML MathML MyML <person> XHTML honlap n f (n) = ∑k k Információ menedzsment / BME VIK / Dr Magyar G. <name> </name> Dokumentumtípus Dokumentumpéldány </person> 130 65 XML - HTML Hasonlóságok • Csak szöveg • Jelölőnyelvek (tag-ek, elemek) •

Használhatók attribútumok • Egymásba ágyazható elemek • SGML származékok Különbségek: • Az XML szintaxisa szigorú • Az XML-ben saját elemkészlet definiálható • A HTML a megjelenítést, az XML a szerkezetet írja le. Információ menedzsment / BME VIK / Dr Magyar G. 131 XML történet • • • • • • • • 1996.07 1996.11 1997.03 1997.04 1997.12 1998.02 2000.10 2001. W3C XML munkacsoport SGML’96, első XML tervezet Microsoft CDF, XML alapon XML Working Draft XML Proposed Recommendation XML 1.0 XML 1.0 Second Edition XML 1.1 Candidate Recommendation • Támogatók: – Sun, IBM, Oracle, Microsoft, Adobe, W3C, SAP, Software AG Információ menedzsment / BME VIK / Dr Magyar G. 132 66 XML összetevők • DTD, XML Schema • XML • XSL (CSS), XSLT Struktúra Tartalom Forma (Transzformálás) • Csupán a megjelenítéshez nem kell DTD, csak a szerkesztéshez, ill. ellenőrzéshez! • A DTD (és az XSL is) lehet magában a HTML

állományban -> Önleíró állomány • Egyebek (részben kidolgozás alatt): – – – – – – XLink Dokumentumok közötti kapcsolat XPointer Dokumentumon belüli kapcsolatok DOM XML felhasználása programnyelvekbe XQuery Lekérdező nyelv XUpdate Adatmanipuláció lásd http://www.w3corg/xml Információ menedzsment / BME VIK / Dr Magyar G. 133 Transzformáció XSL XSLT Hivatkozások XSL-FO XPointer XLink Lekérdezés módosítás XUpdate XPath XQuery Sémák Alapok API DOM SAX Schematron XML névterek XML Információ menedzsment / BME VIK / Dr Magyar G. DTD Relax NG XML Schema 134 67 • • • • • • • • • • • • XML dokumentum részei A feldolgozónak (parser) <?xml version=„1.0”?> szóló üzenetek <orszagok> <!-- most csak két orszagot írunk --> Gyökér (root) elem <orszag foldresz=„Európa”> <nev>Magyarország></nev> Megjegyzés <nyelv>magyar</nyelv>

</orszag> Gyerek (child) elem <orszag foldresz=„Ázsia”> <nev>Indonézia</nev> <nyelv/> Attribútum </orszag> </orszagok> Üres elem Információ menedzsment / BME VIK / Dr Magyar G. 135 XML dokumentum ellenőrzése Well formed: • Megfelel az XML szintaktikának • Szigorú szabályok az (Elemekre, Attribútumokra, Megjegyzésekre, Foglalt karakterekre, Feldolgozási utasításokra) • A parser „nem engedi át” a hibás állományt Valid: • Megfelel a dokumentum sémának: csak a megadott elemeket használja az előre megadott sorrendben, összefüggésben. • Eszközei: DTD (régen), XML Schema Információ menedzsment / BME VIK / Dr Magyar G. 136 68 DTD – Document Type Definition • (SGML örökség, már elavult, de régebbi dokumentumoknál még megjelenhet) • Elem típus deklarációk • <!ELEMENT orszag (nev,nyelv)> • Attribútum lista deklarációk • <!ATTLIST orszag foldresz CDATA

#REQUIRED> • Entitások • <!ENTITY eu „Európa”> Információ menedzsment / BME VIK / Dr Magyar G. 137 A dokumentum + DTD • Belső (Inline - a dokumentum részeként) • <?xml version=„1.0”?> • • • • <!DOCTYPE orszagok [ <!ELEMENT orszag (nev,nyelv)> ]> • Külső (external – külön állományban): • • <?xml version=„1.0”?> <!DOCTYPE orszagok PUBLIC „orszagok.dtd”> Információ menedzsment / BME VIK / Dr Magyar G. 138 69 Példa - DTD <!ELEMENT bolt (keszlet) > <!ELEMENT keszlet (cikk)* > <!ELEMENT cikk (nev,darab,leiras+) > <!ATTLIST cikk id CDATA #REQUIRED tipus CDATA #IMPLIED> <!ELEMENT nev (#PCDATA) > <!ELEMENT darab EMPTY > <!ATTLIST darab no CDATA #IMPLIED> <!ELEMENT leiras (#PCDATA) > Információ menedzsment / BME VIK / Dr Magyar G. 139 A DTD korlátai • Nincsenek adattípusok (minden egyszerű szöveg) • Nem (pontosabban csak nagyon

korlátozottan) lehet kulcsokat, adatelemek közötti hivatkozásokat megadni • Minden elem globális, nincs lehetőség lokális elemek definiálására • Nehézkesen hordozható (a DTD állományt másolgatjuk) • Nem XML alapú Megoldás: • (Trex, Schematron, Microsoft XDR), XML Schema Információ menedzsment / BME VIK / Dr Magyar G. 140 70 XML Névterek • Egy dokumentumban többféle sémát használhatunk. • A sémákat URI-val jelölhetjük ki (nem kell lokális állomány, mint a DTD-nél), így megkönnyíti különböző XML dokumentumok kombinálását • „Lokális” változók is használhatók (azaz ugyanaz az elemnév más-más névtérben, azaz kontextusban más szabályoknak kell megfeleljen Két alaptípus (de lehet default is): • Implicit: csak arra az elemre (és gyerekeire) vonatkozik, melynek attribútumában szerepel • Explicit: az érintett elemeknél kifejezetten hivatkozni kell rá Információ menedzsment / BME VIK / Dr Magyar G.

141 Példa: XML névtér Explicit <orszagok xmlns=„http://dns.hu” xmlns:hns=„http://hnshu” xmlns:cns=„http://cns.hu”> <hns:Nev>Béla</hns:Nev> <cns:Nev>Magyarország</cns:Nev> Implicit <Nev xmlns=„http://xns.hu”>Riska</Nev> <Nev>Kovács</Nev> Implicit / Default </orszagok> Információ menedzsment / BME VIK / Dr Magyar G. 142 71 XML Schema • A DTD hiányosságait kiküszöböli • 2001 májusa óta W3C szabvány • Lehet külső dokumentum is, de az XML dokumentum része is • • • • Elemek, attribútumok definiálása Egyszerű és komplex típusok definiálása Hivatkozások (kulcsok) kezelése rugalmas Általános adatséma leírására is alkalmas (relációs is!) • Példa: • <xsd:schema xmlns:xsd=„http://www.w3org/2001/XMLSchema”> • <xsd:element name=„nyelv” minOccurs=„0” maxOccurs=„*”> Információ menedzsment / BME VIK / Dr Magyar G. 143

Címzés XPath • Az XML dokumentum, mint fa struktúra elemeit, azok attribútumait jelölhetjük ki • Önállóan nem használható, a DOM, az Xquery, XSL, XSLT, XLink, Xpointer használja • Példa: • /orszagok/nev/@foldresz/attribútumra • /orszagok/nev/nyelv/elemre XPointer • Az XPath felhasználásával egy dokumentum régióinak kijelölése végezhető el. XLink • XML dokumentumok összekapcsolása (akár n:m is!) Információ menedzsment / BME VIK / Dr Magyar G. 144 72 Lekérdezések - XQuery • Az XPath, XML Schema szabványt használja • Filter: Visszaadja az egyező elemeket • Join: Több forrásból érkező adatot egyesít • Group: Meghatározott adatokat gyűjt össze, majd műveleteket végez rajtuk. • Még nem teljes adatmodell! Nincs pl. beszúrás (XUpdate) Információ menedzsment / BME VIK / Dr Magyar G. 145 Transzformációk – XSL, XSLT XSL • Az eredeti XML dokumentum szemantikájának megtartása mellett definiálható a

megjelenítés. • A megjelenítés és a tartalom szétválik! XSLT • XML dokumentumot egy másik XML dokumentummá (illetve általánosan bármilyen más dokumentummá) konvertál. • Szabályokat definiál, tulajdonképpen programozási nyelv Információ menedzsment / BME VIK / Dr Magyar G. 146 73 Programozói interfész Document Object Model (DOM) • W3C szabvány • OO felület • Csomópontok elérése, létrehozása Simple API for XML (SAX) • De facto szabvány • Eseményvezérelt (események: XML elemek és attribútumok beolvasása) Példa: C#, .NET Információ menedzsment / BME VIK / Dr Magyar G. 147 XML egyéb felhasználása • XML/EDI – EDI: szabvány, kiforrott, de drága, zárt hálózat – www.bizTalkorg (Microsoft szervezés) – European XML/EDI pilot project: 2000 július • Adatbázis alkalmazások (egyelőre interpreter+RDB) – Oracle: XSQL servlet IBM: Middleware - Message Broker – Microsoft: XQL és SQL egyformán fontos (SQL 2000)!

– Kisvállalatok? • Kommunikációs nyelv (Prezentációs réteg szabványa) – nem internetes alkalmazások „internetre” integrálása – egységes formátum! (Word 2000: HTML+CSS+XML) Információ menedzsment / BME VIK / Dr Magyar G. 148 74 Példa: EDI dokumentum • ISA*0000000000000101PASSWORDME01123456789 987654321 890714*2210U000000008OP~ GS*IN0123456780876543219005092210000001X0020 40~ ST*8010001~74832 BEG9406061045940606~ N1*BT RAMONA PUBLISHING~ N3 P.O BOX 679342~ N4* TX* 77234~ N1BT HANSEL PUBLISHING~ N3 101 APPLE PIE ST.~ N4* NY 00103~ N1BT FIVELAKES PUBLISHING~ N3* 79 RIVER DRIVE~ N4 TX 74564~ PER*AD J. DOE*TE 2104355445~ ITD013210~ IT1* 3 CA 12.75*VC 6900~ IT1 12 EA 2.99*VC P450~ IT1 4 EA 5.99*VC 1640~ IT1* 1 DZ 2.45*VC 1507~ TDS 100.54~ CAD*M CONSOLIDATED TRUCK~ CTT 4 20~ SE*21000001~ GE1000001~ IEA1000000008~ Információ menedzsment / BME VIK / Dr Magyar G. 149 Példa: WebEDI dokumentum (részlet) • • • • • • • • • • • • •

• • • • • • <?xml version="1.0" ?> - <invoice> - <organization> <name>RAMONA PUBLISHING</name> <street>P.O BOX 679342</street> <state>TX, 77234</state> </organization> - - <contact> <name>J. DOE</name> <phone>2104355445</phone> </contact> - <order> - <item> <quantity>3, CA, 12.75,,VC,, 6900</quantity> </item> - </order> - <shipper> <name>CONSOLIDATED TRUCK</name> </shipper></invoice> Információ menedzsment / BME VIK / Dr Magyar G. 150 75 XML egyéb felhasználása • XML/EDI – EDI: szabvány, kiforrott, de drága, zárt hálózat – www.bizTalkorg (Microsoft szervezés) – European XML/EDI pilot project: 2000 július • Adatbázis alkalmazások (egyelőre interpreter+RDB) – Oracle: XSQL servlet IBM: Middleware - Message Broker – Microsoft: XQL és SQL egyformán fontos (SQL 2000)! –

Kisvállalatok? • Kommunikációs nyelv (Prezentációs réteg szabványa) – nem internetes alkalmazások „internetre” integrálása – egységes formátum! (Word 2000: HTML+CSS+XML) Információ menedzsment / BME VIK / Dr Magyar G. 151 Példa: Adatbázisok és XML RDBMS előnyei XML válaszai • Sebesség • Helykihasználás • Gyors gépünk van • Nagy a háttértár, RAM RDBMS hátrányai • Alkalmazásfüggő • Félstrukturált adatokra nem előnyös (változatos, változó séma) • Komoly szakértelmet igényel • Drága • Alkalmazásfüggetlen • Félstrukturált adatokra ideális • Nem igényel speciális tudást • Olcsó Példa: Natív XML DBMS-ek: Sofrware AG Tamino, Oracle 10 Információ menedzsment / BME VIK / Dr Magyar G. 152 76 XML egyéb felhasználása • XML/EDI – EDI: szabvány, kiforrott, de drága, zárt hálózat – www.bizTalkorg (Microsoft szervezés) – European XML/EDI pilot project: 2000 július • Adatbázis

alkalmazások (egyelőre interpreter+RDB) – Oracle: XSQL servlet IBM: Middleware - Message Broker – Microsoft: XQL és SQL egyformán fontos (SQL 2000)! – Kisvállalatok? • Kommunikációs nyelv (Prezentációs réteg szabványa) – nem internetes alkalmazások „internetre” integrálása – egységes formátum! (Word 2000: HTML+CSS+XML) Információ menedzsment / BME VIK / Dr Magyar G. 153 Példa: Adatcsere formátum Metaadatbázisok, konfigurációs fájlok formátuma • Dublin Core • MARC Relációs adatbázisok sémája definiálható XML sémával Szövegszerkesztők ideális formátuma • Platform független • StarOffice, Word (?) Új jelölő nyelvek alapja • MathML stb. Információ menedzsment / BME VIK / Dr Magyar G. 154 77 XML 10 pontban (W3C reklám) • 1. Strukturált adatok szöveg formátumban • 2. Hasonlít a HTML-hez, de nem az! • 3. Olvasható, de gép számára készült • 4. Nagy terjedelmű, de nem baj • 5. Az XML

elnevezés egy egész szabvány családot takar • 6. Újdonság, de mégsem egészen az • 7. A HTML-től XML-en keresztül vezet az út az XHTML-ig • 8. Az XML moduláris (a névtereknek köszönhetően) • 9. Az XML az RDF és a Szemantikus Web alapja • 10. Független, ingyenes, támogatott – – – – – – Megtekintéséhez nem kell az előállító program Az XML-ben a tag-ek csak határolók, nincs hatásuk a megjelenésre szigorú formai szabályok, nincs lazaság (ld. HTML) jó hatékonyságúak a tömörítő technikák sőt, újabb nyelvek alapja: SMIL, MathML, X3D, CML az SGML elveire, a HTML tapasztalataira épít Információ menedzsment / BME VIK / Dr Magyar G. 155 A Szemantikus Világháló Vízió: A szemantikus háló a Web funkcionalitására épülő új réteg, adatai alkalmasak lesznek gépi feldolgozásra, automatizálásra is. Információ menedzsment / BME VIK / Dr Magyar G. 156 78 A Szemantikus Világháló • Példa:

konferenciára készülünk. A honlapján végiglépdelünk: regisztráció, szállodakeresés, majd foglalás, utazás megszervezése. "A szemantikus weben ezek az információdarabok be lesznek címkézve. A szoftver felismeri majd a címkéket, egyetlen klikkre automatikusan repülőjegyet és szállást foglal" (Tim Berners-Lee) Információ menedzsment / BME VIK / Dr Magyar G. 157 Mi kell hozzá? A hálózati tartalom egyértelmű cimkézése. Gépi intelligencia számára is használható adatmodell(ek), amit ember által olvashatóan kell tárolni. Szabványos szótárak (a leírt adatok megértéséhez). Következtetés-logika. Bizonyítási szint: a többi rendszerkomponens felé megjeleníti az eredményt. Bizalmi szint: a hálón sok adat rossz, hiteltelen, bizonytalan. Információ menedzsment / BME VIK / Dr Magyar G. 158 79 W3C • Technology and Society Domain – Semantic Web activities • RDF Core WG • Web Ontology WG • RDF Interest Group •

Semantic Web Coordination Group Információ menedzsment / BME VIK / Dr Magyar G. 159 Specifikációk • RDF Model and Syntax Specification • RDF Concepts and Abstract Data Model • RDF Model Theory (and graph syntax) Az RDF szemantika formális definíciója • RDF/XML syntax Az XML ábrázolás definíciója • RDF Schema (and data types) A Vocabulary Definition Language • Továbbá: – RDF Primer – RDF Text Cases Információ menedzsment / BME VIK / Dr Magyar G. 160 80 A szemantikus háló rétegei Információ menedzsment / BME VIK / Dr Magyar G. 161 A szemantika építőelemei Információ menedzsment / BME VIK / Dr Magyar G. 162 81 Metaadatok Adat az adatról • „Lágy” fogalom: minden adat, ami más adatról szól. (Pl. katalógusadat) Szükségünk van kiegészítő adatokra ahhoz, hogy az adatokat kezelni és értelmezni tudjuk. Ezeket a kiegészítő adatokat nevezzük metaadatoknak. Információ menedzsment / BME VIK / Dr Magyar G.

163 • Metaadat minden olyan adat, amely más adatokról szól, „adat az adatról”. A metaadatok természetesen önmaguk is adatok, így róluk is lehetnek további metaadatok. Információ menedzsment / BME VIK / Dr Magyar G. 164 82 Alapvető kategorizálás Megkülönböztetjük a – leíró és a – szemantikus metaadatokat. Információ menedzsment / BME VIK / Dr Magyar G. 165 Leíró metaadatok (descriptive metadata): olyan metaadatok, amelyek jelentése nem közvetlenül kapcsolódik a dokumentum jelentéséhez, hanem a dokumentum keletkezésének és/vagy módosításának a körülményeit írják le. Például: a dokumentum szerzője, a dokumentum hossza, az utolsó módosítás dátuma stb. A Dublin Core metaadat szabvány segítségével ilyen leíró metaadatokat adhatunk meg. Leíró metaadatok nagy számban fordulnak elő strukturált adatbázisok és adattárházak esetén is. Információ menedzsment / BME VIK / Dr Magyar G. 166 83 Szemantikus

metaadat: olyan metaadat, amely a dokumentum jelentéséről hordoz információt. Például: a dokumentum jellegzetes kulcsszavai, témaköre. A szemantikus metaadatok főleg strukturálatlan és félstrukturált adatok esetében hasznosak, ahol az adatok információtartalma csak külön feldolgozás árán nyerhető ki az adatok reprezentációjából. Szemantikus metaadat megadása például könyvtári metaadat szabvány segítségével lehetséges (MARC és más könyvtári metaadat szabványok). Információ menedzsment / BME VIK / Dr Magyar G. 167 Metaadat típusok • Adminsztratív metaadat: információs erőforrás adminsztrációjához, menedzseléséhez (pl. jogok, hozzáférés, digitalizáláshoz szelektálási kritérium) • Leíró metaadat: információs erőforrás azonosításához és jellemzéséhez (pl. katalógus, keresési segítség, index, hyperlink erőforrások között) Információ menedzsment / BME VIK / Dr Magyar G. 168 84 Metaadat típusok

(2) • Megőrzési metaadat: információ megőrzési tevékenységhez (pl. az erőforrás fizikai állapotának leírása, adatfrissítési doku) • Műszaki metaadat: rendszerműködési jellemzők (pl. hw, sw doku, digitalizálási adat, formátum, kódkulcs, jelszó) • Felhasználási metaadat: inf. erőforrás felhasználásának szintje, típusa (pl. kiállítási adat, felhasználó regisztrátum, újrahasznosítás) Információ menedzsment / BME VIK / Dr Magyar G. 169 Metaadat attribútumok • Metaadatforrás Fájlnév, könyvtárszerkezet • Metaadat előállítási mód Kulcsszó, index, tranzakciós napló • A metaadat jellege MARC, személyes Web oldal • A metaadat státusza Statikus, dinamikus • A metaadat szerkezete MARC, TEI, EAD • A metaadat szemantikája Sztenderd szótáras, ellenőrizetlen • A metaadat szintje Gyűjtési szint Információ menedzsment / BME VIK / Dr Magyar G. 170 85 Információs rendszer objektumainak

életciklusa Információ menedzsment / BME VIK / Dr Magyar G. 171 Példa: EBU/SMPTE metaadatok A korszerű médiainformációs rendszerek felépítésének egyik pillére. • Az Európai Műsorszóró Egyesület (EBU) az audiovizuális tartalmat (content) a következő összetevőkre bontja: • Video Essence - videóesszencia • Audio Essence - audióesszencia • Data Essence - adatesszencia • Metadata - metaadat Információ menedzsment / BME VIK / Dr Magyar G. 172 86 content = essence + metadata A tartalmat csomagokba rendezik. A csomagokra így külön-külön sokféle funkció és jellemzés alkalmazható. (Pl Access Control, Identifiers & Labels, Version Control, IPR Management, Data Access, Essence Tracking, Contribution/Distribution Information, Data Base Management, Play-list-Essence Matching) Információ menedzsment / BME VIK / Dr Magyar G. 173 Az EBU metaadatok rendeltetés szerinti felbontása • • • • • • • • Essential Metadata

:információ, amely az esszencia dekódolásához szükséges (pl. UMID, videóformátum, a hangcsatornák száma stb.) Access Metadata: a tartalomhoz való hozzáférésre vonatkozó információ (pl. szerzői jog) Parametric Metadata: információ, ami az Essence részletesebb paramétereit határozza meg (pl. kamera-beállítások) Composition Metadata: kötelező információk arról, hogyan lehet a komponenseket egy struktúrába vagy szekvenciába állítani (pl. címinformációk, színkorrekciós oparaméterek, Edit Decision Lists, zoom lens positioning) Relational Metadata: a tartalomkomponensek közötti szinkronizációhoz szükséges információk (pl. timecode) Geospatial Metadata: a forrás térbeli helyzetére vonatkozó adatok Descriptive Metadata: a tartalom adminisztrálásához, a kereséshez, az információeléréshez, a katalogizáláshoz szükséges információk (pl. szerző, hely, a keletkezés ideje, verzióinformáció stb.) Other Metadata: (pl.

felhasználó által definiált metaadatok, leíró szövegek) Információ menedzsment / BME VIK / Dr Magyar G. 174 87 MPEG-7 • A multimédia tartalmak szabványos leírására, szolgáló szabványos - deszkriptorokat, leíró sémákat, deszkriptorleíró nyelvet tartalmazó – keretendszer, • Cél: az abban használatos fogalmak minél pontosabb meghatározása. Információ menedzsment / BME VIK / Dr Magyar G. 175 • Data (a leírni kívánt audiovizuális információ) • Feature (a Data valamilyen megkülönböztető sajátossága) • Descriptor (egy Feature reprezentációja, szemantikai és szintaktikai szabályok révén) • Descriptor Value (egy Descriptor konkrét értéke, előfordulása) • Description Scheme - DS (DSs) (meghatározza a Descriptor-ok és a Description Scheme-k viszonyrendszerének, szerkezetének szemantikáját és szintaktikáját) • Description - D (Ds) (egy DS-ből, azaz struktúrából és Description Value-k egy adott

készletéből áll) • Coded Description ("külső" követelményeknek - pl. tömörség, véletlen elérés - megfelelő Description) • Description Definition Language - DDL (Descriptor-ok és DS-ek létrehozására, módosítására alkalmas nyelv) Információ menedzsment / BME VIK / Dr Magyar G. 176 88 Metaséma-minimálkonszenzus: Dublin Core az internetes forrásfeltárási munka megkönnyítése, a források bibliográfiai leírásának egységesítése, a hozzáférés és az egységes értelmezés szabványosítása. 15 leíró egység: • title - cím, creator - alkotó, subject - tárgyszavas leírás, description- leírás, publisher - kiadó, contributor hozzájáruló, date - dátum, type - típus, format- formátum, identifier - egyedi azonosító, source - forrás, language – nyelv, relation – forráshivatkozás, coverage - téridő-helyzet, rights - jogok A Dublin Core szabvány specifikációja: Internet RFC 2413 (The Dublin Core Metadata for

Simple Resource Discovery). Információ menedzsment / BME VIK / Dr Magyar G. 177 Metaadat és Web Több kezdeményezés: metaadatokkal ellátni a Webet. Felhasználási területek: Katalogizálás (pl. BibTeX) Tartalmi rangsorolás Szellemi tulajdon védelme Személyességi szintek (hozzáférés) e-kereskedelem Információ menedzsment / BME VIK / Dr Magyar G. 178 89 Az információkereső-nyelvi szótár fogalma • Információkereső-nyelvi szótáron, illetve szókészleten természetes és mesterséges nyelven alapuló szótárakat, illetve szókészletet értünk: – – – – osztályozási rendszert, tárgyszójegyzéket, tezauruszt és ún. szabad tárgyszavakat Információ menedzsment / BME VIK / Dr Magyar G. 179 Tezauruszok • A metaadat akkor (a leg)hasznos(abb), ha jelentése jól definiált. Megállapodások, szabványok szükségesek: az egyértelműség (értelmezésbeli különbségek elkerülésére: pl. szerző, utolsó módosítás dátuma), és

a (mező)formátumok egységesítésére (pl. mindig az ISO szerinti dátumformátumot használjuk) Információ menedzsment / BME VIK / Dr Magyar G. 180 90 Tezauruszok • Szemantikus metaadat esetében ez bonyolultabb (a mezők tartalmának a jelentése sem feltétlen világos - pl. kulcsszavak esetén) • Tipikus megoldás: a felhasználható kulcsszavak körét egy ún. kontrollált szótárral (controlled vocabulary) adjuk meg (az adott témakör összes lehetséges kifejezését, azok magyarázatát és a köztük levő kapcsolatot tartalmazza). • Ezzel a kulcsszavak jelentése a rendszeren belül egyértelműen rögzíthető. Információ menedzsment / BME VIK / Dr Magyar G. 181 Tezaurusz • Ennek egyik megvalósítási módja a tezaurusz: adott szakterület kulcsszavait és azok közti (nyelvtani) kapcsolatokat tartalmazza. • Tipikusak egy tezauruszon belül a szinonima (synonim), az általánosabb kifejezés (broader term, BT), a specifikusabb kifejezés

(narrower term, NT), és az általános „kapcsolatos fogalom” (related term, RT) relációk. Információ menedzsment / BME VIK / Dr Magyar G. 182 91 Tezaurusz szabványok Nemzetközi : • ISO 2788:1986 Documentation -- Guidelines for the establishment and development of monolingual thesauri • ISO 5964:1985 Documentation -- Guidelines for the establishment and development of multilingual thesauri Magyar szabvány: MSZ 3418-87 Információ menedzsment / BME VIK / Dr Magyar G. 183 A tezaurusz és más osztályozási rendszerek A tezauruszban ún. lexikai egységek és a köztük levő relációk vannak. Többféle reláció lehet két lexikai egység között -> ezáltal egy tezaurusz több irányú barangolást tesz lehetővé (mint egy klasszikus osztályozási rendszer, pl. könyvtári osztályozó rendszer) Ez nagyobb kifejező erőt ad, de karbantarthatósága, kezelhetősége nehezebb. Információ menedzsment / BME VIK / Dr Magyar G. 184 92 a reláció

rövid jele szakmai megnevezése F generikus fölérendelt (nemfogalom) partitív fölérendelt (egész) T R A P E X L LV H HV laikusok számára megnevezése általánosabb kifejezése történő átfogóbb kifejezése, egésze eredménye, következménye rendeltetése/oka generikus alárendelt (faj-fogalom) fajtája partitív alárendelt (rész) része eredete, kiindulása eszköze/okozata egyéb rokonsága, átfedése rokon kifejezés deszkriptor lásd vagylagos deszkriptorok lásd vagy nemdeszkriptor helyettesített vagylagos nemdeszkriptorok vagylagosan helyettesített Információ menedzsment / BME VIK / Dr Magyar G. 185 ADATBÁZIS M: Adatok elektronikus hordozó rögzített, keresésre alkalmas és forgalmazott, szervezett, összessége F Műszaki dokumentum X Cd-rom ADATHORDOZÓ M: Olyan tároló közeg, amelyen vagy amelyben egy meghatározott fizikai változó adatokat ábrázolhat [MSZ 7788/1] A Filmanyag Hanglemez Hangszalag Képlemez Képszalag

Mágneses adathordozó Optikai adathordozó Papírlap T Dokumentum Információ menedzsment / BME VIK / Dr Magyar G. 186 93 DIPLOMA M: Szakképzettséget vagy (cím)adományozást igazoló (díszes) oklevél F Bizonyítvány Diplomamunka L Szakdolgozat DISSZERTÁCIÓ M: Felsőoktatási vagy egyéb keretben tudományos fokozat ill. cím elnyeréséért készített értekezés [MSZ 3424/6] H Doktori értekezés F Tanulmány X Szakdolgozat Tézis Információ menedzsment / BME VIK / Dr Magyar G. Ének 187 M: Emberi hanggal megszólaltatott zene L Vokális zene ÉNEKESKÖNYV M: Énekszövegeket és hangjegyírással lejegyzett énekeket tartalmazó gyűjtemény [VILIRLEX] F Gyűjteményes könyv Hangjegyes tartalmú dokumentum A Daloskönyv Egyházi énekeskönyv Táncdalgyűjtemény X Énektankönyv Népdalgyűjtemény ÉNEKTANKÖNYV H Oktatási énekeskönyv F Zenei tankönyv A Szolfézskönyv X Énekeskönyv Információ menedzsment / BME VIK / Dr Magyar G. 188 94

Ismert tezauruszok • The Art and Architecture Thesaurus, Getty Institute http://shiva.pubgettyedu/aat browser/ • Union List of Artists Names, Getty Institute http://shiva.pubgettyedu/ulan browser/ • British Museum Object Names Thesaurus http://www.mdocassndemoncouk/bmobj/Objintrohtm • NASA Thesaurus http://www.stinasagov/thesfrm1htm Információ menedzsment / BME VIK / Dr Magyar G. 189 MDC Open Information Model Metaadat Koalíció (Meta Data Coalition - MDC). Célja: a metaadatok egységes kezelése. Nyílt információs modell (Open Information Model OIM), komponens-alapú, újrahasznosítható alkalmazásfejlesztés támogatása. UML modellező nyelv alkalmazása. Információ menedzsment / BME VIK / Dr Magyar G. 190 95 Alkotó elemei • Analysis and Design Model (UML Extensions, Common Data Types, Generic Elements) • Object and Component Model (Component Description Model) • Database and Warehousing Model (Database Schema, OLAP Schema, Data Transformations,

Record Oriented Legacy Databases, Report Definitions) • Business Engineering Model (Business Goal Model, Organizational Model, Business Rule Model, Business Process Model) • Knowledge Management Model (Knowledge Description Format, Semantic Definitions) Információ menedzsment / BME VIK / Dr Magyar G. 191 Implementációs eszközei • Unified Modeling Language (UML) - az OIM formális specifikációs nyelve • eXtensible Markup Language (XML) - az OIM szabványos csere formátum nyelve • a Structured Query Language (SQL) - az OIM lekérdező nyelve. Információ menedzsment / BME VIK / Dr Magyar G. 192 96 UML Model Formal Specification Object Model Interface Def. Repository XML Document Type Definition XML Transfer Query View Documentation Test, etc. SQL Schema Definition Információ menedzsment / BME VIK / Dr Magyar G. 193 Az információtípusok jellemzése • Jelölő (markup) nyelvek (SGML, HTM, XML) • Szöveg. Szövegformátum, természetes nyelv,

hasonlósági modellezés. • Multimédia. Formátumok, leíró adatok, tartalomjellemzés Információ menedzsment / BME VIK / Dr Magyar G. 194 97 Fogalom Fogalom <ez egy>“Jaguár“ Információ menedzsment / BME VIK / Dr Magyar G. 195 A metaadatok szematikai problémája • Metaadat mindenütt használatos – – – – Könyvtár Videotéka Yellow Pages WEB ??? • Eltérő szemantika • uniform metaadat készlet minden forrás számára? – gyakorlatilag nem lehetséges (www. God*.org ?) • RDF: – Megfogalmazza mi a közös a metaadat alkalmazásokban – Egy olyan keretet biztosít, ami lehetővé teszi a metaadat, információ absztrakt, alkalmazás független * leírását = általános szemantika (?) Információ menedzsment / BME VIK / Dr Magyar G. 196 98 Ontológiák (Tudásreprezentáció) Információ menedzsment / BME VIK / Dr Magyar G. 197 Ontolológia a filozófiában • „a létről szóló tan” • ontosz (lenni, létezni) +

logosz (tudomány) • Arisztotelész, Aquinói Szent Tamás (istenérvek) • XX. Század: Husserl, Hartmann, Heidegger, • Érzékfeletti irracionális intuíció útján felfogott lét legáltalánosabb fogalmainak rendszere (Filozófiai kislexikon) • Az ontológia a legfontosabb fogalmak és viszonyaik leírása. Információ menedzsment / BME VIK / Dr Magyar G. 198 99 Fogalmak viszonya • Taxonómia • A fogalmak felosztása, hierarchiába szervezése valamilyen megkülönböztetési szabály alapján. – – – – – – – Amit felosztunk: nemek (genus) Az alárendelt fogalmak: fajok (species) A fajok között kölcsönös kizárás van Természetesen mindkettő relatív Tartalmazási reláció Fogalmak, melyeknek vannak példányai Fa struktúra (létezik a legfelsőbb nem) Emlősök Állatok Stb. Halak Információ menedzsment / BME VIK / Dr Magyar G. 199 Kategóriák • Általában a világ egy kis részének leírásához is kevés egy fa. (pl a

kecskebéka és a gyűlölet nehezen illeszthető össze – nincs közös ősük) • A fa helyett tehát erdő alkalmazható. • A különböző kategóriák független taxonómiát alkotnak, de közöttük kapcsolatok lehetnek. – Nem párosítható minden fogalom mindennel. – Az egyik fa egy fogalmához a másik fa mely nemének leszármazottjai kapcsolódhatnak (alma-gömb). – Egy fogalom mely másik fogalmak használatát zárja ki (alma-kék). – Példa: Arisztotelészi kategóriák Információ menedzsment / BME VIK / Dr Magyar G. 200 100 Arisztotelészi kategóriák 1. Szubsztancia: a létezőnek tekinthető dolgok (Az összes többi kategória a szubsztancia tulajdonságának tekinthető) 2. Mennyiség: kvantitatív jellemző 3. Minőség: Kvalitatív jellemző 4. Viszony 5. Hely: térbeli hellemző 6. Idő: időbeli jellemző 7. Helyzet: valamilyen térben elfoglalt pozíció 8. Állapot: ok-okozat, hasonlóság, tartalmazás, részlet stb 9. Cselekvés 10.

Szenvedély Példa: Egy kétméteres [2] gondolkodó [3] ember [1] csapzottan [8] ült [7] a buszon [7] egyik reggelen [6], és lelkesen [10] evett [9]. Információ menedzsment / BME VIK / Dr Magyar G. 201 Az ontológia egyezményes terminológiát állít fel egy közös érdeklődésű közösség tagjai között. • A tagok lehetnek emberek vagy gépi ügynökök. Információ menedzsment / BME VIK / Dr Magyar G. 202 101 Az ontológia = egy konceptualizáció specifikációja. A konceptualizáció (C) a tudás készítőjének fejében kialakuló fogalmi séma vagy sémák. Megjelenítéséhez nyelvre (L) van szükségünk (tárgynyelv) A fogalmi séma és reprezentációja között ontológiai elkötelezettség (ontological commitment) (K) teremt kapcsolatot. C K ontológiai elkötelezettség O N T O L Ó G I A L nyelv modelljei Információ menedzsment / BME VIK / Dr Magyar G. 203 Ontológia vs. tezaurusz • FONTOS! Fogalmakról van szó, nem kifejezésekről,

mint a tezauruszban. Az ontológiákban a nyelvi megjelenés csak egy címke. absztakció Dolog felidézés Fogalom ontológia Információ menedzsment / BME VIK / Dr Magyar G. Kifejezés tezaurusz 204 102 Ontológia az informatikában • Gruber: „egy adott felhasználói csoport által egy adott témakörben közösen használt világkép formális leírása” • Tehát már nem akarja senki a teljes tudást leírni, részterületeket kell megcélozni (dokumentum típusok, algebra). Elemei: • Fogalmak (concepts) • Kapcsolatok (relation) • Axiómák (axioms) Információ menedzsment / BME VIK / Dr Magyar G. 205 Fogalom Fogalom felidéz “Jaguár“ Szimbólum Információ menedzsment / BME VIK / Dr Magyar G. vonatkozik Dolog 206 103 A megoldandó probléma Információ kereső képesség javítása • Recall (több jó találatunk legyen) • Precision (kevesebb rossz találatunk legyen) Lehetőleg közelítsünk a természetes nyelvhez, az

emberi gondolkodáshoz! (Kérdés: milyen kapcsolatban van ez a kettő ?) Információ menedzsment / BME VIK / Dr Magyar G. 207 A keresés nyelvi nehézségei 1. Azonos (hasonló) jelentésű kifejezések - Példa: • „Egy felest szeretnék!” • „Ide gyorsan egy kupicával!” • „5 cl pálinkát kérek!” Egy indexelő kereső nem tekinti egyformának! • Szinonimák: feles, 5 cl, kupica • Szórend: (Ide-kérek), (5cl, kupica) Információ menedzsment / BME VIK / Dr Magyar G. 208 104 A keresés nyelvi nehézségei 2. Azonosnak látszó kifejezések - Példa: • A mag, amelyik a földbe került, kicsírázott. • A Föld magjának anyaga vas és nikkel keveréke. Egy indexelő kereső azonosnak tekinti! • hominimák: Föld, föld • kontextus tévesztés: mag, mag Információ menedzsment / BME VIK / Dr Magyar G. 209 Nyelvi kompetencia Honnan tudja az ember a jó megoldást? • Szinonimák ismerete, szórend értelmezése • Önmagában még nem

magyaráz meg mindent – Ha rosszul beszélünk egy nyelvet, akkor is boldogulunk – Egy-egy szó is óriási információtöbbletet tud adni („heuréka élmény”) – Felülemelkedünk a nyelv szintaktikáján „A kék alma felszáll a bánya mélyébe” Nyelvileg (szintaktikailag) tökéletes, értelme nincs. Nem elég önmagában a nyelv logikája ! (bár az is nagyon sokat segíthet, és – különösen magyarul – még nagyon sok megoldatlan probléma van) Információ menedzsment / BME VIK / Dr Magyar G. 210 105 Háttértudás Ha a számítógépek is rendelkeznének az ember háttértudásával, sokkal ügyesebben dolgoznának. Probléma: • Hogyan tehetjük a számítógép számára is érthetővé? • Hogyan használjuk fel a háttértudást? Információ menedzsment / BME VIK / Dr Magyar G. 211 Mire jó, ha ontológiát készítünk? • Az információ szerkezete definiálható emberek és szoftver ügynökök számára • A szakterület

tudásanyagát újrafelhasználhatóvá teszi • A kiinduló feltételeket kiemeli (axiómák, hipotézisek, posztulátumok, fikciók) • A mindennapi fogalomrendszert megkülönbözteti a logikaitól • Elemezhető általa a tudás teljessége Információ menedzsment / BME VIK / Dr Magyar G. 212 106 Korunk informatikájának egyik jellemző trendje: a formalizálás, a formális nyelven történő leírás. Információ menedzsment / BME VIK / Dr Magyar G. 213 Szabványos szintakszis Ma: XML alapú leíró nyelvek (hogy egyszerűbb legyen parsert készíteni). Példák: SHOE, XOL (Ontology Exchange Language), OML (Ontology Markup Language), RDFS, OIL (Ontology Intechange Language), DAML+OIL Ontológia és metaadat szerkesztő szoftverek (Protégé, Webonto, OilEd, stb.) Információ menedzsment / BME VIK / Dr Magyar G. 214 107 Egy probléma megoldása újat hoz Ontológia együttműködtethetőség (tudáskompozíció, szemantikus fordító) Információ

menedzsment / BME VIK / Dr Magyar G. 215 Következtetés-gép A szematikus hálón található tudás gépi feldolgozására következtetés-gép (inference engine) szükséges. Információ menedzsment / BME VIK / Dr Magyar G. 216 108 A következtetés-gép A már specifikált tudásból új tudást vezet le. Két megközelítés: - általános logkai következtetés-gép - specializált problémamegoldó algoritmus Információ menedzsment / BME VIK / Dr Magyar G. 217 Az RDF Információ menedzsment / BME VIK / Dr Magyar G. 218 109 • Az RDF általános és absztrakt modell amely bármilyen típusú metaadat leírására alkalmas, bármilyen olyan dologról, avagy erőforrásról (resource), amely egyedi, webes azonosítóval (URI) rendelkezik. • Az RDF az alapja a Szemantikus Világhálónak, az összes felhasználható adat ebben az adatmodellben jelenik meg. • Az RDF W3C ajánlás. Információ menedzsment / BME VIK / Dr Magyar G. 219 URI Uniform Resource

Identifier Az RDF-ben: minősített URI használatos. (URI és egy opcionális részletazonosító: #szöveg) A részletazonosító az URI-val megadott adat jellemzésére szolgál. Információ menedzsment / BME VIK / Dr Magyar G. 220 110 Miért nem elég az XML? miért nem elég XML-ben leírni az adatokat, hiszen az XML általános, rendszerfüggetlen nyelv, amelyben minden leírható? Az XML csak egy adatcsere formátum, és a különböző XML séma nyelvek is csak az adatok struktúráját, megjelenését korlátozzák, de az adatok szemantikáját nem definiálják. Információ menedzsment / BME VIK / Dr Magyar G. 221 Példa1: <?xml version="1.0" encoding="UTF-8"?> <Adatbazis> <Szemely> <Nev>Fekete Péter</Nev> <Feleseg>Fehér Mária</Feleseg> <Munkahely>NevenincsKft.</Munkahely> <Kereset penznem="Ft" tipus="brutto">300000</Kereset> </Szemely>

</Adatbazis> Információ menedzsment / BME VIK / Dr Magyar G. 222 111 <?xml version="1.0" encoding="UTF-8"?> <DB> <Persons> <Person ID="p1" wife="p2" worksfor="c1"> <PName>Fekete Péter</PName> <Salary currency="USD„ type="gross"> 1304</Salary> </Person> <Person ID="p2"> <PName>Fehér Mária</PName> </Person> </Persons> <Companies> <Company ID="c1"> <CName>NevenicsKft.</CName> </Company> </Companies> </DB> Információ menedzsment / BME VIK / Dr Magyar G. 223 A példák pontosan ugyanazt az információt kódolják (Fekete Péter, neje Fehér Mária, a Nevenics Kft-nél dolgozik, bruttó fizetése 300000 HUF), mégis jelentősen eltérnek egymástól. Az RDF olyan modell, amelynek célja, hogy az adatok szemantikája a gépi intelligencia számára is érthető

formában megragadható legyen. Információ menedzsment / BME VIK / Dr Magyar G. 224 112 • Az N3 (Notation3) oktatási nyelvet alkalmazom az alábbiakban. • primer - getting into the semantic web and rdf using n3.htm Információ menedzsment / BME VIK / Dr Magyar G. 225 RDF Az RDF-ben az információ állítások együttese, mindegyik alannyal, állítmánnyal és tárggyal - és semmi mással. Példa: <#pat> <#knows> <#jo> . Az angol nyelvű RDF irodalomban használatos kategóriák: Alany - Subject Állítmány - Verb / Predicate / Property Tárgy - Object Információ menedzsment / BME VIK / Dr Magyar G. 226 113 Alany állítmány és tárgy Egy mondat: <#pat> <#knows> <#jo> . • Minden egyes elemet (alany, állítmány, tárgy) egy URI azonosít. A tárgy lehet egy érték(string) is <#pat> <#age> „34" . • Az állítmány („RDF-ül”: tulajdonság) a másik két elem kapcsolatát fejezi ki.

<#pat> <#child> <#al> . <#pat> has <#child> <#al> . <#al> is <#child> of <#pat> . Információ menedzsment / BME VIK / Dr Magyar G. 227 rövidítéskonvenció ha egy állítmányhoz több állítást kapcsolunk: a pontosvessző (;) másik állítmányt kapcsol ugyanahhoz az alanyhoz, a vessző (,) ugyazon alany-állítmány párhoz másik tárgyat kapcsol. <#pat> <#child> <#al>, <#chaz>, <#mo>; <#age> „34" ; <#eyecolor> "blue" . Információ menedzsment / BME VIK / Dr Magyar G. 228 114 Másképp age pat 34 al 3 jo 5 eyecolor blue green green <#pat> <#age> „34"; <#eyecolor> "blue" . <#al> <#age> "3"; <#eyecolor> "green" . <#jo> <#age> "5"; <#eyecolor> "green" . Információ menedzsment / BME VIK / Dr Magyar G. 229 <#pat><#child>[<#age>

"4"],[<#age> "3"]. Itt a tárgyat nem azonosítottuk. A [ ] -ben található elemek egy létező objektumra utalnak, de nem szándékozunk - se itt, se más dokumentumban – hivatkozni rá. Pontosabban: a [ ] deklarálja, hogy valami létezik az adott tulajdonsággal, de nem ad módot arra, hogy hivatkozzunk rá. Ha meg akarom nevezni, akkor: [ <#name> "Pat"; <#age> "24"; <#eyecolor> "blue" [ <#name> "Al" ; <#age> "3"; <#eyecolor> "green" ]. [ <#name> "Jo" ; <#age> "5"; <#eyecolor> "green" ]. Információ menedzsment / BME VIK / Dr Magyar G. ]. 230 115 A „pat”, „child” és „age” karakterek URI-k, a gép számára semmi jelentést nem hordoznak ezen kívül ! - amíg azt nem állítjuk: <#pat> <#name> "Pat". Információ menedzsment / BME VIK / Dr Magyar G. 231

Közös fogalom A szemantikus web valójában nem képes megadni valamiről, hogy mit jelent. A „cím” (pl könyvtári katalógusban, weboldalon) egy fogalom, s ha több forrás, dokumentum szeretné ezt használni: – ugyanazt kell érteni rajta – ugyanazt a „szótári elemet” kell használni az azonosítására. <> <#title> "Az N3 egyszerű példája". (Az üres <> a kurrens dokumentumot jelenti. A példában a #title olyan fogalomra vonatkozik, amit maga a dokumentum definiál.) Információ menedzsment / BME VIK / Dr Magyar G. 232 116 Közös fogalom A Dublin Core (DC)-ban is van elképzelés a cím fogalomról. Ezt használva jobban definiált állítást tehetünk (e tananyag címéről): <> http://purl.org/dc/elements/11/title „Információmenedzsment". Ez túl hosszú, ezért az N3 megengedi az egyszerűsítést: @prefix dc: <http://purl.org/dc/elements/11/> <> dc:title „Információmenedzsment".

Információ menedzsment / BME VIK / Dr Magyar G. 233 Prefix használata esetén : jel a # helyett (a dc és a cím között), nem használ <>-t. A megadott prefix a dokumentum további részében használható. Az RDF honlapról sok fogalom meghivatkozható, és bárki megadhat újakat, készíthet névteret. @prefix rdf: <http://www.w3org/1999/02/22-rdf-syntax-ns#> @prefix rdfs: <http://www.w3org/2000/01/rdf-schema#> @prefix ont: <http://www.damlorg/2001/03/daml-ont#> Információ menedzsment / BME VIK / Dr Magyar G. 234 117 Legyen @prefix : <#> . Ezzel :pat :child [ :age "4" ] , [ :age "3" ]. Információ menedzsment / BME VIK / Dr Magyar G. 235 Szótárkészítés dc:title = tulajdonság Új szótár vagy ontológia: új osztályok és tulajdonságok megadása. Osztálybasorolás: milyen tipusú az a valami rdf:type amit N3-ban így rövidítünk: a Adjuk meg így személyek egy osztályát:: :Person a rdfs:Class. A

dokumentumban aztán: :Pat a :Person. Információ menedzsment / BME VIK / Dr Magyar G. 236 118 Egy objektum több osztályban lehet. Közöttük nem kell hierarchikus viszonynak lenni. – Az alany osztálya: domain (Minek lehet ilyen típusú értéke) – A tárgy osztálya: range (Milyen típusu értékeket vehet fel) Konvenció (nem szabvány, nem kötelező): – Osztály azonosítót nagy kezdőbetűvel – Tulajdonságot kis kezdőbetűvel Információ menedzsment / BME VIK / Dr Magyar G. 237 Megfelelőség :Woman = foo:FemaleAdult . :Title a rdf:Property; = dc:title . – Célszerű, ahol lehet már létező szótárakra hivatkozni – Megőrzi a rugalmasságot • Névtér – Az RDF szótár „azonosítója” – Azonosító • Ami egyedi • Ami a „kezünkben van” • Ami változatlan, perzisztens – Message-ID – Egy helyi path – URI (pl. purlorg) Információ menedzsment / BME VIK / Dr Magyar G. 238 119 Formulák Egy RDF dokumentum, illetve

séma állítások (statements, mondatok) halmaza. • Formula= egy állítás, ami – állítások halmaza • Egymástó független állítások (bármelyik kiemelhető) • Tetszőleges sorrendben • Egymást nem fedik át (teljesen) – igaz a saját környezetében (context) Tehát egy Dokumentum: formulák halmaza <x.rdf> :says { :pat a :Person } Itt az alany nem pat, hanem x.rdf Információ menedzsment / BME VIK / Dr Magyar G. 239 Szabályok Szabály = – Egy olyan állítás, ami szerint valami egy előfeltétel következménye – Ezt az állítást aztán valamely mechanizmus feldolgozhatja Logikai szabályok definíciója: @prefix log: <http://www.w3org/2000/10/swap/log#> Példa: { sensor:thermostat math:greaterThan "30" . } log:implies { control:furnace control:setTo "1" . } this log:forAll :x, :y. {:x :parent :y} log:implies {:y :child :x} :parent ont:inverse :child . this log:forAll :p, :q . { :p ont:inverse :q . }

log:implies { this log:forAll :x, :y. { :x :p :y } log:implies { :y :q :x } } Információ menedzsment / BME VIK / Dr Magyar G. 240 120 Szabályok @prefix : <#uncle>. :Fred is :father of :Joe. :Bob is :brother of :Fred. @prefix log: <http://www.w3org/2000/10/swap/log#> this log:forAll :who1, :who2. { :who1 :father [ :brother :who2 ] } log:implies { :who1 :uncle :who2 }. • Euler: http://www.agfacom/w3c/euler/ Információ menedzsment / BME VIK / Dr Magyar G. 241 Alany, állítmány és tárgy • Resource (=forrás) – Bármi, amit egy URI azonosíthat • PropertyType – Egy olyan forrás, ami egy másik forrás jellemzésére használható – egy kapcsolat típus • Property – Egy forrás vagy egy érték • Statement – A három kombinációja • Az RDF állítások leírhatók XML formátumban Információ menedzsment / BME VIK / Dr Magyar G. 242 121 Elem-hármas és gráf http://vhol.org/DC/Creator http://ttt.bmehu/indexhtml

mailto::netuddki@bme.hu http://vhol.org/DC/Creator http://ttt.bmehu/indexhtml mailto::netuddki@bme.hu http://vhol.org/DC/Creator http://vhol.org/sema/tartalmaz http://ttt.bmehu/photohtml Információ menedzsment / BME VIK / Dr Magyar G. http://vhol.org/sema/egyuttdolgozik mailto::nekem@bme.hu 243 Szemantikus gráf Gráfstruktúra: amelyben a csomópontok az egyes fogalmakat, az élek a csomópontok közti (bináris) kapcsolatokat jelzik. Mind a csomópontok, mind az élek címkézettek. Információ menedzsment / BME VIK / Dr Magyar G. 244 122 Az RDF gráfban két típusú csomópont van: - erőforrás (resource) - szövegfüzér (literal). Az erőforrás csomópontok az erőforrás URI-jával címkézettek, a szövegfüzér csomópontok a szövegfüzér tartamával. A csomópontokat összekötő éleket tulajdonságoknak (property) nevezik. A gráf irányított (a tulajdonság irányítása lényeges). Információ menedzsment / BME VIK / Dr Magyar G. 245 A

gráfstruktúra egyszerű logikai állításokat kódol. Ha A csomóponttól egy másik B csomóponthoz vezet egy P tulajdonság él: „az A csomópont P tulajdonsága B”. Az állítást egy (P,A,B) hármasként reprezentálhatjuk. ahol P a tulajdonságot, az állítás állítmányát jelöli, A az alany és B az állítás tárgya. Az állítmány két erőforrás között létesít kapcsolatot. Információ menedzsment / BME VIK / Dr Magyar G. 246 123 Elem-hármas és gráf http://vhol.org/DC/Creator http://ttt.bmehu/indexhtml TÁRGY mailto::netuddki@bme.hu ÁLLÍTMÁNY ALANY http://vhol.org/DC/Creator http://ttt.bmehu/indexhtml mailto::netuddki@bme.hu http://vhol.org/DC/Creator http://vhol.org/sema/tartalmaz http://ttt.bmehu/photohtml http://vhol.org/sema/egyuttdolgozik mailto::nekem@bme.hu Információ menedzsment / BME VIK / Dr Magyar G. 247 Elem-hármas és gráf http://vhol.org/DC/Creator http://ttt.bmehu/indexhtml TÁRGY OBJECT

mailto::netuddki@bme.hu ÁLLÍTMÁNY ALANY PREDICATE SUBJECT „Az index.html létrehozója netuddki” Információ menedzsment / BME VIK / Dr Magyar G. 248 124 Elem-hármas és gráf http://vhol.org/DC/Creator http://ttt.bmehu/indexhtml mailto::netuddki@bme.hu http://vhol.org/DC/Creator http://vhol.org/sema/tartalmaz http://ttt.bmehu/photohtml http://vhol.org/sema/egyuttdolgozik mailto::nekem@bme.hu „Az index.html létrehozója netuddki és nekem (akik együtt dolgoznak). Az indexhtml tartalmazza photohtml-t” Információ menedzsment / BME VIK / Dr Magyar G. 249 További lehetőségek RDF-ben Az egyszerű gráf modellen kívül: kollekciók (bag, sequence) megadása, állításokról való állítás („Kati azt mondta, hogy .”), stb. Ezeket speciális szemantikával rendelkező tulajdonságok segítségével valósították meg, az adatmodell lényegét nem érintik. Az RDF alapú ontológiákban lehet újabb, rögzített szemantikájú tulajdonságokat

és csomópontokat definiálni, így tetszőleges bonyolultságú adatokat RDF-ben megjeleníteni. Információ menedzsment / BME VIK / Dr Magyar G. 250 125 Miért nem egyszerűen XML? • Az RDF: – Független (bárki implementálhat szótárakat, típusokat, stb – és ha ezt közzéteszi akárki hivatkozhat is rá – nem egy „felülről definiált” szótáron alapszik) – Egyszerűen cserélhető, platform, nyelv, stb független (XML szerializáció) – Skálázható – világszerte tetszőleges számú XML kifejezés láncolható össze. • Miért nem egyszerűen XML (önmagában)? – XML elemek esetében számít a sorrend, míg az RDF egyszerűen állítások halmaza – Az XML elemek megengednek kevert típusokat, ahol egy elemnek mind szöveges, mind struktúrált információt tartalmaz • Az RDF egy XML alkalmazás, XML Schema-val leírható. Információ menedzsment / BME VIK / Dr Magyar G. 251 RDF alapú ontológiák Információ menedzsment / BME

VIK / Dr Magyar G. 252 126 RDF Séma Az RDF szabványhoz szorosan kapcsolódik az RDF Schema (RDFS) nyelv, amellyel egyszerű ontológiákat (csomópontok és tulajdonságok előre definiált halmazát) definiálhatunk. Információ menedzsment / BME VIK / Dr Magyar G. 253 RDF Séma A szabvány csak a legegyszerűbb konstrukciókat tartalmazza, lehetőséget adva osztályhierarchiák megalkotására (subclass – alosztály és subproperty – altulajdonság reláció), az adott osztályba tartozás kifejezésére (type – típus reláció), egy adott tulajdonság értelmezési tartományának (domain) és értékkészletének (range) a megadására. Információ menedzsment / BME VIK / Dr Magyar G. 254 127 RDFS ontológia példa Egy múzeumi ontológia. Érdemes megfigyelni: az absztrakt fogalmak, és az egyes nyelvi megjelenéseik különválnak. Így egy új nyelv esetén csak egy új címkét (label) kell hozzáadni az ontológia fogalmaihoz és tulajdonságaihoz.

A példában a nyelvek megadására az XML szabványban specifikált xml:lang attribútumot használjuk. Információ menedzsment / BME VIK / Dr Magyar G. 255 <?xml version="1.0" encoding="UTF-8"?> <rdf:RDF xmlns:rdfs="http://www.w3org/2000/01/rdf-schema#" xmlns:rdf="http://www.w3org/1999/02/22-rdf-syntax-ns#"> <rdfs:Class rdf:ID="Painting"> <rdfs:label xml:lang="en">Painting</rdfs:label> <rdfs:label xml:lang="hu">Festmény</rdfs:label> <rdfs:subClassOf rdf:resource="#Artifact"/> </rdfs:Class> <rdfs:Class rdf:ID="Sculpture"> <rdfs:label xml:lang="en">Sculpture</rdfs:label> <rdfs:label xml:lang="hu">Szobor</rdfs:label> <rdfs:subClassOf rdf:resource="#Artifact"/> </rdfs:Class> <rdfs:Class rdf:ID="Flemish"> <rdfs:label

xml:lang="en">Flemish</rdfs:label> <rdfs:label xml:lang="hu">Flamand festő</rdfs:label> <rdfs:subClassOf rdf:resource="#Painter"/> </rdfs:Class> <rdfs:Class rdf:ID="Cubist"> <rdfs:label xml:lang="en">Cubist</rdfs:label> <rdfs:label xml:lang="hu">Kubista festő</rdfs:label> <rdfs:subClassOf rdf:resource="#Painter"/> </rdfs:Class> <rdfs:Class rdf:ID="Painter"> <rdfs:label xml:lang="en">Painter</rdfs:label> <rdfs:label xml:lang="hu">Festő</rdfs:label> <rdfs:subClassOf rdf:resource="#Artist"/> </rdfs:Class> Információ menedzsment / BME VIK / Dr Magyar G. 256 128 <rdfs:Class rdf:ID="Sculptor"> <rdfs:label xml:lang="en">Sculptor</rdfs:label> <rdfs:label xml:lang="hu">Szobrász</rdfs:label>

<rdfs:subClassOf rdf:resource="#Artist"/> </rdfs:Class> <rdfs:Class rdf:ID="Artifact"> <rdfs:label xml:lang="en">Artifact</rdfs:label> <rdfs:label xml:lang="hu">Műtárgy</rdfs:label> </rdfs:Class> <rdfs:Class rdf:ID="Artist"> <rdfs:label xml:lang="en">Artist</rdfs:label> <rdfs:label xml:lang="hu">Művész</rdfs:label> </rdfs:Class> <rdf:Property rdf:ID="last name"> <rdfs:label xml:lang="en">last name</rdfs:label> <rdfs:label xml:lang="hu">vezetéknév</rdfs:label> <rdfs:domain rdf:resource="#Artist"/> <rdfs:range rdf:resource="http://www.w3org/2000/01/rdfschema#Literal"/> </rdf:Property> <rdf:Property rdf:ID="first name"> <rdfs:label xml:lang="en">first name</rdfs:label> <rdfs:label

xml:lang="hu">keresztnév</rdfs:label> <rdfs:domain rdf:resource="#Artist"/> <rdfs:range rdf:resource="http://www.w3org/2000/01/rdfschema#Literal"/> </rdf:Property> Információ menedzsment / BME VIK / Dr Magyar G. 257 <rdf:Property rdf:ID="technique"> <rdfs:label xml:lang="en">technique</rdfs:label> <rdfs:label xml:lang="hu">technika</rdfs:label> <rdfs:domain rdf:resource="#Painting"/> <rdfs:range rdf:resource="http://www.w3org/2000/01/rdfschema#Literal"/> </rdf:Property> <rdf:Property rdf:ID="has material"> <rdfs:label xml:lang="en">has material</rdfs:label> <rdfs:label xml:lang="hu">anyaga</rdfs:label> <rdfs:domain rdf:resource="#Sculpture"/> <rdfs:range rdf:resource="http://www.w3org/2000/01/rdfschema#Literal"/> </rdf:Property>

<rdf:Property rdf:ID="sculpts"> <rdfs:label xml:lang="en">sculpts</rdfs:label> <rdfs:label xml:lang="hu">szobrot készít</rdfs:label> <rdfs:subPropertyOf rdf:resource="#creates"/> <rdfs:domain rdf:resource="#Sculptor"/> <rdfs:range rdf:resource="#Sculpture"/> </rdf:Property> <rdf:Property rdf:ID="paints"> <rdfs:label xml:lang="en">paints</rdfs:label> <rdfs:label xml:lang="hu">fest</rdfs:label> <rdfs:subPropertyOf rdf:resource="#creates"/> <rdfs:domain rdf:resource="#Painter"/> <rdfs:range rdf:resource="#Painting"/> Információ menedzsment / BME VIK / Dr Magyar G. 258 129 </rdf:Property> <rdf:Property rdf:ID="creates"> <rdfs:label xml:lang="en">creates</rdfs:label> <rdfs:label

xml:lang="hu">készít</rdfs:label> <rdfs:domain rdf:resource="#Artist"/> <rdfs:range rdf:resource="#Artifact"/> </rdf:Property> </rdf:RDF> Információ menedzsment / BME VIK / Dr Magyar G. 259 Az RDFS ontológia maga is egy RDF dokumentum. W3C filozófia: (lásd XML és XML Schema) a sémák létrehozására és szerkesztésére legyenek használhatók ugyanazok az eszközök, amelyeket az alap adatmodell kezelésére hoztak létre. Információ menedzsment / BME VIK / Dr Magyar G. 260 130 DAML+OIL Az RDFS-re épülő ontológia leíró nyelvek egyik példája a DAML+OIL ontológia leíró nyelv. Két korábbi projekt, a DARPA Agent Markup Language (DAML) és az Ontology Inference Layer (OIL) eredményeit egyesíti. Felhasználja az RDFS konstrukcióit, és további elemekkel bővíti azt. Ilyen bővítések például: Információ menedzsment / BME VIK / Dr Magyar G. 261 • A szövegfüzérek felé és

erőforrások felé mutató tulajdonságok explicit megkülönböztetése, a tisztább fogalmi modellezés érdekében. • Halmazműveletek definiálása osztályhoz: pl. osztályok uniója, metszete • Annak megadása, hogy egy osztály „ugyanaz” mint egy másik, ill. egy osztály példányai biztosan különböznek egy másikétól. • Inverz tulajdonságok, tranzitív tulajdonságok specifikálása. • A tulajdonságok értékkészlet és értéktartomány definíciójának adott osztályra való megszorítása. • XML Schema adattípusok használata az egyszerű literálok helyett. Információ menedzsment / BME VIK / Dr Magyar G. 262 131 DAML+OIL A DAML+OIL nyelv teljes értékű ontológia specifikációs nyelv, kifejezőereje elegendő a gyakorlatban is alkalmazható ontológiák specifikálásához. Információ menedzsment / BME VIK / Dr Magyar G. 263 Példa: DAML dokumentum ontológia • Communications (communicator, recipient) – Speech – Software

(SoftwareDocumentation, SoftwareVersion) – Document (Title, Subject, Author, Publisher) • Lecture • Publication – Book – Thesis – Article – Periodical • Homepage • Abstract Tulajdonságok Osztályok – PhoneCall • DocumentRepresentation – ElectronicDocument – PaperDocument Információ menedzsment / BME VIK / Dr Magyar G. Kategóriák 264 132 Példa: Dokumentum RDF séma 1. • <rdf:RDF xmlns="http://www.damlorg/2001/03/daml+oil#"> <Ontology about=""> <versionInfo>document-ont, v.10</versionInfo> <comment>An ontology that models documents, particularly publications</comment> <imports resource="http://www.csumdedu/projects/plus/DAML/onts/base10daml"/> </Ontology> <Class ID="Communication"> <subClassOf resource="http://www.csumdedu/projects/plus/DAML/onts/general10daml#Event"/> </Class> • <Property ID="communicator">

<label>is communicated by</label> <domain resource="#Communication"/> <range resource="http://www.csumdedu/projects/plus/DAML/onts/general10daml#Agent"/> </Property> • . Névterek használata Ontológia definíciója Példa osztály Példa tulajdonság Információ menedzsment / BME VIK / Dr Magyar G. 265 Példa: Dokumentum RDF séma 2. • . <Class ID="Communication"> <subClassOf resource="http://www.csumdedu/projects/plus/DAML/onts/general10daml#Event"/> </Class> • <Class ID="DocumentRepresentation"> <subClassOf resource="http://www.csumdedu/projects/plus/DAML/onts/general10daml#Artifact"/> </Class> • <Class ID="PaperDocument"><subClassOf resource="#DocumentRepresentation"/></Class> <Class ID="ElectronicDocument"><subClassOf resource="#DocumentRepresentation"/></Class>

• . Osztályok (kategóriák) Alosztályok Információ menedzsment / BME VIK / Dr Magyar G. 266 133 Példa: Dokumentum RDF séma 3. • . <Class ID="Document"><subClassOf resource="#Communication"/></Class> • <Property ID="subject"> <label>has subject</label> <domain resource="#Document"/> <range resource="http://www.csumdedu/projects/plus/DAML/onts/base10daml#SHOEEntity"/> </Property> <Property ID="author"> <label>is written by</label> <domain resource="#Document"/> <range resource="http://www.csumdedu/projects/plus/DAML/onts/general10daml#Person"/> </Property> <Property ID="title"> <label>is titled</label> <domain resource="#Document"/> </Property> . Tulajdonságok Címke (label) Osztály, amiben értelmezve van (domain) Kitöltési korlátozások

(range) Információ menedzsment / BME VIK / Dr Magyar G. 267 Példa: Dokumentum RDF séma 4. • . • <Class ID="Software"><subClassOf resource="#Communication"/></Class> • <Property ID="softwareVersion"> <label>is version</label> <domain resource="#Software"/> </Property> <Property ID="softwareDocumentation"> <label>is documented in</label> <domain resource="#Software"/> <range resource="#Publication"/> </Property> Rekurzió (a szoftver dokumentáció Publikáció típusú lehet) . Információ menedzsment / BME VIK / Dr Magyar G. 268 134 Összefoglalás (Helyzetjelentés a szemantikus hálóról) Információ menedzsment / BME VIK / Dr Magyar G. 269 Információk a hálózaton: • természetes nyelveken írt szöveges állományok • adatállományok (szemantikus jelentőségű szerkezetben) • multimédia

állományok • vegyes állományok Emberek számára mindez értelmes lehet, de gép számára általában nem. Információ menedzsment / BME VIK / Dr Magyar G. 270 135 Emberi és gépi felhasználhatóság • önleíró (adat)források metaadatok használata a metaadatot gép által is olvasható formában (pl. XML) reprezentáljuk a metaadathoz definiálni kell a használt szókészletet is gépi (pl. ágensek) következtetési képesség A szemantikus háló kiterjeszti a web jelenlegi lehetőségeit („globálisan összefüggő adatbázis”) Információ menedzsment / BME VIK / Dr Magyar G. 271 Alapszabályok • Minden elemet (erőforrást) URI-val azonosíthatunk • Erőforrásoknak és linkeknek lehet típusa • Részleges információ is elfogadható a szemantikus web határtalan, bárki bármit állíthat bárkiről • Nem cél a „teljes bizalom”; bizalmi láncok • Bővíthető • A szabványosítás körének minimálizálása Információ

menedzsment / BME VIK / Dr Magyar G. 272 136 A szemantikus háló rétegei Információ menedzsment / BME VIK / Dr Magyar G. 273 URI, Unicode réteg • URI és Unicode réteg: lehetővé teszik, hogy (nemzetközi karakterkészlettel) egyedi azonosítókat rendelhessünk az objektumainkhoz • A forrásokat egyértelműen azonosítjuk ez nélkülözhetetlen a konzisztens állításokhoz • Az URI-k lehetnek Protokoll függőek (http://, mailto:) Protokoll/hely függetlenek (URN-s, PURL) Információ menedzsment / BME VIK / Dr Magyar G. 274 137 XML réteg lehetővé teszi hogy a felhasználó tetszőleges struktúrába szervezze a dokumentumait, de nem mond semmit arról, hogy mi mit jelent Információ menedzsment / BME VIK / Dr Magyar G. 275 RDF réteg a „jelentés-réteg”: hármasok csoportja, minden hármas: alany, ige és tárgy az állításokban Információ menedzsment / BME VIK / Dr Magyar G. 276 138 RDF Sémák Az RDF még nem elég, mert • az

RDF-ben nincs kapcsolat a (szokásos) adattípusokkal • meg kell egyeznünk egy adott szókészletben • RDF Sémák használata : milyen kapcsolatok használhatók? mely forrásokra érvényesek a kapcsolatok? Információ menedzsment / BME VIK / Dr Magyar G. 277 Ontológia réteg A szemantikus hálónak szüksége van ontológiák felépítésére és használatára • Az RDF sémák csak az alapmechanizmust adják • Nem lehet következtetéseket levonni a szókészlet elemeiről „ha ez az állítás igaz, akkor az az állítás is igaz” „ha ez az állítás igaz, akkor az az állítás nem igaz” • Nincs megfeleltetés a különböző szókészletek között • Nincsenek többszörös szülőosztályok, komplex megszorítások, feltételek . Információ menedzsment / BME VIK / Dr Magyar G. 278 139 Az ontológia kifejezéseket és összefüggéseket határoz meg egy adott tudásterület leírásához • A cél: Webontológia nyelv („Web Ontologies

Language”), amely a következőkön alapszik: • RDF és RDF Sémák • korábbi munkák: DAML (DARPA projekt), OIL (EU projekt) DAML+OIL (DAMN és OIL egyesítése) • a logika, tudásreprezentáció, stb., gyakorlati eredményeinek felhasználása Információ menedzsment / BME VIK / Dr Magyar G. 279 Logikai réteg/szabályzat • Általános célú szabály nyelvek, amelyek képesek lekérdezni és szűrni • A lekérdezések hasonlóak az SQL-hez Néhány megoldás ma is létezik. Van, aki külön rétegnek tekinti (az ontológia és a logika között). Információ menedzsment / BME VIK / Dr Magyar G. 280 140 Logikai réteg • (Univerzális ?) nyelv kidolgozása a logikai kifejezésekhez • A szabályok alapján lekérdezéseket valósít meg Nincs egyetlen standard következtetés-gép – a következtetési képességek eltérőek Ma is több következtetés-gép megvalósítás létezik (pl. SQL to KIF, Cycl) Információ menedzsment / BME VIK / Dr Magyar G.

281 Bizonyosság réteg Általános célú értelmező a szemantikus hálóhoz. A műveletek (kérdés, ellenőrzés, átalakítás, szűrés, stb.) értelmének feldolgozására. Proof language ? A HTTP „GET” tartalmazhat-e bizonyítékot arra, hogy a felhasználónak joga van megkapni a dokumentumot ? A hitelesítési technológián (pl. digitális aláírás) kívül kell e más, kontextusfüggő információ a bizonyossághoz? Pl. Closed World Machine (CWM): Perl implementáció N3 szabályok bizonyítására. Információ menedzsment / BME VIK / Dr Magyar G. 282 141 Bizalmi réteg Az állítások valamilyen kontextusban fordulnak elő a weben. Az alkalmazásoknak szüksége van a kontextusra, hogy megállapítsák egy állítás megbízhatóságát. A szematikus háló szerkezete nem garantálja hogy minden állítás igaz a weben. Információ menedzsment / BME VIK / Dr Magyar G. 283 Információ menedzsment / BME VIK / Dr Magyar G. 284 142 Ügynökök •

Gépi elemek, amelyek összegyűjtik a web tartalmakat különböző forrásokból, feldolgozzák azt, és más programokkal információt cserélnek • Sok web alapú alkalmazás létezik, amelyet nem tudnak a programok, ügynökök megtalálni • Szolgáltatás-felderítéssel ezek megtalálhatók, ehhez azonban meg kell határozni egy közös nyelvet, amely definiálja a szolgáltatást, és hogy ezt hogyan tudjuk használni • A fogyasztó és a termelő ügynök ontológiák cseréjével megértik egymást, közös szókincset határoznak meg a beszélgetéshez • Az ügynökök be tudnak tölteni új következtetési képességeket, ha új ontológiákat fedeznek fel Információ menedzsment / BME VIK / Dr Magyar G. 285 Információ menedzsment / BME VIK / Dr Magyar G. 286 143 Információ keresés és feltárás Információ menedzsment / BME VIK / Dr Magyar G. 287 Információ visszakeresés • Alapvető feladat: azért rendezünk, tárolunk adatokat, hogy

valaki visszakeresse, használja. • Az INFORMÁCIÓ VISSZAKERESÉS feladata: a felhasználó információs igényének minél pontosabb és teljesebb kielégítése. Információ menedzsment / BME VIK / Dr Magyar G. 288 144 Információ visszakeresés • Alapvető feladat: azért rendezünk, tárolunk adatokat, hogy valaki visszakeresse. • Nehézsége: a felhasználó információs igénye sokszor nem áll közvetlenül rendelkezésre (mert nem képes jól leképezni igényét az információs rendszer által megkövetelt módra). Információ menedzsment / BME VIK / Dr Magyar G. 289 Információ visszakeresés • Különösen így van ez az Internet korában: sok ember („mindenki”) keres – speciális előképzettség nélkül, a modellek, a struktúrák, a konvenciók ismerete nélkül – hétköznapi logikával, Információ menedzsment / BME VIK / Dr Magyar G. 290 145 Strukturált lekérdezés Strukturált adatbázisban • Ismert szemantikájú

struktúra • Struktúrált lekérdező nyelvek (pl. SQL, OOL) Ezt ma jellemzően • speciális szoftverkörnyezetben, • képzett felhasználó (aki ismeri a DB séma szemantikáját) végzi, => aki képes pontosan megfogalmazni az információs igényt. (Kutatások: lekérdezés a Deep Web-ben.) Információ menedzsment / BME VIK / Dr Magyar G. IR Alapfogalmak 291 IR • Információ visszakeresés – information retrieval : az irodalomban félstrukturált és strukturálatlan adatok visszakeresését értik alatta. [Az adatok csak implicit módon hordoznak információt. A lekérdezést jellemzően szövegesen adjuk meg. ⇒probléma: A dokumentumok információtartalmának megragadása. A lekérdezés pontossága és egyértelműsége. ] Információ menedzsment / BME VIK / Dr Magyar G. 292 146 Adat és információ visszakeresés • Adat visszakeresés: keresés a dokumentum szintaktikai struktúrájában • Információ visszakeresés (IR) : a keresés

tárgya a dokumentum által hordozott információ Információ menedzsment / BME VIK / Dr Magyar G. 293 A visszakeresési folyamat A keresési folyamat specifikus: adott adatbázis(ok)ra vonatkozóan értelmezhető. ⇒ A keresési folyamat megkezdése előtt definiálni kell az adatbázis logikai nézetét. A (szöveges) adatbázis logikai nézetének definiálása: - az adatbázisba tartozó dokumentumok megadása, - a szövegeken elvégezhető műveletek megadása, - a szövegmodell (pl. a dokumentumok struktúrája és, hogy mely elemei kereshetők) megadása. Információ menedzsment / BME VIK / Dr Magyar G. 294 147 felhasználói interfész szöveg felhasználói igény szöveg műveletek a szövegen felhasználói visszacsatolás logikai nézet lekérdezési eljárás indexelés adatbázis-kezelő kérdés keresés visszakersett dokuk index szöveges adatbázis rangsorolás rangsorolt dokuk Információ menedzsment / BME VIK / Dr Magyar G. 295 Relevancia

• Az INFORMÁCIÓ VISSZAKERESÉS (IR) feladata: a felhasználó információs igényének minél pontosabb és teljesebb kielégítése. „minél pontosabb és teljesebb”: Az adott információs igényt kielégítő dokumentumok: releváns dokumentumok. • Az információ visszakeresés (IR) elvi feladata: a felhasználó számára releváns összes dokumentum visszakeresése. Információ menedzsment / BME VIK / Dr Magyar G. 296 148 Relevancia A relevancia mérésének problémája: kinyerhető-e az összes releváns dokumentum egy adott keresési feltétellel? Modellek, algoritmusok összehasonlíthatósága a relevancia alapján? Információ menedzsment / BME VIK / Dr Magyar G. 297 IR modellezés A hagyományos információ kereső rendszerek index kifejezéseket alkalmaznak. • INDEX: itt csak szöveges indexekkel foglalkozunk. Index nem csak szöveges kifejezés lehet, hanem bármilyen objektum: kép, hang, string, stb. (az ezekből épített struktúrák is) •

Szöveges index elem bármelyik, a dokumentumhalmazban előforduló karakterkombináció (szó) lehet. Információ menedzsment / BME VIK / Dr Magyar G. 298 149 Index és szemantikai tartalom Kifejezhető-e a dokumentumok és a felhasználói igény szemantikája index kifejezések készletével? Válasz: Mindenképp van szemantikai veszteség. Az index kifejezések (szemantikailag) pontatlan terében a felhasználói igény és az egyes dokumentumok megfeleltethetőségi vizsgálata is pontatlan lesz. Információ menedzsment / BME VIK / Dr Magyar G. 299 Mérés: az IR rendszer teljesítménye Szokásos mértékegységek: FEDÉS (recall, felidézés): A releváns dokumentumok mennyi százalékát adta vissza a rendszer? PONTOSSÁG (precision): A rendszer válaszának mennyi százaléka releváns? Információ menedzsment / BME VIK / Dr Magyar G. 300 150 Fedés (recall) A releváns dokumentumok halmaza: A kérdésre az IR rendszer által visszaadott összes dokumentum

halmaza: A halmazban levő releváns dokumentumok halmaza A releváns dokumentumok száma A visszaadott dokumentumok száma A válaszban levő releváns dokumentumok száma Fedés = R A Ra |R| |A| |Ra| Ra R Információ menedzsment / BME VIK / Dr Magyar G. 301 Pontosság (precision) A releváns dokumentumok halmaza: A kérdésre az IR rendszer által visszaadott összes dokumentum halmaza: A halmazban levő releváns dokumentumok halmaza A releváns dokumentumok száma A visszaadott dokumentumok száma A válaszban levő releváns dokumentumok száma Pontosság = Információ menedzsment / BME VIK / Dr Magyar G. R A Ra |R| |A| |Ra| Ra A 302 151 Rangsorolás Rangsorolás (ranking): a relevancia szerinti rendezés. Információ menedzsment / BME VIK / Dr Magyar G. 303 A felhasználói igények különbözőek, pl. a fedés maximalizálása, a pontosság maximalizálása valamilyen kompromisszum a fedés és a pontosság között. Információ menedzsment / BME VIK / Dr

Magyar G. 304 152 IR modellek absztrakciója Információ menedzsment / BME VIK / Dr Magyar G. 305 IR modellek absztrakciója Adott dokumentum információtartalmát (illetve az információtartalmat használó függvényeket - fedés, pontosság, relevancia pontszám) - pontosan értelmezni tudjuk, és információ visszakereső algoritmusokban fel tudjuk használni, szükségünk van egy formális modellre, amelyben az információtartalom, és a függvények leírhatók. Szükségünk van egy absztrakt modellre, a dokumentumok információtartalmának modellezésére. Információ menedzsment / BME VIK / Dr Magyar G. 306 153 IR rendszerek osztályozása ELMÉLETI Felhasználói aktivitás KLASSZIKUS KERESÉS ad hoc szűrés Bool vektor valószinűségi STRUKTURÁLT nem-átfedő listák proximal nodes fuzzy kiterjesztett Bool ALGEBRAI fuzzy kiterjesztett Bool VALÓSZINŰSÉGI BÖNGÉSZÉS BÖNGÉSZŐ egyszintű struktúravezérelt hypertext fuzzy kiterjesztett

Bool Információ menedzsment / BME VIK / Dr Magyar G. 307 Az IR modell, a dokumentum logikai nézete (teljes szövegű, index kifejezés készlet) és a felhasználói feladat (keresés, böngészés) egy visszakereső rendszer ortogonális aspektusai. Tehát: habár egyes modellek alkalmasabbak bizonyos feladatokhoz, de általában többféle feladatra használhatók. Információ menedzsment / BME VIK / Dr Magyar G. 308 154 A dokumentumok logikai nézete Felhasználói keresés aktivitás Index kifejezés Teljes szöveg Teljes szöveg + struktúra - klasszikus - elméleti - algebrai - valószinűségi - klasszikus - elméleti - algebrai - valószinűségi - strukturált - egyszintű - egyszintű - hypertext - struktúra vezérelt - hypertext Böngészés Információ menedzsment / BME VIK / Dr Magyar G. 309 A modellek megalapozása Információ menedzsment / BME VIK / Dr Magyar G. 310 155 IR modell: formálisan egy(D,Q,F,R(qi,dj)) négyes, ahol D a

rendszerben levő dokumentumok logikai képének (reprezentációjának) a halmaza, Q a felhasználó információs igényei logikai nézeteinek (reprezentációjának) a halmaza (kérdések), F egy keretrendszer a dokumentum reprezentációk, kérdések és a köztük levő kapcsolat modellezésére, R(qi,dj) rangsoroló függvény, amely minden qi∈Q kérdés és dj∈D dokumentumpárhoz egy valós számértéket rendel. Információ menedzsment / BME VIK / Dr Magyar G. 311 A rangsoroló függvény egy adott qi kérdést tekintve egy rendezést határoz meg a rendszerben tárolt dokumentumok között. A keretrendszer definiálja a dokumentumok és a kérdések absztrakt reprezentációján elvégezhető műveleteket - így egy adatmodellt kapunk. Információ menedzsment / BME VIK / Dr Magyar G. 312 156 A klasszikus IR modellek feltételezik, hogy a dokumentumok (és információtartalmuk) leírhatók (jellemző) kulcsszavak halmazával. E kulcsszavakat index

kifejezéseknek (index terms) hívjuk. Az index termek tipikusan főnevek, mert a főnevek által hordozott szemantikát könnyebb azonosítani. Információ menedzsment / BME VIK / Dr Magyar G. 313 Adott dokumentumot leíró index termek közül nem mindegyik egyformán fontos az információtartalom leírásához. Fontosabb lehet pl. amelyik csak az adott dokumentumban fordul elő, és sehol máshol; más kifejezés kevésbé fontos, pl. mert sok más dokumentumban is előfordul, és így az adott kifejezés alapján a dokumentumot nem lehet megkülönböztetni a többitől. Információ menedzsment / BME VIK / Dr Magyar G. 314 157 Ezért az egyes index termeket fontosságuk szerint súlyozzuk, és a dokumentumokat az egyes index termek súlyából alkotott vektorral reprezentáljuk. Információ menedzsment / BME VIK / Dr Magyar G. 315 Legyen t a rendszerben szereplő összes index term száma, ki egy index term, K={k1, . , ki } az összes index term halmaza. Minden dj

dokumentumban egy wi,j>0 súlyt rendelünk az index termhez, amely leírja az adott term fontosságát az adott dokumentumban. (Ha egy adott index term nem szerepel a dokumentumban, akkor wi,j=0.) Minden dj dokumentumhoz hozzárendelünk egy d = ( w , w ,.w , ) index term vektort. j 1, j 2, j t, j Legyen továbbá gi olyan függvény, amely bármely t dimenziós vektor esetén visszaadja a ki termhez rendelt súlyértéket. g i ⎛⎜ d ⎞⎟ = w i, j ⎝ j⎠ Információ menedzsment / BME VIK / Dr Magyar G. 316 158 Boolean modell A dokumentum = szavak halmaza A lekérdezés: bool algebrai kifejezés Az eredmény kiértékelése: halmazműveletek segítségével Nincs rendezés Információ menedzsment / BME VIK / Dr Magyar G. 317 Boolean modell Egy boolean-modell-beli kérdés az egyes index term változók különböző logikai operátorokkal való összekapcsolásából adódik (pl. q=ka∧(kb∨¬kc)), ahol az egyes változók értéke „1” (igaz) ha az adott

term megtalálható egy adott dokumentumban, és „0” (hamis), ha nem. A kérdésre adott válasz mindazon dokumentumokat tartalmazza, amelyekre az adott Boolean logikai formula a term változók fenti értelmezése esetén igaz. Információ menedzsment / BME VIK / Dr Magyar G. 318 159 Egy dokumentum és egy kérdés Boolean modell szerinti hasonlóságának definíciója: A Boolean modellben az összes súly bináris. wij∈{0,1} A q kérdés egy bool algebrai kifejezés, melynek diszjunktív normálformájú reprezentációja: qDNF Legyen qcc a qDNF bármely konjunktív komponense. dj dokumentum q kérdéssel való hasonlósága: r r r r r ⎧⎪1 ha ∃qcc | (qcc ∈ qDNF ) ∧ (∀ ki , gi (d j ) = gi (qcc )) sim(d j , q) = ⎨ ⎪⎩0 egyébként Ha sim(dj,q)=1, akkor a Boolean modell szerint a dokumentum releváns a kérdés szempontjából, egyébként nem. Információ menedzsment / BME VIK / Dr Magyar G. 319 A Boolean modell értékelése • Előny: –

logikailag tiszta, egyszerű (a felhasználó könnyen megértheti, miért pont az adott válaszhalmazt kapta egy adott kérdésre), • Hátrány: – a tipikus felhasználónak nehézséget okoz kérdését Boolean formulában megfogalmazni. – nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris) – nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni Információ menedzsment / BME VIK / Dr Magyar G. 320 160 A továbblépés: részleges illeszkedést mérő modell szükséges. Alapja: nem-bináris súlyok használata, s ezekkel a hasonlóság fokának megállapítása. A (csökkenő) hasonlóság szerint rangsorolt dokumentumok képezte válasz pontosabb (=jobban illeszkedik a felhasználói információs igényhez), mint a Boolean modell válasza. Információ menedzsment / BME VIK / Dr Magyar G. 321 vektor modell Egy dokumentum és egy lekérdezés hasonlóságát a hozzájuk rendelt

vektorok hasonlóságával mérjük. Információ menedzsment / BME VIK / Dr Magyar G. 322 161 vektor modell A (ki,dj) index kifejezés – dokumentum párok wi.j súlyai valós pozitív számok (nem bináris). d = ( w , w ,.w , ) A dj-t j 1, j 2, j t, j reprezentálja. A kérdés index kifejezései is súlyozottak. Legyen wiq a (ki,q) index kifejezés-kérdés párhoz rendelt súly (wiq pozitív valós szám). A q kérdést a q = ( w , w ,.w , ) vektor reprezentálja 1, q 2, q t, q Információ menedzsment / BME VIK / Dr Magyar G. 323 vektor modell E modellben egy dokumentum és egy lekérdezés hasonlóságát a hozzájuk rendelt vektorok által bezárt szög koszinuszával mérjük. r r d •q sim(d j , q) = r j r = dj × q Információ menedzsment / BME VIK / Dr Magyar G. ∑ w ×w ∑ w × ∑ t i =1 i, j i,q t 2 t i =1 i, j i =1 w2i ,q 324 162 vektor modell dj θ q A θ szög koszinusza adja sim (dj,q)-t Információ menedzsment / BME VIK / Dr

Magyar G. 325 vektor modell A fő kérdés az egyes vektorokban használt term súlyok megállapítása. Az egyik szokásos módszer a tf-idf („term frekvencia – inverz dokumentum frekvencia”) Alapja, hogy két dokumentum (két csoport) hasonlósága hatékonyan megállapítható úgy, hogy azokat a termeket emeljük ki a vizsgálat során, amelyek - jól jellemzik az adott dokumentumosztályt (azaz a dokumentum témáját), - az adott dokumentumosztályt, témakört megkülönböztetik más témájú dokumentumoktól. Információ menedzsment / BME VIK / Dr Magyar G. 326 163 vektor modell Hogyan mérjük ezt? Egy term mennyire jellemzi jól az adott dokumentumot? Normalizált term frekvencia: egy term milyen relatív gyakorisággal fordul elő az adott dokumentumban. Jelölje egy term abszolút előfordulásainak számát az adott dokumentumban freqi,j, a normalizált term frekvenciát fi,j, és freqi , j fi , j = Információ menedzsment / BME VIK / Dr Magyar G. max

l freql , j 327 vektor modell Egy term mennyire képes egy adott dokumentumot megkülönböztetni egy másik dokumentumtól? Inverz dokumentum frekvencia: annak az inverze, hogy milyen gyakran szerepel egy term a rendszer dokumentumai közt. Jelölje N a rendszerben levő dokumentumok számát, ni azoknak a dokumentumoknak a számát, amelyekben a ki term előfordul. A ki term inverz dokumentum frekvenciája idfi és N idf i = log ni Információ menedzsment / BME VIK / Dr Magyar G. 328 164 vektor modell Ezek alapján egy adott (ki,dj) párhoz tartozó wi.j súly: wi.j= fi,j* idfi. Ennek különböző variációi előfordulnak. Pl Salton&Buckley jól ismert formulája: ⎛ 0.5 freqi , q ⎞ ⎟ × idf i wi , q = ⎜ 0.5 + ⎜ max l freql , q ⎟⎠ ⎝ Ahol freqi,q a ki term abszolút előfordulási gyakoriságát jelenti a q kérdés szövegében. Információ menedzsment / BME VIK / Dr Magyar G. 329 A vektor modell értékelése • Előny: – A termek súlyozása jó

IR minőséget eredményez. – Nem követeli meg a pontos illeszkedést, ez lehetővé teszi nem tökéletesen megfogalmazott kérdésekre is a válaszadást. Tipikusan a válasz egy bizonyos küszöbérték (threshold) feletti hasonlósággal rendelkező dokumentumokat tartalmazza. – A rangsoroló függvénye a dokumentumokat a kérdéshez való hasonlóság szerint rendezi (a leginkább releváns dokumentumok a válasz elején fognak szerepelni). Információ menedzsment / BME VIK / Dr Magyar G. 330 165 A vektor modell értékelése • Hátrány: – Feltételezi, hogy a dokumentumok index termjei egymástól kölcsönösen függetlenek. („számítógép hálózat”: ellenpélda, de lehet más értelme is: az összefüggés esetleges) – Nem lehet explicit módon megadni, hogy egy adott kifejezésnek szerepelnie kell a dokumentumban, vagy fordítva, hogy egy adott kifejezésre nincs szükség. Ezt a hiányosságot a Boolean modellel való kombinációval ellensúlyozni

lehet. – Nem mindig érthető a felhasználók számára, hogy egy adott dokumentum miért válasz a kérdésükre, a viszonylag bonyolult rangsorolási függvény miatt. Információ menedzsment / BME VIK / Dr Magyar G. 331 Kiterjesztett Boolean Szemléltető példa: legyen q=kx∧ky Két index kifejezés esetében még könnyű ábrázolni az index teret: Információ menedzsment / BME VIK / Dr Magyar G. 332 166 Kiterjesztett Boolean (0,1) (1,1) ky (0,1) ky (1,1) kx or ky dj+1 dj+1 ` dj dj (0,0) kx and ky (1,0) (0,0) kx (1,0) kx Információ menedzsment / BME VIK / Dr Magyar G. 333 A dj dokumentum pozícióját a térben a [kx,dj], [ky,dj] párokhoz tartozó wx,j, wy,j megválasztásával befolyásoljuk. A súlyokat például számolhatjuk a a tf-idf módon: wx , j = f x , j × idf x max i idf i ahol fx,j a kx normalizált term frekvenciája dj dokumentumban, idfi a ki inverz dokumentum frekvenciája. Jelölje a továbbiakban wx,j-t x, wy,j-t y; és d = (w

, w ) j x, j y , j vektornak itt a dj=(x,y) pont felel meg. Információ menedzsment / BME VIK / Dr Magyar G. 334 167 Kiterjesztett Boolean (0,1) (1,1) ky (0,1) ky (1,1) kx or ky dj+1 dj+1 ` dj dj kx and ky (0,0) qand = k x ∧ k y (1,0) (0,0) (1,0) kx kx qor = k x ∨ k y Az (1,1) pont a „legkívánatosabb” a (0,0) pont elkerülendő. Információ menedzsment / BME VIK / Dr Magyar G. 335 Kiterjesztett Boolean (0,1) (1,1) ky (0,1) ky (1,1) kx or ky dj+1 dj+1 ` dj dj (0,0) kx and ky qand = k x ∧ k y (1,0) (0,0) kx (1 − x) 2 + (1 − y ) 2 sim(qand , d ) = 1 − 2 Információ menedzsment / BME VIK / Dr Magyar G. (1,0) qor = k x ∨ k y sim(qor , d ) = kx x2 + y2 2 336 168 Kiterjesztett Boolean Ha wij∈{0,1} , akkor a dokumentum a négy sarok valamelyikébe esik és sim(qor,d) értéke 0, 1/ 2 , 1 sim(qand,d) értéke 0, 1-1/ 2 , 1 lehet. Ha az index kifejezések száma t, akkor a kiterjesztés egy t-dimenziós térben számolt

euklédeszi távolságokhoz vezet. Információ menedzsment / BME VIK / Dr Magyar G. 337 A keresés eredményessége collection Releváns dokumentumok a válasz halmazban |Ra| Fedés = | Ra | |R| Pontosság = | Ra | | A| Visszaadott halmaz Releváns |A| dokumentumok |R| Hatékonyság = 1 - 1 1 ⎛1⎞ α ⎜ ⎟ + (1 − α ) R ⎝P⎠ Információ menedzsment / BME VIK / Dr Magyar G. 338 169 TREC (értékelés a gyakorlatban) • Workshop – támogatni a state-of-the-art IR-t: infrastuktúra az értékeléshez • Szponzor: National Institute of Standards and Technology (NIST) and the Information Technology Office of (DARPA) • Különböző task-ok: adhoc, routing, question answering, web entry page • http://trec.nistgov Információ menedzsment / BME VIK / Dr Magyar G. 339 TREC • Gyűjtemények és kiértékelő szoftverek tsztelése • Nagyléptékű nem-angol (spanyol és kínai) tesztek • Tartalom-szerinti visszakeresés (CBR: Content Based Retrieval)

– IR beszédanyagokban – IR videóanyagokban • IR többnyelvű környezetben Információ menedzsment / BME VIK / Dr Magyar G. 340 170 Információ menedzsment / BME VIK / Dr Magyar G. 341 Információ visszakereső rendszerek Információ menedzsment / BME VIK / Dr Magyar G. 342 171 Információ visszakereső rendszerek Különböztessük meg az • ad-hoc visszekeresést • a szűrést • és a böngészést. Információ menedzsment / BME VIK / Dr Magyar G. 343 Információ visszakereső rendszerek Ad-hoc visszakeresés: a felhasználó egy adott kérdésre vár választ a rendszertől. (Ilyen felhasználáskor a rendszer által tartalmazott dokumentumok halmaza közel állandó, míg a felhasználói kérdések folyamatosan változnak.) Szűrés (filtering): a felhasználói információ igény, a kérdés állandó, és az újonnan a rendszerbe kerülő dokumentumok közül szeretnénk azokat kiválasztani, amelyek relevánsak az adott kérdés

szempontjából. Információ menedzsment / BME VIK / Dr Magyar G. 344 172 A probléma a felhasználói kérdés pontos meghatározása. A laikus felhasználók miatt törekednek automatikusan felvett felhasználói profilokkal segíteni az igény megfogalmazását. Információ menedzsment / BME VIK / Dr Magyar G. 345 Információ visszakereső rendszerek Ad-hoc lekédezés, böngészés: pull típusú (a felhasználó aktívan kéri az információt a rendszertől) Szűrés: push típusú (a rendszer automatikusan futtat lekérdezést, az eredményt automatikusan eljuttatja a felhasználónak) Információ menedzsment / BME VIK / Dr Magyar G. 346 173 A lekérdezés módja • Kulcsszavas – – – – Egyszavas Kontextus kérdés logikai kifejezés kulcsszavakból Természetes nyelvű • Mintailleszkedés (Pattern Matching) • Struturált kérdések – Állandó strktúra – Hypertext – Hierarchikus struktúra • Lekérdezési protokollok Információ

menedzsment / BME VIK / Dr Magyar G. 347 Az IR rendszer lelke az invertált állomány (inverted file) vagy invertált lista (inverted list), ez az adatszerkezet minden index termhez tárolja, hogy mely dokumentumokban, melyik pozícióban fordul elő. (Eltérő pontossággal: a dokumentumtól karakterpozícióig.) Gyorsítás: index, hash-tábla, stb. Információ menedzsment / BME VIK / Dr Magyar G. 348 174 Példa: 1 4 8 13 19 doc1 dokumentum Ez egy igen rövid szöveg. Szótár Előfordulások igen rövid szöveg doc1:8,. doc1:13,. doc1:19,. invertált állomány Információ menedzsment / BME VIK / Dr Magyar G. 349 Az eredményesség javítása • Felhasználói relevancia visszacsatolás • Automatikus logikai elemzés • Globális elemzés • Kontrollált szótár (tezaurusz) Információ menedzsment / BME VIK / Dr Magyar G. 350 175 A visszakeresés problémái • Elosztott és időszakos adatok: Előre nem ismert topológia, a csomópontok

között nincs garantált sávszélesség, a weboldalak jelentős része csak időszakosan létezik, és tartalma, URL-je változik. • Nagy adatmennyiség • Strukturálatlan és redundáns adatok. A (formai és szemantikai) redundancia önmagában is rontja a keresések minőségét. • Adatminőség: megbízhatatlan. • Heterogén adatok: adatformátum, többnyelvűség, stb. Információ menedzsment / BME VIK / Dr Magyar G. 351 A fenti problémák miatt Ma a valós idejű keresés nem reális. A keresők ezért a dokumentumok absztrakt reprezentációi alapján dolgoznak. Az internet keresők algoritmusa általában nem publikus. Jellemzően a vektor és a Boolean modell valamilyen kombinációját használják. Információ menedzsment / BME VIK / Dr Magyar G. 352 176 A hiperlink struktúra figyelembe vétele Ha egy dokumentumra sok link mutat: az oldal népszerű (jó minőségű információt tartalmaz ?). Ha két oldal közt sok a hivatkozás: a két oldal témája

hasonló lehet. Ha több oldalra ugyanarról az oldalról történik hivatkozás, az ugyanezt jelentheti. -> Google Page Rank ötlet Információ menedzsment / BME VIK / Dr Magyar G. 353 Keresőmotorok • Portálok: nem csak IR, hanem – – – – – – Szolgáltatás linkek (pl. könyvek az Amazoncom-tól) képeslapküldés Beépített fordítóprogram különböző médiák keresése (metaadat) Nyelvfüggő keresés Időjárás, részvényárfolyam, közlekedés, stb. • Üzleti modell – Célzott hirdetés (látogatottság-modell) – Gyors átfutás, folyamatosság (24 / 7) Információ menedzsment / BME VIK / Dr Magyar G. 354 177 Keresőmotorok • Specifikus – Népszerűség szerinti rangsorolás (pl. DirectHit) – Téma-orientált (topic oriented, pl. SearchBroker) – Személyes vagy intézményi Információ menedzsment / BME VIK / Dr Magyar G. 355 Egy webkereső feladatai • Dokumentumgyűjtés – Indexelésre való kiválasztás •

Dokumentumok indexelése – ami a kiválasztott dokumentumok tartalmát reprezentálja – gyakran kétféle: teljes és szűkített (gyakori kereséshez) • Keresés – a felhasználó információs igényének megfelelő reprezentálása – Keresési eljárás (retrieval process - search algorithms, ranking of web pages) • Dokumentum és keresési feltétel (query) kezelés – Az eredmény megjelenítése – virtuális gyűjtemény (indexeléskor kizárt dokumentumok) vs. fizikai gyűjtemény (indexelés után kezelt dokumentumok) Információ menedzsment / BME VIK / Dr Magyar G. 356 178 Egy webkereső feladatai • Dokumentumgyűjtés • Dokumentumok indexelése • Keresés • Dokumentum és keresési feltétel (query) kezelés Információ menedzsment / BME VIK / Dr Magyar G. 357 Dokumentumgyűjtés • Dokumentumgyűjtés = crawling the web • Crawler (webvadász) – Robot, spider, wanderer, walker, knowbot, web search agent – Program ami felméri, hogy

új vagy módosított (updated) lapok, amiket indexelni kell, feltűntek-e a weben? – A helyi szerveren fut, kéréseket küld a távoli szervereknek Információ menedzsment / BME VIK / Dr Magyar G. 358 179 Webvadászat (1) • Crawling process – Adott URL készlettel kezd • amit felhasználók vagy cégektől kapott • népszerű URL-ek – Szélességben vagy mélységben (Breath-first or depth-first) – További URL-eket szed fel • n*tízmillió lap naponta • több crawler – Redundancia – Web particionálás ⇒ robot per partíció Információ menedzsment / BME VIK / Dr Magyar G. 359 Webvadászat (2) • Naprakész? (Up-to-date?) – – – – A passzív (non-submitted) lapokat <2 havonta indexelik A keresőmotorok tanulják a lapváltási gyakoriságot A népszerű lapokat (sok link vezet oda) gyakrabban Indexelt lapok • 1 nap - 2 hónap régi • érvénytelen linkek: 2-9% • Robotszokások – A web szerver gyökerébe igyekszik tenni a

fájlt – Jelöli a weblapokat, amiket nem kell indexelni – Kerüli a szervers/hely túlterhelést Információ menedzsment / BME VIK / Dr Magyar G. 360 180 Egy webkereső feladatai • Dokumentumgyűjtés • Dokumentumok indexelése • Keresés • Dokumentum és keresési feltétel (query) kezelés Információ menedzsment / BME VIK / Dr Magyar G. 361 Dokumentumok indexelése • Dokumentum indexelés = mutatóállomány építés • Mutatóállományok: változatok lehetségesek – – – – metaadat elemzés Kihagyások (névelők, elöljárók, számok, stb.) + toldalékok Pozíció adat (kifejezés-kereséshez) súlyok • tf x idf; • hosszú URL-ek leértékelése (nem fontosak) – elárasztásvédelem • hyperlink információ • Számolja a link népszerűségét • A szöveghorgonyt a forrás linkből veszi • Egy lap szerzői (authority) és központi (hub) értéke Információ menedzsment / BME VIK / Dr Magyar G. 362 181 Egy webkereső

feladatai • Dokumentumgyűjtés • Dokumentumok indexelése • Keresés • Dokumentum és keresési feltétel (query) kezelés Információ menedzsment / BME VIK / Dr Magyar G. 363 Keresés • Querying – – – – – 1 szó vagy minden szó legyen a visszakeresett oldalakon normalizálás (stop words removal, stemming, stb.) összetett query-k (dátum, struktúra, régió, stb.) Boolean kifejezések (advanced search) metaadat • Rangsoroló (ranking) algoritmusok – Hasonlóságmérték alapján – webhely tekintély-elemzés • HITS (Hyperlink Induced Topic Search) • PageRank (Google) Információ menedzsment / BME VIK / Dr Magyar G. 364 182 A web-linkek fontossága • Web link: viszony az összekapcsolt lapok között • A standard IR algoritmusok és a web IR között a fő különbség a web-linkek kihasználása • web linkek: bizonyosság és zaj forrásai – A régi IR hivatkozás-alapú volt – Web-követés a TREC-ben (2000) TREC-9: Small Web

task (2GB web adat); Large Web task (100GB web adat, 18.5 millió dokumentum) Információ menedzsment / BME VIK / Dr Magyar G. 365 Szöveghorgony használata • Hivatkozott dokumentumot reprezentál – Miért alkalmazzák? • Pontosabb és rövidebb leírás, mint az oldal maga • (talán) szignifikánsabb termeket tartalmaz , mint az oldal maga – Képek, programok reprezentálása • Horgonyzott szövegből állít elő leírást Információ menedzsment / BME VIK / Dr Magyar G. 366 183 Algoritmusok • Query független oldalminőség – globális elemzés • PageRank (Google): a web véletlenszerű bejárását szimulálja és kiszámolja a lap pontszámát (“score”) – mint a lap elérésének valószínűségét • Query függő oldalminőség – Helyi elemzés • HITS (Hyperlink Induced Topic Search): olyan témakérdésekre fókuszál, amire túl sok oldal a válasz – Minél több oldal jelöl egy oldalt, annál népszerűbb – A népszerűbb

oldalak nagyobb valószínűséggel tartalmaznak releváns információt Információ menedzsment / BME VIK / Dr Magyar G. 367 PageRank (1) • Brin és Page (Stanford University). A Google-ban implementálták • Az algoritmus szigorúan őrzött titok. • Alapötlet: – Előre rangsorolunk egy lapot, ha befelé mutató linkjeinek rangsorértéke nagy • p lap befelé mutató linkje: egy másik lapról p-re mutató link • p kimutató linkje: p lapról egy másik lapra – a high PageRank page has many in-links or few highly ranked inlinks • Visszakeresés (retrieval): PageRank értékkel kombinált cosinus szorzat (term súlytényező, tartalom) Információ menedzsment / BME VIK / Dr Magyar G. 368 184 PageRank (2) Alapfeltételezés: a felhasználó q valószínűséggel választ egy véletlen lapot, és (1-q) valószínűséggel követ egy, a lapon található linket. A modell feltételezi: a felhasználó sosem megy vissza egy már megtekintett lapra. E

feltételezésekkel a felhasználó tevékenységét sztochasztikus Markov folyamatként modellezi (amelynek stacionárius eloszlása számolható). A stacionárius eloszlás megadja, hogy mekkora a valószínűsége, hogy a felhasználó egy adott oldalon tartózkodik. A rendszer ezt a valószínűséget a lap rangsoraként (PageRank) értelmezi, és a keresés eredményének rendezésekor figyelembe veszi. Információ menedzsment / BME VIK / Dr Magyar G. 369 A Google eredményességének okai • A hagyományos IR technikák és a PageRank ötvözete • A PageRank nem egyszerűen hivatkozási index • A PageRank-et kiszámoló algoritmus a web link struktúrájától függ, nem az oldal tartalmától! • A link információ azután határozható meg, miután a web-crawlers bejárt minden linket valamennyi oldalon. Információ menedzsment / BME VIK / Dr Magyar G. 370 185 PageRank ≈ népszerűség • A web egy gráf: minden lap egy csomópont, a hyperlinkek élek • A

lap népszerű, ha (akár) kevés népszerű lap mutat rá • A lap népszerű, ha sok (nem feltétlenül népszerű) lap mutat rá A oldal B oldal NA =2 NB = 1 C oldal NC = 1 Információ menedzsment / BME VIK / Dr Magyar G. 371 A PageRank matematikai definíciója a lapom PageRank-je egyenlő az összes rámmutató lap rangsor (rank) értékével Rank ( u ) = Rank ( v ) ∑ N v∈ B u v Bu = lapkészlet , linkkel u − ra N v = linkszám v − böl Információ menedzsment / BME VIK / Dr Magyar G. 372 186 A példára felírva az egyenletet: Rank ( A) = 0 + 0 + Rank (C ) 1 Rank ( B) = + 0 + 0 Rank (C ) = Rank ( A) 2 Rank ( A) 2 + Rank ( B ) 1 + 0 A oldal B oldal NA =2 NB = 1 C oldal NC = 1 Információ menedzsment / BME VIK / Dr Magyar G. 373 Habár körkörös, számíthatók a rank értékek. Az egyenletet mátrix-vektor szorzatként felírva: ⎛0 ⎛ Rank ( A) ⎞ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜1 ⎜ Rank ( B ) ⎟ ⎟ = ⎜ ⎜ ⎜2 ⎟

⎜ ⎜1 ⎜ Rank (C ) ⎟ ⎜2 ⎟ ⎜ ⎝ ⎠ ⎝ 0 0 1 1 ⎞⎛ Rank ( A) ⎞ ⎟ ⎟⎜ ⎟ ⎟⎜ ⎟⎜ Rank ( B ) ⎟ 0 ⎟⎜ ⎟ ⎟ ⎟⎜ Rank C ( ) ⎟ ⎟⎜ 0 ⎟⎜ ⎟ ⎠ ⎠⎝ A PageRank vektor egyszerűen az együttható mátrix (skalár*vektor = mátrix*vektor) sajátvektora ! (Megj.: a vektort ║R ║1 =1 -el választottuk) Információ menedzsment / BME VIK / Dr Magyar G. 374 187 PageRank = 0.4 PageRank = 0.2 A oldal B oldal NA =2 NB = 1 C oldal NC = 1 PageRank = 0.4 Információ menedzsment / BME VIK / Dr Magyar G. 375 Megjegyzendő, hogy az együttható mátrix sztochasztikus. ⎛ a11 ⎜ ⎜ a21 ⎜ M ⎜ ⎜a ⎝ n1 a12 a22 M an 2 a13 a23 M an 3 n ∑a i =1 ij L L L a1n ⎞ ⎟ a2 n ⎟ , 0 ≤ aij ≤ 1 M ⎟ ⎟ ann ⎟⎠ = a1 j + a2 j + L anj = 1 Információ menedzsment / BME VIK / Dr Magyar G. 376 188 A szörfölőkre is gondoltak Egy véletlen-böngésző term-et adtak a PageRank formulába: Rank (u ) = Rank (v )

+ E (u ) ∑ Nv v∈Bu Ez egy szörfölő viselkedését modellezi, aki egy másik lapra annak URL-jét közvetlenül beírva (vagy könyvjelzőt használva) ugrik, s nem hyperlink-re kattintva. Információ menedzsment / BME VIK / Dr Magyar G. 377 HITS: Hypertext Induced Topic Search • Kleinberg, 1997 • “The Connectivity Analysis Approach” • Általános témájú keresések (broad topic queries) nagy találati listát adnak – bőségprobléma ⇒ túl sok releváns dokumentum – újfajta minőségmérés ⇒ megkülönbözteti a „leghitelesebb” (authoritative) oldalakat ⇒ minőségi válasz általános kérdésre • HITS: adott témára megadja – a jó forrást • oldalakat, amik releváns információt tartalmaznak (jó tartalomforrások) – a jó csomópontokat (hub-ok) • lapokat, amelyek jó forrásokra mutatnak (jó linkforrások) Információ menedzsment / BME VIK / Dr Magyar G. 378 189 HITS (2) • Intuíció – A hitelesség forrásai a

bemutató linkek – egy hub a kimutató linkjeitől jó – jó hub-ból származó be-link javítja a hitelességet – egy hub jobb lesz hiteles oldalra mutató ki-linkjeitől • Kölcsönös megerősítés – a jó „hiteles” lapra sok jó hub mutat – a jó hub sok hiteles lapra mutat Információ menedzsment / BME VIK / Dr Magyar G. 379 HITS algoritmusok (általános elv) • Lap hitelesség-értékének számítása: “hitelességi súly” és “hub súly” iteratív terjedésén • Kezdőérték = 1 • Lap hitelességi súlya --- x(p) – ha p sok olyan lapra mutat, aminek nagy y értéke van, akkor nagy x értéket adunk x(p) = Σqip y(qi) • Lap hub súlya --- y(p) – ha p sok nagy x-értékű lapra mutat, nagy y értéket kap y(p) = Σpqi x(qi) • A súlyokat minden iteráció után normalizálják Információ menedzsment / BME VIK / Dr Magyar G. 380 190 HITS: Témaszármaztatás • A ‘jó’ hiteles lap/hub meghatározása szubjektív, a

kezdetben megadott felhasználói igénytől függ • HITS kiterjesztések – ARC (Automatic Resource Compilation) • Horgonyzott (& körülvevő) szöveget használ az értékszámításhoz – SALSA • Problémák a HITS-el – – – – Host-ok kölcsönös megerősítő viszonya automatikusan generált linkek Nem-releváns nagy-értékű lap-kapcsolatok topic drift: query téma általánosodása Információ menedzsment / BME VIK / Dr Magyar G. 381 Különbségek: PageRank és HITS • PageRank: a bejárható össze web lapból számítják (kérdezés előtt); HITS: egy lekérdezett weblap készleten számítják, minden kérdésre. • HITS: hitelességet és hub értéket számít; PageRank: csak hitelességet • PageRank: nem-triviális kiszámolni, HITS: könnyű számolni, de valós idejű elvégzése drága Információ menedzsment / BME VIK / Dr Magyar G. 382 191 Egy webkereső feladatai • Dokumentumgyűjtés • Dokumentumok indexelése •

Keresés • Dokumentum és keresési feltétel (query) kezelés Információ menedzsment / BME VIK / Dr Magyar G. 383 Dokumentum és keresési feltétel kezelés • Eredmények – – – – – – Eredménylista általában 10-20 lapról klaszterezés URL, méret, dátum, kivonat, stb. Többféle válogatási lehetőség Opció: a leghasonlóbb dokumentumok Lekérdezés finomítása (Query refinement) • Virtuális gyűjtemény vs. fizikai gyűjtemény – a dokumentum változhat az időben – más lehet, mint amit a motor indexelt – eltűnt linkek Információ menedzsment / BME VIK / Dr Magyar G. 384 192 Metakeresés (1) • A Webkeresők problémái: – A nyilvánosan elérhető Web korlátozott lefedése – a Web átfedő részeinek indexelése – különböző IR modellek --- ugyanarra a keresésre eltérő eredményeket adnak ⇒ A felhasználónak sem ideje, sem tudása nincs az információs igénye szerint megfelelő kereső kiválasztásához • Egy

megoldás: metakereső – Web szerver, ami lekérdezéseket küld különböző keresőkhöz, Web katalógusokhoz, adatbázisokhoz – Gyűjti a válaszokat – és egyesíti (Data fusion) • Cél: jobb fedés, jobb hatékonyság Információ menedzsment / BME VIK / Dr Magyar G. 385 Metasearch (2) • Működési fázisok – Keresőmotor választás • témafüggő, a múlt lekérdezései, hálózati forgalom, – Dokumentum-választás • Mennyiségi szempontok – Összeillesztő (merging) algoritmus • rank pozíció, dokumentum visszakeresési pontérték, alapján Metakereső MetaCrawler Dogpile SavvySearch URL www.metacrawlercom www.dogpilecom www.searchcom Információ menedzsment / BME VIK / Dr Magyar G. források száma 13 25 > 1000 386 193 Információ menedzsment / BME VIK / Dr Magyar G. 387 Információ menedzsment infrastruktúrák • Adattárházak • Adatbázis föderációk • I3 referencia architektúra • P2P hálózatok •

Intelligens ügynökök • Mobil ügynökök Információ menedzsment / BME VIK / Dr Magyar G. 388 194 Információmenedzsment architektúrák A helyzet • Inkompatibilis információs szigetek – Eltérő informatikai és kommunikációs megoldások – Sokféle modellezés (a valóság sokszínű leképzése: még ha egyféle reprezentáció, szabványos technikai megoldások lennének is: a szemantikai sokféleség megmarad) • Hogy a felhasználó egyetlen „ablakon” át sok információforráshozhoz juthasson: Integrációra van szükség Információ menedzsment / BME VIK / Dr Magyar G. 389 Adattárház Információ menedzsment / BME VIK / Dr Magyar G. 390 195 Borítékoló-közvetítő architektúra Borítékoló-közvetítő architektúra (BKA) Angolul: wrapper-mediator architecture, más néven: I3, Intelligent Integration of Information („információk intelligens egyesítése”) architektúra Az adatok központi adatbázisba szervezése helyett az

adatokra vonatkozó lekérdezések továbbítása az információforráshoz, s a válasz visszaadása a felhasználónak. Információ menedzsment / BME VIK / Dr Magyar G. 391 Információ menedzsment / BME VIK / Dr Magyar G. 392 196 Az információforrások heterogenitása itt is probléma. Egy BKA-n belül közös adatmodellt és lekérdező nyelvet kell használni. Egy BKA több közvetítőt, több közvetítő szintet is tartalmazhat. Információ menedzsment / BME VIK / Dr Magyar G. 393 borítékoló (wrapper) Feladata: a szintaktikai probléma kezelése. A borítékoló fogad egy, a BKA közös lekérdező nyelvén megfogalmazott lekérdezést, átfordítja azt az általa kezelt forrás lekérdező nyelvére, feldolgozza a választ, és továbbítja azt immár a BKA közös adatmodelljét használva. Olyan források esetén, amelyek nem rendelkeznek saját lekérdező nyelvvel (pl. egy weboldal) a borítékoló előre kinyeri a forrás értékes információit, és

ezek után képes lekérdezésekre válaszolni. Információ menedzsment / BME VIK / Dr Magyar G. 394 197 közvetítő (mediator) Feladata: a szemantikai problémák kezelése. azaz egyes borítékolók által eredményül adott, esetlegesen eltérő sémát alkalmazó adatok integrálása. Információ menedzsment / BME VIK / Dr Magyar G. 395 Borítékoló-közvetítő architektúra Előny: – viszonylag egyszerűen bővíthető (új borítékoló és közvetítő hozzáadásával, s a többi komponens esetleges minimális korrekciójával). – a felhasználó mindig az aktuális adatokkal dolgozik. Hátrány: – kevésbé hatékony, mint egy centralizált architektúra. Információ menedzsment / BME VIK / Dr Magyar G. 396 198 Információ-teremtés Információ menedzsment / BME VIK / Dr Magyar G. 397 Információ-teremtés • Kézi annotáció • Data mining • Text mining • Text clustering Információ menedzsment / BME VIK / Dr Magyar G. 398 199

200