Benediktsson-Balogh - Szövegfeldolgozás

A doksi online olvasásához kérlek jelentkezz be!

2009 · 48 oldal (509 KB)

magyar

2013. január 12.

Értékelések

Nincs még értékelés. Legyél Te az első!

Legnépszerűbb doksik ebben a kategóriában

Egyetemi záróvizsga tételsor, 1. rész

Kovács Gábor - Informatikai ismeretek, kézirat

Egyetemi záróvizsga tételsor, 2. rész

GDF Kidolgozott Államvizsga tételek, 2007

Tartalmi kivonat

Szövegfeldolgozás Készítette: Benediktsson Dániel és Balogh Erika Debrecen, 2009. A rögzített ismerethez vagy tudáshoz való hozzáférés (jelenjen meg az könyv vagy akár elektronikus dokumentum formájában) három szinten valósulhat meg: 1. Fizikai hozzáférési szint, ami azt jelenti, hogy osztályozás során egy dokumentumról eldöntjük, hogy milyen témakörhöz tartozik, amely egyben meghatározza azt is, hogy a könyvtárban melyik polcról kell majd leemelnem; 2. Bibliográfiai hozzáférési szint, ami azt jelenti, hogy másodlagos reprezentáció, azaz az adott dokumentumról készült leírás által jutok el a szükséges információhoz; 3. Intellektuális hozzáférési szint, ami nem más, mint az indexelés, mely által egy adott dokumentum tartalmát részletesen vissza tudjuk keresni; Mivel egy információ keresésekor általában nem elégszünk meg a dokumentum megtalálásával, hanem az adott dokumentumban keresni is szeretnénk, nem

állhatunk meg a fizikai hozzáférés szintjén. Az információ keresés szempontjából a dokumentum egyes részeinek a megragadása a lényeges. Más szóval, mivel a dokumentum nemcsak egy fizikai entitás, hanem egy több dimenziós intellektuális produktum, mely nehezen illeszthető be egy monodimenzionális térbe, szükség van egy multidimenzionális rendszerre (indexelés), mely pontosan ehhez a belső tartalomhoz biztosít hozzáférést. Így válik az egész dokumentumhoz való hozzáférés kisebb értékűvé, mint az adott tárgykör egy specifikus témájához való hozzáférés. Indexelés során a természetes nyelv alapegységein, vagyis fogalmakon keresztül illetve az azokkal végzett műveletek által írjuk le az adott dokumentumot. Ahhoz azonban, hogy mindezt megtehessük, vessünk egy pillantást az Ogden - Richards féle szemantikai háromszögre. Ogden - Richards- féle szemantikai háromszög: Objektum Fogalom Kifejezés Objektum: bármi, amiről

jelentéssel bíró kijelentést lehet tenni. Két csoportját különböztetjük meg: • konkrét, pl.: tábla, papír, toll • absztrakt, pl.: szabadság, szerelem, igazság Fogalom: azon lényeges állítások vagy tulajdonságok összessége, amit egy objektummal kapcsolatban tehetünk. Három csoportja a következő: 1 • általános: legalább 1 fogalmi jegy kapcsolható hozzá; • egyéni vagy egyedi: olyan fogalom, amihez nem adható hozzá további fogalmi jegy, pl.: Budapest, Hollandia; • kategória: olyan általános fogalom, melynek nincs jelentéssel bíró hierarchikusan fentebbálló kapcsolata, vagyis további fogalom nem helyezhető fölé, pl.: élőlény, élet, halál, pesszimizmus, optimizmus; Kifejezés: karakterek lineáris szekvenciája, melybe a szóköz is beleértendő. Két csoportja van: • lexikai: kifejezések, melyek megegyezésen alapulnak, pl.: asztalkonszenzuson alapuló kifejezés • nem lexika kifejezések: parafrázissal leírt, tehát

több szóból álló, természetes nyelvi kifejezés, melynek több formája lehetséges, tehát többértelműséget, sokrétűséget kell, hogy mutasson, pl.: evés olyan tevékenység A fogalomalkotás lexikai lehetőségei: Kifejezések Fogalmak Egyéni Lexikai Albert Einstein DE ezüst, réz személyek intézmények anyag tér Hollandia idő 2006.0920 15:03 korrózió Általános folyamat A B C rozsdásodás rovarok: • legyek • levéltetű • moly élő entitások Nem lexikai gyakorlatilag nem létező tartályok károsodása megfelelő katódvédelem hiányában autók gyors szétesése sós tengeri levegő hatására Természetesen a kifejezés módja nem meghatározható és előre nem rekonstruálható a szöveg ismerete nélkül, a keresőnek előre ismernie kell azt a kifejezésmódot, mely szerint a keresett tárgykör a kereső file-ban reprezentálva van. Az ITVR egy olyan információtároló és visszakereső rendszer, melyben csak azok a

dokumentumok lesznek visszakereshetőek, melyek passzolnak a query (kereső kérdés) keresési paramétereivel. Mivel természetes 2 nyelvről van szó, a kifejezések száma végtelen. Ebből pedig az következik, hogy minden query, melyet egy olyan fájl számára hozunk létre, mely nem kontrollált nyelvi kifejezéseket tartalmaz, hiányos lesz és az arra adott válaszok is hiányosak lesznek, ami pedig információveszteséggel jár. Bár a reprezentációs kiszámíthatóság hiányának áthidalására semmilyen technológia nem képes, minden visszakereső nyelvnek törekednie kell az információveszteség kiküszöbölésére. Indexelés során egyfajta nyelvi feldolgozást végzünk, melynek 6 szintjét kell megkülönböztetnünk: 1. fonetikai szint: hangzás (indexelésre, információ visszakeresésre nem használható) 2. morfológiai: szóalkotórészeket tartalmaz (prefixumok, szuffixumok, összetett szavak) Ilyen művelet a csonkolás. 3. lexikai szint: a

lexikográfiával (szótárkészítés) hozható összefüggésbe, ugyanis teljes szavakon végzett műveletet jelent. Ide tartozik a helyesírási hibák kiküszöbölése illetve a rövidítések kezelése; 4. szintaktikai szint: egyes strukturális elemek behasonlítását jelenti A konkrét információkereső nyelvek közül a PRECIS az egyetlen olyan indexelési nyelv, mely szintaktikai módszer is; 5. szemantikai szint: környezeti vagy kontextuális tudás használatát jelenti, p: Tezaurusz-módszer; 6. pragmatikai szint: információ összekapcsolása hivatkozásokkal, klaszterekkel, melyhez dinamikus terminológiai asszociáció szükséges, tehát géppel nem végezhető el; Információ visszakereső folyamat Indexelendő anyag, pl.: dokumentum 1. szelekció ill primer „durva” leíró terminológia alkalmazása tárolási fájl információs igény index terminológia és query terminológia behasonlítása 3.szelekció: queryt kifejező „durva” primer

terminológia alkalmazása kialakul az index terminológia 2.leíró terminológia standardizálása válasz a queryre 3 kialakul egy query terminológia 4. query nyelv standardizálása valamilyen rendszernyelvvé Az információ visszakereső rendszer komponensei, összetevői: Dokumentum populáció Szelekció, beszerzés fogalmi analízis fordítás dokumentum tár index, dokumentum reprezentációk adatbázisa felhasználói populáció leírás és indexelés szótár fordítás igények, kérdések fogalmi analízis Swanson-féle posztulátumok: 1. Az információs igény índetermináns (nem meghatározható), vagyis nem lehet teljes egészében olyan keresési kérdésként kifejezni, mely független lesz a számos kontextuális elágazástól, legyen szó bármilyen témáról. Maga a kontextus leírhatatlan, hiszen olyan információkat is tartalmaz, melyek a kérdező háttértudását képezik. Másrészt nem tudunk egy kérdést addig megfogalmazni, míg

meg nem találtuk rá a választ, tehát minden kérdés csupán hipotézis. 2. Tisztán algoritmikus keresési kérdés vagy kérdésfeltevés nem létezik, a csupán hipotézisekként működő keresési terminológusokra nem tudunk algoritmikus szabályokat húzni. 3. A relevanciadöntések, vagyis annak eldöntése, hogy egy dokumentum megfelelő-e, releváns-e a számomra, kölcsönösen összefüggenek. Más szóval egy dokumentumot nem lehet relevánsnak tekinteni a hozzá kapcsolódó dokumentumok figyelembe vétele nélkül, így azonban egy állandóan változó asszociációs hálóval, összefüggésrendszerrel találjuk szemben magunkat. Pl: a Coca Cola és a Pepsi két különböző fogalom, de ha bevezetünk egy új fogalmat (Fanta), az új kontextusban a két fogalom közelebb kerül egymáshoz. Fontos megjegyeznünk azt is, hogy a relevancia nem összetévesztendő a hasznossággal, ugyanis attól, hogy egy dokumentum vagy információ releváns a számomra, nem

biztos, hogy hasznos is. 4 4. Egy keresési kérdésről sosem jelenthetjük ki, hogy teljesen befejezett Ez csupán a relevancia vizsgálat után valósulhatna meg, ha lehetőség lenne minden releváns dokumentum megvizsgálására. 5. Algoritmikus jelentés felismerés nem lehetséges, egy gép ugyanis nem ismerhet fel jelentést, nem tudja az emberi ítélőképességet megsokszorozni, mely az indexeléshez és osztályozáshoz elengedhetetlen kellék. 6. Az ún szó előfordulási statisztikák (vagyis annak a vizsgálata, hogy egy bizonyos szó hányszor fordul elő egy dokumentumban) használata széleskörű, ám korlátozott jelentőségű, ugyanis nem képesek reprezentálni magát a jelentést. Éppen ezért csak kiegészítő technikaként alkalmazandóak. 7. Korlátozottak az egyszeri humán relevanciaítéletek is Az ítélet vagy döntés megismételhetetlen, mivel minden esetben újabb lehetőségek, jellemzők merülhetnek fel. 8. Az ún finom relevancia ítéletek

és a hatékony mechanikus folyamatok kölcsönösen kizárják egymást. 9. Hatékony és automatizált indexelés és visszakeresés nem létezik, magát a gondolkodási folyamatot ugyanis nem lehet algoritmizálni. Ezt bizonyítja az előző nyolc posztulátum is. Az indexelés és információellátás 5 axiómája: 1. Meghatározhatóság: egy témához kapcsolódó releváns információk gyűjtése csak annyiban képzelhető el, amennyiben a kérdező meg tudja határozni, vagyis definiálni tudja a témát fogalmak illetve fogalomkapcsolatok formájában. 2. Rend és rendezettség: egy témára vonatkozó releváns információk gyűjtése mindig rendalkotó vagy rendet létrehozó folyamat. 3. Rend és rendezettség kielégítő szintje: a rendezettség vagy rend színvonalára vonatkozó követelmények úgy nőnek, ahogy egy adott gyűjtemény nagysága, a keresések gyakorisága, és a keresések specifikussága nő. 4. Reprezentációs megjósolhatóság: a releváns

információra irányuló keresés pontossága a keresési file-ban a fogalmak és kijelentések leírására használt kifejezési módok megjósolhatóságától függ. 5. Reprezentációs hűség vagy megfelelés: a releváns információra irányuló keresés pontossága a keresési file-ban a fogalmak és kijelentések leírásában meglévő hűségtől vagy megfeleléstől függ. Az axiómák áttekintése ábrák segítségével: Az A metszet esetében tehát felmerül egy információs igény, melyet követően el kell döntenünk, hogy fennáll-e az 1. axióma, vagyis, hogy a kérdező meg tudja-e határozni a témát fogalmak és fogalomkapcsolatok formájában. 5 A metszet: SZ A válasz kétféle lehet: NEM IGEN Nem irányított információellátásról van szó: B metszet: Irányított információellátásról van szó: Az irányított információellátás előre meghatározott a 2. és 3 axiómák segítségével. Ennek következtében kétféle eset

lehetséges: SZ C metszet: A B metszet esetében nem fókuszolt információkeresésről beszélünk, ami magával vonja az információs veszteség, ill. a zaj lehetőségét. Ugyanakkor fennáll a szerendipitás lehetősége is, ami azt jelenti, hogy a kereső ugyan nem találja meg azt, amit keresett, de talál valamit, ami az eredetinél fontosabb, értékesebb információ. VAGY H metszet: SZ D metszet: SZ SZ Egy veszteséget Egy zajt kiküszöbölő kiküszöbölő rend rend jön létre az 5. jön létre a 4. axióma segítségével axióma segítségével E metszet: A H metszet a bibliográfiai hivatkozások hálózatát ábrázolja, mely esetében nem szükséges előzetes téma meghatározás. SZ Az E metszet egy veszteséget és zajt egyaránt kiküszöbölő ideális állapotot ábrázol. Az ideális állapot kialakítása után nincs más hátra, mint az F és G metszet által ábrázoltak megvalósítása: 6 F metszet: vagyis kötelező és pontos

indexelés G metszet: vagyis kiegyenlített, harmonizált kooperáció szótár és nyelvtan között (szótár= az egyes kifejezések, amivel indexelünk nyelvtan= kifejezések közötti kapcsolat) Magyarázat: • SZ= szett, pontosabban egy olyan méretű dokumentum szett, melyet az egyén képes áttekinteni, ha megvan hozzá a rendelkezésre álló ideje, memóriája és koncentrációs készsége (humán keresési kapacitás); • pont= hasznos dokumentum; o üres hely= a kérdés szempontjából nem érdekes, további dokumentumok; Az egyes axiómák részletes vizsgálata: 1.Meghatározhatóság: Ebben az esetben az A metszetet vesszük alapul, mely találomra való elrendezést mutat. Találatot itt csak akkor érhetnénk el, ha elejétől végéig átvizsgálnánk a file-t. Ez azonban csak kis gyűjtemények esetében lehetséges, mégpedig további alcsoportok bevezetésével, melyek humán keresési kapacitással áttekinthetőek. A keresési kapacitást a szettek

fejezik ki Fontos megjegyeznünk azt is, hogy ha a humán keresési kapacitást túlfeszítjük, nem tudunk eredményesen keresni. Nagy gyűjtemények esetében a keresés delegálására van szükség megfelelő számítógépes programmal vagy közvetítővel (specialistával). Amennyiben delegálásra kerül sor, meg kell határoznunk a témát, tehát fel kell tennünk a kérdést, hogy fókuszolt vagy nem fókuszolt keresésről van-e szó. Az A, B, D és a H metszet esetében a dokumentumok egy része kívül esik a keresési kapacitáson, mert nincs megfelelő rendezettség. Ha nincs rendezettség és jól meghatározott keresési paraméterek, siker csak szerendipitás útján érhető el, mint ahogy azt a B metszetnél már említettük. Célunk az optimális rendezettség elérése kell, hogy legyen, mely az E metszet esetében teljesen, a C és D metszeteknél részlegesen figyelhető meg. Mint ahogy az az 1. axiómában megfogalmazódik, információkeresést egy témában

csak akkor lehet delegálni, ha a kereső előre meghatározza a témát fogalmak, ill. 7 fogalomkapcsolatok formájában. Ezzel kapcsolatban két fontos fogalmat kell megemlítenünk: Relevancia (= megfelelés) visszahívás Pertinencia (= hasznosság) pontosság/precízió Ha a két fogalmat lingvisztikai szempontból vizsgáljuk és hasonlítjuk össze, akkor láthatjuk, hogy a relevancia egy szemantikai fogalom, ahol a szemantika nem más, mint jelentéstan. A relevancia egyfajta közös tudást jelöl, egy olyan információra utal, mely mindenki számára ugyanazt jelenti. Pl az esőt mindenki egy fizikai jelenségként értelmezi Ezzel szemben a pertinencia egy pragmatikai fogalom, ahol a pragmatika a jelentésnek a beszédhelyzetből, a beszélők korábbi ismereteiből, a közöttük lévő kapcsolatokból folyó összetevőivel foglalkozik, tehát egyfajta egyéni tudást jelöl, mely különböző összefüggésekben más és más lehet. Így nyerhet az eső

különböző jelentést pl Angliában vagy a sivatagban, egy péntek vagy egy szombat reggelen. Ha tehát egy bizonyos témában keresünk információt, el kell döntenünk, hogy az oda vonatkozó, vagyis releváns információk közül melyek azok, amelyek számunkra hasznosak, melyek tudnak számunkra újat mondani vagy melyek vannak olyan nyelven, melyet ismerünk. Tehát minden információt hasznosság szempontjából is értelmeznünk kell Mint ahogy az alábbi ábra is mutatja, az a dokumentum szett, melyet a kereső érdekesnek vagy hasznosnak talál, különbözhet attól, melyet valójában keresett. Ha az adott dokumentum szettet válasz szettként értelmezzük, a következő ábrát kapjuk: A dokumentumok az x-ik válasz szettben: Dokumentum szett érdekesek? hasznosak? pertinensek? kértek? keresettek? relevánsak? visszakeresettek? magyarázat 1 igen igen igen releváns és pertinens találatok 2 igen igen nem 3 igen nem igen 4 nem igen igen 5

igen nem nem 6 nem igen nem 7 nem nem igen 8 nem nem nem 8 hiány a nem teljes visszakeresés miatt hasznos találatok, de nem tökéletes visszakeresés útján a találatok helyesen visszakeresettek, de nem érdekesek érdekesek, de csak böngészés útján érhetők el nem érdekesek, de ez hiba,mert a visszakeresés hibás volt zaj a nem tökéletes visszakeresés miatt helyesen visszautasított, mert kívül esik a keresési kérdésen A táblázatban foglaltakat a Venn-diagram segítségével a következőképp ábrázolhatjuk: Venn-diagram: 8 (kívül esik a keresési kérdésen) 5 (érdekes) 6 (kért) 2 4 1 3 7 (visszaker.) A minimális rendezettségtől a rendezettség felé haladva térjünk át a H ábrán látható hivatkozási index rendszerére. Ennek kiindulópontja egy számunkra érdekes és hasznos dokumentum, melynek segítségével létrehozunk egy bibliográfiai hivatkozási hálót, összekötve az adott dokumentumot az azt megelőző

és követő dokumentummal. Így létrejön egy asszociációs háló, melynek milyensége attól függ majd, hogy a kiinduló dokumentum mennyire homogén és specifikus a témára nézve, illetve hogy a hivatkozó mennyire pontos és precíz. Mindezt szemléltetve az alábbi ábra egy választott hasznos szöveg „A” relációs hálózatát mutatja hivatkozások alapján: Előző szöveg Következő szöveg Kiinduló szöveg E hivatkozik A K hivatkozik Témái: E1 a E1 a K1 K1 a A E2 b E2 b K2 K2 b A E3 c E3 c K3 K3 c A K4 a E10 E10 a 9 Magyarázat: K1: foglalkozik „a” témával és hivatkozik A szövegre; K2: foglalkozik „b” témával és hivatkozik A szövegre; K3: foglalkozik „c” témával és hivatkozik A szövegre; K4: foglalkozik „a” témával és hivatkozik E10 szövegre; E1: foglalkozik „a”; E2: foglalkozik „b”; E3: foglalkozik „c”; E10: foglalkozik „a” témával és hivatkozik E1 szövegre (mely szintén „a”

témával foglalkozik) és majd K4 fog hivatkozni; A és K kapcsolatát tehát hivatkozási indexek tartják számon. Ez a kapcsolat azonban nem „felhőtlen”, ugyanis ha „a” téma hivatkozási indexében megtaláltuk K szöveget, mely tartalmazza az adott témával kapcsolatos K1 szövegrészt, egyúttal eljutottunk K2-höz és K3hoz is, mely az „a” témára nem releváns, tehát potenciális zajtényező. Továbbá A és K szövegek hivatkozási hálózata töredékes, mivel szerzőik nem tudnak olyan szövegre hivatkozni, mely megfelelő közelséggel kapcsolódik az adott témához. Mindez információveszteséghez vezet, mely az ilyesfajta rendszerek esetében elkerülhetetlen. Ha ezt a hivatkozási ösvényt követjük, közepes fokozatú rendet tudunk elérni, mivel a kereső nem határozza meg a keresési célt. Ezt a fajta rendezettséget a H metszet ábrázolja 2.Rend és rendezettség: Ahogy az indexelés és információellátás 2. axiómája kimondja, egy

témára vonatkozó releváns információk gyűjtése mindig rendalkotó vagy rendet létrehozó folyamat. Ez a rend úgy fogalmazható meg, mint egy egész részeinek jelentéssel bíró közelsége egy előre látható és megjelölhető helyen. Ez a közelség a kereső számára jelentéssel kell, hogy bírjon, mert különben nincs meg a meghatározható rend. Továbbá nem elegendő az, ha a rendezettség csupán logikai vagy mechanikus úton érhető el (pl. a KWIC indexelési módszer, mely szavak előfordulásán alapuló rendezettséget, tehát egy eléggé alacsony rendezettségi szintet biztosít, mivel nagy a szóródás és a zaj lehetősége). Egy kereső, aki nagyjából meg tudja határozni keresésének célját, akkor van jó helyzetben, ha az adott file az E ábrán látható „ideális” állapotban van, tehát egy veszteséget és zajt kiküszöbölő rendezettségi szinten, ahol az összes releváns elem egy helyen található. 10 3.Rend és rendezettség

kielégítő szintje: Mivel a humán keresési kapacitás limitált, túlfeszíthető, mely magával vonja annak lehetőségét, hogy a keresés nem lesz elég sikeres, egyfajta rendezettséget kell bevezetnünk, legalább olyan szinten, mint ahogy az a C metszeten is látható. Ez a fajta rend iránti igény az idő múlásával egyre nő, vagyis ahogy nő a gyűjtemény, úgy nő a kérdések gyakorisága és a keresések specifikussága. Más szóval, mint ahogy azt a 3 axióma is megfogalmazza, a rendezettség vagy rend színvonalára vonatkozó követelmények úgy nőnek, ahogy egy adott gyűjtemény nagysága és a keresések gyakorisága nő. Azt, hogy az információs rendszer mérete és rendezettsége összefügg, az alábbi ábra is jól mutatja: Rendezettségi szintek α Metszetek A1 A2 β B γ C δ D ε E Magyarázat: A1 metszet: egy adott gyűjtemény a kezdeti „rendezetlen” szakaszban is jól működik, mert akkora, hogy áttekintésére elegendő a

humán keresési kapacitás. B metszetE metszet: ugyanazt a gyűjteményt reprezentáló metszetek, melyekben a rendezettség egyre nő, csakúgy, mint az információellátási kapacitás. 11 Az a rendezettség a kielégítő tehát, amelynél a rendezettség irányába mutató követelmények a gyűjteménnyel együtt nőnek. A nagyságváltozás így változtatja meg a gyűjtemény jellegét, hasznosságát. Miközben azonban az ideális állapotot reprezentáló E metszet felé haladunk, a rendezettségnek két formájával kell találkoznunk, mégpedig a veszteséget elkerülő (C metszet), ill. a zajt elkerülő (D metszet) renddel A veszteséget elkerülő rendre jellemző, hogy az egy keresésre releváns összes válasz a keresési kapacitásban még levezethető szettben tárolódik és a megjósolhatóság axiómáján keresztül lesz majd elérhető. A zajt elkerülő rend esetében viszont a pontosság lesz a lényeges, tehát az, amit találunk, pontosan fedje le

azt, amit keresünk, még ha ez információs veszteséggel is jár. Ez a fajta rend a reprezentációs hűség axiómáján keresztül valósul majd meg. Fontos megjegyeznünk, hogy tisztán egyik fajta rend sem jelentkezik, csak vegyesen. 4.Reprezentációs megjósolhatóság A 4. axióma szerint a releváns információra irányuló keresés pontossága a keresési file-ban a fogalmak és kijelentések leírására használt kifejezési módok megjósolhatóságától függ. Mindez tulajdonképpen lefedi az információkeresés lényegét, vagyis azt, hogy egy mechanikusan működő fájlban egy keresési célt bizonyos keresési paraméterekkel keresünk meg. Mindehhez a megfelelő keresési paraméterek meghatározása és megadása szükséges, melyeket a későbbiekben behasonlítok majd a fájlban található reprezentációkkal. Ahhoz azonban, hogy a behasonlítás lépéséig eljussunk, a keresési kérdés kifejezése érdekében tudnunk kell, hogy a keresőkapcsolatok az

adott file-ban hogyan vannak kifejezve, rekonstruálnunk kell, hogy az adott fogalom milyen formában szerepel a file-ban. Mivel a természetes nyelvi kifejezések ritkán esnek egybe egy fogalmi kereső kérdés (query) kifejezéseivel, ezért egy, a nem kontrollált természetes nyelvtől különböző, indexelési nyelv szükséges a kereséshez. Ilyen indexelési nyelv pl a kivonatolt indexelési nyelv, mely során az eredeti szövegből emelünk ki részeket, tehát elmarad a kifejezések lefordítása, az eredeti szöveg ás a szinonimák összehangolása, ill. nem tartalmazza a célzott, de nem említett fogalmakat. 5.Reprezentációs hűség vagy megfelelés: Az 5. axióma szerint a releváns információra irányuló keresés pontossága a keresési file-ban a fogalmak és kijelentések leírásában meglévő hűségtől vagy megfeleléstől függ, tehát egy zajelkerülő rendre van szükség, melyet a D metszet ábrázol. Más szóval, ha a keresési kérdés nincs pontosan

megfogalmazva, a keresés eredménye sem lesz pontos. pl ha a rovarirtó szerekkel kapcsolatos információk keresésekor „rovarirtó szerek” deszkriptor hiányában csak egy magasabb szintű „féregirtó szerek” nevű deszkriptorral tudunk keresni, sok felesleges dolgot találunk. A reprezentációs hűség kategóriájában tehát hiányossággal kell szembenéznünk. Van azonban lehetőség a hiányok korrigálására, mégpedig egy megfelelő indexelési nyelv bevezetésével. 12 Az indexelés, mint lényegfelismerő folyamat Az indexelés nem más, mint fordítás, pontosabban a szöveg lényegének másik kifejezési módra (indexelési nyelvre) történő lefordítása. Mint eljárás egy kétlépéses folyamat: 1. a dokumentum vagy szöveg lényegének a megértése 2. a megértett lényeg reprezentálása kielégítő megjósolhatósággal Ehhez rendelkezésre áll egy indexelési nyelv, melynek van szótári és nyelvtani része. A szótár a terminológiákat

tartalmazza, tehát lexikai, szemantikai jellegű, míg a nyelvtani rész a szintaxis szabályaira építve az egyes indexelési részek közötti kapcsolatok, összefüggések leírására szolgál. Egy index létrehozásakor, azon kívül, hogy ismernünk kell az indexelendő téma terminológiáját, egy fő- és altárgyszavakból álló hierarchikus struktúrát is létre kell hoznunk. A lényegfelismerő indexelés reprezentációs formái: • Kivonatoló indexelés: az effajta indexelés során kiemeljük a szövegből azokat a terminológiai kifejezéseket, amiket használni szeretnénk. Ilyenkor figyelembe kell vennünk, hogy minden szövegnek más a deszkriptor készlete, éppen ezért lehetőség van a változtatásra (pl. egyes/többes számok használata) Jó indexelést főleg egyedi szavak esetén tudunk elérni. • Kijelölő indexelés: ami azt jelenti, hogy kijelöljük a deszkriptorokat és alkalmazzuk őket, de azok nem feltétlenül fordulnak elő a szövegben.

Ilyenkor a használt nyelvtől elvárható a specifikusság és az alkalmazható szinonima kontroll. Éppen ezért a kijelölő indexelés kétféleképpen végezhető:  kontrollált szótárral, melynek jellegzetességei: ♦ helyesírási kontroll ♦ egyes/többes szám kontroll ♦ szinonima/homonima kontroll ♦ hierarchikus kapcsolatok ♦ rendszerhatékonyság a visszakeresésre vonatkozóan  Cutter-szabállyal, vagyis a legszűkebb fogalom elvével, ami azt jelenti, hogy mindig a legspecifikusabb deszkriptor használata a kötelező • Szabad indexelés: összeköthető a szabadszöveges kereséssel Visszahívás és precízió Már korábban, a meghatározhatóság axiómájánál említettük, hogy mennyire fontos annak a vizsgálata, hogy az adott dokumentum mennyire releváns és egyben hasznos, vagyis pertinens a számomra. A vizsgálatnak ezt a folyamatát a visszahívás és precízió fogalmainak használatával is elvégezhetjük, ahol a visszahívást a

relevanciával tesszük rokon értelművé (releváns dokumentumok visszahívása), a precíziót pedig a pertinenciával (hiszen azt 13 vizsgálom, hogy a számomra releváns dokumentumok mennyire felelnek meg pontosan, „precízen” annak, amit keresek, mennyire tudnak újat mondani, mennyire hasznosak). Mindezen fogalmak jobb megértéséhez azok részletesebb vizsgálata szükséges: Visszahívás Mivel az információkereső nyelvek sajátossága, hogy nem minden információkereső mechanizmus működik megfelelően a különböző szakterületeken, szükség van annak ellenőrzésére, hogy az adott információkereső nyelv az adott szférában mennyire hatékony. A visszahívást segítik a már korábban tárgyalt kontrollált szótárak, melyek a helyesírási kontrollal, az egyes/többes szám kontrollal, ill. a szinonima/homonima kontrollal segítik a rendszerhatékonyság vizsgálatát. A visszahívás kiszámítása teszteléssel lehetséges. Ez a tesztelés úgy

történik, hogy az általunk megfogalmazott kérdésre már tudjuk a választ, de leellenőrizzük, hogy az adott információkereső nyelv segítségével megtaláljuk-e a helyes választ. A visszahívás kiszámításának képlete: visszahívás % = a keresés során megtalált releváns tételek a fájlban lévő összes releváns tétel Precízió A precízió tulajdonképpen a visszahívás folytatásaként is értelmezhető, hiszen általa azt vizsgáljuk, hogy a megtalált releváns dokumentumok között hány olyan van, mely számunkra hasznos. Ebből következik a precízió kiszámításának képlete: precízió % megtalált hasznos tételek = összes megtalált releváns tétel Megtalált hasznos tételek alatt a keresés során megtalált releváns tételekből hasznosnak bizonyult tételeket értjük. pl. Ha a 35 megtalált releváns tételből 7 a hasznos, a precízió 20 % -os lesz A két fogalom ugyanakkor egymással fordítottan arányos is, hiszen a

visszahívás javításával egyre több releváns dokumentumot találhatok, szélesedik a terminus technicus definíciója, csökken az alkalmazott szókészlet nagysága, viszont a találatok számának növekedésével növekszik azon dokumentumok száma is, mely számomra nem feltétlenül hasznos, tehát romlik a precízió. Pl ha a bútorokra keresek rá, ami egy eléggé átfogó fogalom, sok 14 dokumentumot kapok majd, viszont nem biztos, hogy az asztalokon és székeken kívül más is érdekel. A precízió javításával csökken a megtalált releváns dokumentumok száma, mivel egy specifikusabb fogalmat használtam kereséskor (pl. asztal), tehát szűkül a terminus technikus definíciója, ill. nő a szótár nagysága, nagyobb lesz a használt szókészlet (szám szerint). Minden indexelő nyelvnek tartalmaznia kell olyan módszereket, amelyek valamelyik tényezőt elősegítik, és a célkitűzéstől függ majd, hogy melyik tényező a fontosabb. Pl egy szerző

összes művének keresésekor a visszahívás, vagyis a lehető legtöbb releváns dokumentum megtalálása lesz a lényegesebb. A visszahívás javítására használatos módszerek: • Szinonima kontroll: utal egy el nem fogadott terminusról egy elfogadottra vagy fordítva. Indexelési és keresési szinten történő alkalmazása is elképzelhető Pl: ingoványok lásd mocsarak lápok mocsarak (alfabetikus elrendezés) vagy napilap nyomtatott média lásd sajtó sajtó • Kifejezés kapcsolás: a hierarchikus kapcsolás legismertebb formája, fogalmak alá- és fölérendeltségét fejezi ki. Pl: lisztből készült ételek pékáruk kenyérféleségek • Szóformák kontrollja: minden szóforma elismerését jelenti. Ilyenkor a visszahívás nő, de a precízió drasztikusan csökken. Pl: információ atikus atika álás 15 • Klaszterezés: vagyis statisztikai asszociáció alapján történő csoportosítás, a klaszter analízis pedig nem más, mint a hasonló

ismérvű dokumentumok összehasonlítása. Pl.: digitális központok, kábelfektetés távbeszélő hálózat, telefonközpont telekommunikáció távközlés A precízió javítására használatos módszerek: • Koordináció: két fajtáját különböztetjük meg:  prekoordináció: indexelési szinten történő egymás mellé rendelést jelent, pl. ilyen az ETO. Általa csökken a hamis asszociációk száma, ill a szótárnagyság, a precízió viszont nő;  posztkoordináció: egymástól független fogalmak keresési szinten történő összekapcsolását jelenti, mely azonban lehetőséget nyújt a hamis asszociációk előfordulására • Kapcsolatok: a posztkoordinált szókészletben megjelenő hamis asszociációk kiküszöbölésére szolgál azáltal, hogy még indexelési szinten megmutatja a dokumentumok kapcsolódási viszonyait. Főleg az unitermes módszernél gyakori Pl: az Amerika, hatás, Európa és űrprogram kulcsszavak esetében a köztük

lévő kapcsolat kétféle lehet, mégpedig: a) európai hatások az amerikai űrprogramra vagy b) amerikai hatások az európai űrprogramra. Ha viszont valahogyan jelöljük az egyes kulcsszavak közötti összetartozást, akkor az összes kulcsszó közötti kapcsolat egyértelműbbé válik: Európa (1), hatás (1), Amerika (2), űrprogram (2) Európai hatások az amerikai űrprogramra. • Szerepjelölők: a kapcsolatok jelölésének folytatása bizonyos szerepek meghatározásával. Pl: méreg hatása tengeri kígyókra tengeri kígyó (G) tengeri kígyó (F) méreg (P) méreg (A) ahol G: gyártó P: produktum F: fogadó 16 A: ágens • Fontossági súlyozás: nem más, mint az indexelési szakaszban bizonyos fogalmak fontossági elemmel való felruházása; Osztályozás és indexelés közötti terminológiai, stb. különbségek Mint ahogyan azt már korábban említettük, az osztályozás a dokumentum egészét megragadva besorolja azt egy bizonyos témakörbe.

Ezzel szemben az indexelés egy intellektuális hozzáférést biztosít, vagyis az adott dokumentumot részleteiben ragadja meg, általa a dokumentum a témakör fogalmain keresztül lesz visszakereshető. Az osztályozás és indexelés közötti különbségeket az alábbi ábra foglalja össze: Osztályozás Indexelés Módszer átfogó: egy szöveg egészét ragadja meg analitikus: elszigetelt fogalmak alapján írja le az adott dokumentumot Struktúra szisztematikus és hierarchikus lehet szisztematikus és hierarchikus, de nem feltétlenül előre megtervezett és mesterséges kódokat használ természetes nyelvet használ Jelölés vagy jelzetalkotás (makroszintet képvisel) (mikro szintet képvisel) Az indexelési folyamat jellemzői: Hogy mitől is függ a jó indexelés? Nem mástól, mint az indexelési folyamat módjától. Ez alapján 4 egymással összefüggő tényezőt különböztetünk meg: 1. Indexelési pontosság, mely több tényezőtől függ: •

téma megértésétől: vagyis az indexeléshez meg kell értenünk a témát, le kell fordítanunk azt fogalmakra, amelyeket a későbbiekben átültetünk a megfelelő indexelési nyelv deszkriptoraira, tehát a szakterminológia alapján állítjuk fel a deszkriptorokat; • előfordulhatnak hibák, melyek rontják az indexelési pontosságot, pl.: rossz terminológiai kifejezést használunk (ezért fontos a téma 17 ismerete), nem indexelünk egy fogalmat, amit kellene vagy indexelünk egy olyan fogalmat, amit nem kellene; 2. Konzisztencia vagyis „ellentmondás mentesség”, melynek két fajtáját különböztetjük meg: • indexelők közötti konzisztencia, vagyis annak a vizsgálata, hogy két indexelő azonos időpontban, azonos segédeszközökkel, különböző helyen hogyan indexeli ugyanazt a dokumentumot; • egyes indexelőn belüli konzisztencia, vagyis annak a vizsgálata, hogy ugyanaz az indexelő ugyanazt a dokumentumot hogyan indexeli más és más

alkalommal; A konzisztencia több tényezőtől függ:  indexelő képzettségétől  indexelő tapasztalatától  terminológia típusától  indexelési segédeszközöktől  dokumentum terjedelmétől  indexelés mélységétől  ráfordított időtől  indexelés revíziójától 3. Teljesség, ami tulajdonképpen attól függ, hogy hány indexelési egységet (jelzetet, tárgyszót, deszkriptort) használtunk egy tétel indexelésére. Minél több egységet használtunk, annál teljesebb lesz az indexünk, ami nem feltétlenül célravezető, hiszen ha túlságosan törekszünk a teljességre, megnő a fájl és nehézkesebb lesz a kezelése; 4. Specifikusság, ami a teljességhez kapcsolódik, mivel az azonosított fogalmakat az oda vonatkozó megfelelő azonosítóval látjuk el. Mindez függ: • gyűjtemény természetétől • felhasználók típusától • szótár nagyságától (de a szótárválasztás nem befolyásolja az indexelés

minőségét) Az információ visszakereső rendszerek csoportosítása kontrolfok szerint: Kontrollált szótárak osztályozási rendszerek alfabetikus rendszerek Félig kontrollált szótárak láncindexelés „bővített” rendszerek 18 Nem kontrollált szótárak uniterm rendszerek kulcsszavak felso roló szintetiku s tárgys zavas deszkri ptoros (csak szavakat használ) (fazettás) (fő tartal mi jegyet ír le) (pl. KWIC/KWOC) címre alapozott (ma már nem használatosak) (egyes aspekt usokat ind.) abstra ctra, tömörí tvényr a. Műszerek, melyek szabályoznak egyes kontrollált indexelő rendszereket táblá zatok táblázato k tárgy szólis ta tezaur usz tezaurusz online rendszerekben gyakran együtt használatosak A tárgyszavas rendszerek, a deszkriptoros rendszerek, a címre alapozott rendszerek és az abstract-re, tömörítvényre vagy referátumra alapozott rendszerek online rendszerekben gyakran együtt használatosak Az egyes rendszereket

aszerint is csoportosíthatjuk, hogy az indexelőtől megkívánják-e az indexelési terminológia prekoordinálását (1), vagy, hogy megengedik-e vagy sem a visszakeresett terminológia kereső általi posztkoordinálását (2). Mindezek szerint a csoportosítás a következőképp történik: 1 2 prekoordinált rendszerek korlátozottan prekoordinált rendszerek az egyes elemeket az indexelőnek az input szakaszban mindig prekoordinálni kell az indexelő esetenként használhat prekoordinált terminológiát vagy prekoordinálhat egyes egységeket a rendszerszabályoktól és terminológiától függően láncindexel és Nem posztkoord inálhatók a kereső által szintetikus oszt. r felsoroló o. r alfabetikus tárgyszavas deszkript. (a kereső posztkoordinálhat bármilyen terminológiát, ha ezt a szg lehetővé teszi) 19 nem prekoordinált rendszerek esetenként használhat prekoordinált terminológiát, a számítógép az összes kulcsszót külön elemként

kezeli, de az egyes kulcsszavak lehetnek prekoordináltak nem kontrollált szabad szöveges, kulcsszavas szövegek (vannak olyan programok, melyek megengedik a posztkoordinációt a kulcsszavas rendszerekben) A konkrét információkereső nyelvek: Összesen 6 indexelési módszert tárgyalunk részletesebben: 1. 2. 3. 4. 5. 6. láncindexelés PRECIS tezaurusz KWIC/KWOC referátum könyv, folyóirat és újságindexelés Vannak bizonyos megszorítások, melyeknek mindegyik indexelési módszerre teljesülniük kell, ezek a következők: 1. a láncindexelés valamilyen osztályozási rendszerrel hozható kapcsolatba, vagyis rendszer specifikus/függő, a mi esetünkben ETO függő; 2. a PRECIS szövegfüggő; 3. a tezaurusz szakterminológiai speciális szókészlet vagy szótár, tehát témafüggő, tárgykörfüggő, szakterületfüggő; 4. a KWIC/KWOC címre alapozott megközelítésű, tárgykör és felhasználófüggő; 5. a könyv, folyóirat és újságindexelés,

KWIC/KWOC, referátum tárgykör és felhasználófüggő; 6. a referátum terminológia és felhasználó függő; Láncindexelés Ezt az indexelési módszert Ranganathan indiai professzor hozta létre. Ő fedezte fel azt a tényt, miszerint a dokumentum egészét jelzetekkel leíró osztályozás mellett szükség van egy specifikus, a szöveg egyes részeit speciális kifejezésekkel leíró indexelési módszerre is. Ez az indexelési módszer azonban nem független az osztályozási rendszertől, csak azzal együtt használható, vagyis rendszer specifikus (pl. ETO, Dewey Decimal Classification) Láncindexelés során az adott osztályozási rendszer jelzetét természetes nyelvre fordítjuk le, majd az egyes fogalmakat a specifikustól az általános felé haladva visszakereshetővé tesszük. Mindezt a későbbiekben először elméletben, majd gyakorlatban lépésről lépésre tárgyaljuk. Egy szöveget indexkifejezések sorozatával írunk le, így jön létre ABCD

indexelési szett, ahol minden betű valamely indexelési fogalomnak indexeléssel kifejezett jele, és ahol az egyes fogalmak között logikai sorrendiség van. Permutáció: 20 A B C B C D C D D D Itt az A a legáltalánosabb fogalom és utána kerülnek besorolásra az egyre specifikusabb fogalmak (B C D), melyek így a visszakeresésnél rejtve maradnak. A gyakorlatban szükség van a sorrend megfordítására, hogy minden tag visszakereshetővé váljon, persze csökkenő specifikussággal. A konkrét lánc esetében a képlet a következő: a b c d d c b a c b a b a a Gyakorlati példán keresztül: A kiindulási pont: a jelzet /ETO jelzet/ 551. 577 7 megnézzük ennek jelentését, hogy a témát meg tudjuk határozni Ezután következik az indexelés első fázisa, mégpedig az elemzés vagy analízis, amikoris az ETO alapján feloldom az egyes jelzeteket és leírok mindent, amit az ETO-ban találok, mert nem tudhatom, hogy mire lesz majd

szükségem a későbbiekben. A jelzettől visszafelé haladok a főtáblázat irányába. 551.5777 551.5777 Csapadék radioaktivitása 551.577 Csapadék általában 551.57 Vízgőz és csapadékjelenségek 551.5 Meteorológia. Klimatológia 551 Általános földtan. Meteorológia klimatológia Földtörténet Rétegtan Ősföldrajz 55 Földtudományok: geológia, geofizika, geizmológia, meteorológia, hidrológia 21 5 Matematika és természettudományok A következő lépés a láncalkotás, melyet soronként végzünk fentről lefelé haladva: 1. lánc: radioaktivitás : csapadék : meteorológia : rétegtan : geofizika : természettudomány 551.5777 Mivel a csapadék a második sorban már ott van, ezért a radioaktivitással kell kezdenem, a lánc többi tagjánál pedig el kell döntenem, hogy mi az, amivel nem ismétlem az előző tagot, illetve mi az a fogalom, amely az adott témában releváns. Hogy valódi index jöjjön létre a lánc után kell írnom

valamilyen hivatkozást vagy lokátort, ami ebben az esetben a jelzet vonatkozó része. 2. lánc: csapadék : meteorológia : rétegtan : geofizika : természettudomány 3. hivatkozás ( 551.577 = lásd) vízgőz  csapadék csapadékjelenségek  csapadék A további láncok és hivatkozások: meteorológia : rétegtan : geofizika : természettudomány 551.5 klimatológia  meteorológia rétegtan : geofizika : természettudomány 551 geofizika : természettudomány 55 hidrológia : természettudományok 55 geológia  geofizika geizmológia  geofizika természettudományok 5 Természetesen azt is meg kell jegyeznünk, hogy mindez önmagában még nem kezelhető indexként, mivel csak egy dokumentumot ír le láncok és utalók segítségével. Az ETO használatából fakadó és a láncindexeléssel kapcsolatos problémák: Itt 6 problémakört kell megemlítenünk: 1. Az ETO sokszor ugyanazzal a jelzettel jelöli az egymással ellentétes fogalmakat Pl:

ugyanaz a szám jelöli a házasságot és a válást vagy az állatvédelmet és állatkínzást. A 22 jelzet alkotásnál persze nyílván azt vesszük figyelembe, ami az adott dokumentumra nézve releváns. 2. Hamis kapcsolatok témaköre: ezen belül két fontosabb problémáról kell beszélnünk, mégpedig a redundáns vagyis felesleges számok kérdéséről (mint pl. a 0), ill a 6-os főosztályban jelentkező hamis kapcsolatról a 6 és 61 között, ahol a 6-os főosztály az alkalmazott tudományokra vonatkozik, míg a 61-es az orvostudományra. Ebben az esetben az elemzést a 61-es alosztálynál kell befejezni az elemzést. 3. Rejtett kapcsolatok: vigyázni kell, mert hajlamosak vagyunk figyelmen kívül hagyni az összefoglalót („/” jelet) tartalmazó blokkszámot (pl. 616/619), de ha relevánsak, azok is szükségesek. 4. Szinonimák bevezetése: a láncalkotás szakaszában lehetőség van gyakran használt szavak, kifejezések bevezetésére szinonimaként,

melyekkel természetesen láncot nem indíthatunk, de utalhatunk rájuk. 5. Verbális kiterjesztés: arra utal, hogy betehetek a jelzetbe olyan szavakat, amelyek nincsenek benn az ETO-ban, de azokat fel is kell oldanom. Pl: az ETO-ban az egyetemi évkönyveknek külön jelzete van, ha az adott évkönyv a KLTE évkönyve, a KLTE-t beletehetem a jelzetbe, de mindenképpen fel kell oldanom egy utalóval: KLTE  Kossuth Lajos Tudomány Egyetem 6. Kettőspontos viszonyítás: az ETO-ban vannak olyan jelzetek, melyek két, „:”- al elválasztott számot tartalmaznak, melyek egyenrangúak, tehát felcserélhetőek. Ilyenkor el kell döntenünk, hogy melyik téma a dominánsabb és az annak megfelelő számot kell elemeznünk, ill. előre írnunk elemzéskor Pl: 636.92 : 02543 = 20 636.92 : 02543 = 20 Angol nyelvű tezaurusz a nyúltenyésztésről. 636.92 : 02543 = 20 Angol nyelvű 636.92 : 02543 Tezauruszok. Deszkriptor jegyzékek 636.92 Házinyúl. 636.9 Egyéb tartott

állatok 636 Állattenyésztés 636/639 Állattenyésztés. Állati termékek Vadászat Halászat. 63 Mezőgazdaság. Erdőgazdaság állattenyésztés Vadászat. Halászat 23 6 Alkalmazott tudományok. PRECIS (PREserved Context Indexing System) Mint ahogy a neve is mutatja, a PRECIS egy kontextust megőrző indexelési rendszer, mivel nincs „szótára”, nem tartozik hozzá az osztályozási kifejezések eleve meghatározott gyűjteménye, hanem szabályokból áll, tehát grammatikát nyújt ahhoz, ahogyan a kifejezéseket értelmes indextételekké kell összekapcsolni. Talán ide kapcsolódik a PRECISnek ama jellegzetessége is, miszerint minden elképzelhető nyelven működik, melynek magyarázata az, hogy a Chomsky-féle transformational grammar-t veszi alapjául. További jellegzetessége még, hogy az egyetlen komplex számítógépes rendszer. Kifejlesztése Derek Austin nevéhez fűződik, aki 1968-1969 óta a FID Classification Research Group (osztályozási

kutatócsoport) keretében kizárólagos felelősséggel foglalkozott az angol nemzeti bibliográfia számára kidolgozandó indexelési eljárással. De ahhoz, hogy igazán megértsük azt, hogy a PRECIS miben különbözik a többi indexelő nyelvtől és milyen elvárásoknak tett eleget vagy milyen kérdésekre adott választ létrejöttével, tekintsük át röviden kialakulásának történetét. A PRECIS történeti áttekintése: A PRECIS eredete az 1950-es évekre nyúlik vissza, amikor is elindult a British National Bibliography (BNB), mely, mint minden nemzeti bibliográfia, a dokumentumokhoz való hozzáférést kétféle módon biztosította: • alfabetikus rész, pl. szerző szerinti visszakeresés • szakbeosztásos rész, amely Dewey jelzet szerinti, hozzáférést biztosít és amelyet egy tárgyszó szerinti megközelítés egészít ki a láncindexelés segítségével. A BNB a Dewey sajátos változatát használta, mely az eredetinél egyszerűbb és egyben

hiányosabb volt. Szintén a ’60-as években különböző változások történtek a nemzeti és nemzetközi könyvtári világban, mégpedig 1967-ben megjelenik az AACR 1, vagyis az AngolAmerikai katalogizálási szabályok első változata, majd annak javított változata 1978ban (AACR 2), illetve elkezdték használni a gépi katalogizálás módszerét, vagyis a MARC projectet. Mindezek a fejlesztések nem tették tovább lehetővé a láncindexelést, mivel a Dewey számok megváltoztak. Ezekből a feltételekből kiindulva a BNB megbízást adott a Derek Austin által vezetett CRG-nek egy olyan indexelési módszer kifejlesztésére, ami a láncindexelés helyébe léphet. A PRECIS 24 megrendelésekor a BNB 4 feltételt fogalmazott meg, amelynek az új rendszernek meg kell majd felelnie: 1. a rendszónak ki kell terjednie a tárgykör egészére minden belépési pontnál csökkenő specifikusság nélkül; 2. ne kapcsolódjon semmilyen osztályozási rendszerhez; 3.

minden indexelési tétel jelentéssel bírjon a felhasználó számára, ne legyen szükség magyarázatra; 4. az eredeti indexelés továbbra is intellektuális módon történjen, de minden további műveletet számítógép kell, hogy végezzen; Így készült el a PRECIS első változata 1971-ben, majd annak végleges változata 1974-ben és a további végleges változat az 1980-as években. A megrendelő BNB 1990 körül abbahagyta a PRECIS használatát, mivel túlságosan komplikált rendszernek bizonyult, magas költségeket és magasan kvalifikált szakemberek alkalmazását igényelve. Ekkora azonban már az egész világon elterjedt kihasználva azt a tulajdonságát, hogy bármilyen nyelven használható. Magyarországon 1986-ban kísérletileg, majd 1987-ben a gyakorlatába is bevezette az Országos Pedagógiai Információs Rendszer, melynek fejlesztő intézménye az Országos Pedagógiai Könyvtár és Múzeum. A PRECIS indexelés lépései: 1. dokumentum

tanulmányozása; 2. tárgykör azonosítása, azon belül a fogalmak, fogalomcsoportok, témakörök meghatározása; 3. egy téma a tartalmat, valamint a relevánsnak ítélt egyéb tényezőket tartalmazó természetes nyelvű, címszerű megfogalmazása, pl.: Management of Canadian Libraries 4. a tárgykör terminológiai lánc formájában történő leírása, melynek során a tartalmat reprezentáló állítást szintaktikai-logikai elemzésnek vetjük alá. Ennek során operátorok állnak rendelkezésünkre, melyeket az egyes tárgyszavak elé írunk, majd a helyes sorrendben felírt tárgyszavakhoz hozzárendeljük a tételszerkesztési és tipográfiai utasításokat hordozó jeleket, kódokat, vagyis a kiegészítő operátorokat. 5. megjelöljük azokat a terminológiai kifejezéseket, melyeket vezető pozícióban szeretnénk látni (pipával); 6. hozzáadjuk a szükséges szemantikai kifejezéseket (lásd, lásd még); 7. hozzáadjuk a számítógépes manipulációs

kódokat; 25 Célunk az, hogy a tételt több helyen is visszakereshetővé tegyük, de úgy, hogy mindig a téma teljes tartalmát lehessen elolvasni. Ezért a PRECIS az adott bemeneti szóláncból több indextételt is elő fog állítani. Az egyes tárgyszavak megjelenhetnek a besorolást és elérést meghatározó vezetőként (lead), módosító pozícióban (qualifier) és az ún. kiegészítésben (display). Sematikusan: Lead Qualifier (vezető) (módosító) Display (kiegészítő) Mindezek elméleti hátteréül az ún. shunting technika szolgál: A A B C D B C D B A C D C A D B C B D A Ebből is láthatjuk, hogy a PRECIS az egyetlen kétsoros indexelési eljárás, mely a láncindexelés (chain indexing) horizontális láncával ellentétben vertikális láncot képez (string indexing). Mindezeket egy egyszerű példán szemléltetve: Először is meghatározzuk a témát egy címszerű megfogalmazás formájában: Management of Canadian Libraries.

Ezután meghatározzuk az egyes tárgyszavakat, illetve azok szerepét: Kérdés Válasz mi történik?/ miről van szó? mivel?/kivel? hol? management libraries Canada 26 Szerep (PRECIS szempontjából) cselekvés egység, entitás hely Miután meghatároztuk az egyes tárgyszavak szerepét, hozzájuk rendeljük a későbbiekben tárgyalt szerepoperátorokat és létrehozunk egy vertikális láncot, majd megjelöljük egy pipa segítségével azokat a tárgyszavakat, melyeket visszakereshetővé szeretnénk tenni: (0) Canada (1) libraries (2) management Végezetül a shunting technikát alkalmazva a következőket kapjuk: 1. Canada Libraries. Management 2. Libraries. Canada Management 3. Management. Libraries Canada Mint ahogy az alábbi példa is mutatja, léteznek olyan kódok is, melyek az indextételben a bemeneti lánchoz képest történő változást mutatják. Ilyen pl az NU (Not Up) vagy az ND (Not Down) illetve az LO (Lead Only). Az NU azt jelenti, hogy ha az

ezzel ellátott kifejezés alatt lévő kifejezés kerül vezető pozícióba, akkor ez a tárgyszó kimarad az indextételből az ismétlés elkerülése végett. Hasonlóan működik a ND utasítás is Amelyik tárgyszó mögött áll, az kimarad abból a tételből, melyben a felette álló kerül vezető pozícióba. Az LO utasítás azt jelenti, hogy az általa jelölt tárgyszó csak vezető pozícióban szerepel. pl: Sporttevékenység a budapesti Árpád Gimnáziumban (0) Budapest (1) gimnáziumok LO (q) Árpád Gimnázium (2) sportolás A shunting során teljesen felesleges, hogy többször is leírjuk a gimnázium szót, mert tudjuk, hogy az Árpád Gimnázium egy gimnázium. Tehát a gimnázium tárgyszónak csak akkor kell szerepelnie, ha az vezető pozícióban van: 1. Budapest Árpád Gimnázium. Sportolás 2. Gimnáziumok Budapest Árpád Gimnázium. Sportolás 3. Árpád Gimnázium Budapest Sportolás. 27 4. Sportolás. Árpád Gimnázium Budapest Operátorok Az

operátorok a tárgyszó, kifejezés funkcióját, szerepét határozzák meg, hogy a dokumentum tartalmának leírása tárgykörének megjelölése pontosan benne legyen az indextételben, hogy a szavak a természetes nyelvéhez közelálló sorrendben jelenjenek meg. Továbbá lehetővé teszik a számítógépi kezelést. Az operátorok között meg kell különböztetnünk elsődleges és másodlagos operátorokat: A. Elsődleges operátorok: 1. magfogalmak kifejezésére használt 0,1,2 ill 3-as operátorok, ahol 0: helyet jelöl 1: kulcsrendszert vagy entitást jelöl, ami lehet konkrét vagy absztrakt. Egyes és többes számú használata egyaránt megengedett 2: cselekvést jelöl, de névszó használata kötelező 3: ágens, vagyis valami, ami csinál valamit. Amit kifejez, annak hatása van a előtte álló 2-esre és az afölött álló 1-esre. Minden vertikális lánc 1-el, 2-el vagy 0-val kell, hogy kezdődjön, és minden láncnak tartalmaznia kell 1-est és 2-est,

melyek akár többször is előfordulhatnak összetett tárgykörök esetén. 2. magon kívüli fogalmak kifejezésére használt 4, 5 és 6-os operátorok, melyek formai operátorok, mivel formai kapcsolatok kifejezésére szolgálnak: 4: szempont vagy megközelítési mód; 5: vizsgált terület (láthatjuk tehát, hogy a hely kifejezésére három operátor is rendelkezésünkre áll: 0, 1, 5); 6: dokumentum típus, felhasználói célcsoport; Ha e három operátor megjelenik a láncban, a továbbiakban 1-es, 2-es és 3-as operátor már nem használható. Ha nem használjuk őket vezető pozícióban, akkor egy kötőjel kerül eléjük és az operátorok által jelölt fogalmakat dőlt betűvel írjuk. 28 Ha viszont vezető pozícióban jelennek meg, nem kell kötőjelet használnunk, sem dőlt betűt, viszont belép az invertált formátum, ami a PRECISben felülről lefelé történő olvasást jelent, szemben a standard formátummal, ami pedig lentről felfelé olvasást

jelent. Mindezeket a gyakorlatban szemléltetve nézzük meg az alábbi példát: A sociological study of the role of consultants in industries (1) industries (s) role $v of $w in (3) consultants (4) sociological perspectives Az (s) operátor azt mutatja, hogy az adott cselekvés vagy tárgy összekapcsolása a hagyományostól eltérő módon történik. Azokat az instrukciókat, melyek arra adnak utasítást, hogy az egyes operátorok hogyan kapcsolják össze az egyes kifejezéseket, kapcsoló kódoknak nevezzük és $v, ill. $w-vel jelöljük. Használatuk a következőképp történik: $v: lefelé olvasást jelent, tehát ha egy, az $v kóddal ellátott tárgyszó előtti tárgyszó van vezető pozícióban (pl. industries), a további tárgyszavak összeolvasása a sorrend megváltoztatása nélkül fentről lefelé történik: 1. az (s) operátorral ellátott tárgyszó, pl: role 2. az $v-t követő prepozíció, pl: of 3. a vertikális láncban a következő tárgyszó pl:

consultants $w: felfelé olvasást jelent, tehát ha az $w kóddal ellátott tárgyszó utáni tárgyszó jelenik meg vezető pozícióban (pl. consultants), a tárgyszavak összeolvasása a következőképp történik: 1. az (s) operátorral ellátott tárgyszó, pl: role 2. az $w-t követő prepozíció, pl: in 3. a vertikális láncban az $w-vel ellátott tárgyszót megelőző tárgyszó, pl.: industries 1. Industries Role of consultants – sociological perspectives 2. Consultants Role in industries – sociologiocal perspectives 3. Sociological perspectives Industries. Role of consultants 29 B. Másodlagos operátorok: Az elsődleges operátoroknak amolyan „bővítményei”: p, q, s, ahol (p): részt vagy tulajdonságot jelöl. Példákkal szemléltetve: 1. (1) cameras konkrét (p) lenses (lencse) 2. (1) Christianity (p) mysticism 3. absztrakt cselekvés (2) dentistry (fogászat) (p) anesthesia (érzéstelenítés) 4. (1) newspapers (újságok) (2) publishing (kiadás)

(p) costs (költségek) 5. (1) aircraft (repülőgép) (p) engines (motor) (p) bolts (csavar) (p) strength (erősség) (q): fajta, féleség: 1. (0) Észak Magyarország (1) várak (q) Eger vára (6) turistakalauz 2. (1) supermarkets (p) marchendise (árukészlet) (q) soap 4. (1) universities (p) curriculum subjects (tantervi tárgyak) (q) architecture (2) teaching Tezaurusz Maga a tezaurusz egy görög eredetű szó, „kincsestár”-at jelent. A későbbiekben látni fogjuk, hogy miért is olyan találó ez a kifejezés, amikor is rájövünk, hogy egy információs tezaurusz egy- egy szakterület „színe javát” foglalja magába, hiszen az adott szakterület 30 természetes nyelven kifejezett fogalmainak szabályozott szótára, pontosabban a kontrollált szótárak legfejlettebb formája, vagyis szavak, kifejezések és kapcsolódásaik tárháza. Az első tezaurusz jellegű műszer kidolgozása Hans Peter Luhn nevéhez fűződik az 1950-es években. Magának a

tezaurusznak, mint műfajnak a gyökerei azonban még messzebbre, az 1850-es évekre nyúlnak vissza, amikor is Roget skót ideggyógyász létrehoz egy olyan tezauruszt, melyben az angol nyelv szavait osztályozza oly módon, hogy a nyelv alapszókincsét osztályokra bontja, kiválasztja az azt leginkább reprezentáló szavakat és azok között bizonyos kapcsolatokat jelöl. Felismerte tehát a tezaurusz által nyújtotta azon lehetőséget, miszerint egy fogalomtól, melyet ismerünk, eljuthatunk egy olyan fogalomhoz, amit kevésbé. A tezaurusz tehát szókészlet, szótár. De hogy világosabbá váljon, pontosan milyen szótárról is van szó, vessünk egy pillantást az alábbi táblázatra, mely a szótár különböző fajtáit vizsgálja: Szótárak Kontrollált szótárak (információval való manipulációt segíti elő) Egyes nyelvi egységek Egy épp kialakulóban Subject headings (list) Tezaurusz magyarázatát, jelentését lévő speciális szakterület

Legismertebb általános a kontrollált tartalmazza a köztük szakszavait sorolja fel, tárgyszólista az LCSH szótárak lévő kapcsolatok esetleges magyarázattal, (Library of Congress legfejlettebb segítségével kapcsolatok jelölése Subject Headings) formája nélkül és a szókiválasztás Nyelvi szótárak Szólisták (szógyűjtemény) irányítása nélkül. Általában ideiglenesek, amíg szakszótárt nem hoznak létre belőlük. Ezek között a szótárfajták között a tárgyszólisták (subject headings) és a tezaurusz áll egymáshoz a legközelebb, a kettő közötti különbségeket azonban hangsúlyoznunk kell: • a subject heading list-ek, mint pl. az LCSH is, tárgykörüket tekintve univerzálisak, míg a tezauruszok mindig nagyon speciális, specifikus tárgykörökre vonatkoznak, bár történtek már kísérletek általános tezaurusz létrehozására, pl.: Ungvári Rudolf köztaurusza; • messzemenő strukturális különbségek vannak a kettő

között; • rendeltetésük célja különböző, mivel a tezaurusz egy szűk terület annak terminológiájával való leírására használható, míg a subject headig list-eket tárgyszavazásra használják, csakúgy, mint egy egyetemes osztályozási rendszert (pl. ETO); 31 Az információs tezaurusz legjobb, legteljesebb definícióját annak komponensei és ezek összeadódása adja: 1. Nyelvi komponens: azt jelenti, hogy a szókiválasztás az adott nyelv nyelvtani szabályainak megfelelően történik; 2. Szakmai komponens: a szókiválasztás a választott téma vagy szakterület fogalmi hierarchiájának megfelelően történik; 3. Könyvtár-informatikai komponens: ami azt jelenti, hogy információs tezauruszról csak akkor beszélhetünk, ha az információ feldolgozásra és információ visszakeresésre használható; De mire is jó, mire is használható a tezaurusz? Kérdésünkre a következő hét pont alapján kaphatunk választ: a tezaurusz tehát 1. az

ismeretekhez készített térkép egy adott szakterületen; 2. szabványszókészlet, melyet az indexelők tértől és időtől függetlenül, egységesen használnak; 3. hivatkozási rendszer a fogalmak tekintetében Pl: több szinonima közül kiválasztjuk azt, amit használni szeretnénk, és tőle utaló vezet majd a többi szinonimához; 4. biztosítja azt, hogy a felhasználók a helyes kifejezést használják majd; 5. egy általunk ismert fogalomból kiindulva eljutunk egy újonnan bevezetett fogalomhoz; 6. flexibilis és hierarchikus rendszer, mely tágabb és szűkebb fogalmakat egyaránt tartalmaz; 7. van egy olyan jövőbeni elképzelés, miszerint a fogalmak használata egy, a tezauruszhoz hasonló vagy azzal megegyező szabvány szerint történik majd helytől függetlenül mindenütt. A tezaurusz esetében tehát fogalmakról, fogalomkapcsolatokról beszélünk. De hogy ezeknek a kapcsolatoknak a lényegét megértsük, először is meg kell ismerkednünk a

deszkriptor és non-deszkriptor fogalmával, vagyis a tezaurusz alapegységeivel: • deszkriptor: olyan természetes nyelvű lexikai egység, mely egy adott tudományterület, szakterület fogalmának tükrözésére szolgál, - az információk szabványos leírására, ill. keresésére közvetlenül alkalmazható • non-deszkriptor: az a lexikai forma, mely ugyanazt a fogalmat tükrözi, mint a deszkriptor, de az információk szabványos leírására és keresésére csak közvetve alkalmazhatók. A deszkriptorok és non-deszkriptorok tehát az egyes fogalmakat reprezentálják, a köztük lévő kapcsolatok pedig a következőek lehetnek: • hierarchikus kapcsolatok: amik a szűkebb és tágabb fogalmak egymáshoz való viszonyát jelölik. Egyes fogalomcsoportokon belül lehetnek polihierarchikus, azaz többszintű struktúrák is; 32 • • • • asszociatív vagyis rokonkapcsolatok: ami azt jelenti, hogy egyes deszkriptorokról mentálisan asszociálni tudunk;

szemantikai ekvivalencia kapcsolatok: a deszkriptorokat és non-deszkriptorokat mint szinonimákat- kvázi szinonimákat- antonímákat kötik össze; alkalmazási kapcsolatok: összekapcsolják a deszkriptort a potenciális alkalmazási lehetőséggel; nyelvi ekvivalencia kapcsolatok: összekapcsolják azokat a deszkriptorokat, melyek ugyanazokat a fogalmakat fejezik ki különböző nyelveken; Miután tisztáztuk a deszkriptorok és non-deszkriptorok fogalmát illetve az azok közötti kapcsolatot, könnyebben megértjük majd a tezaurusz részeinek felépítését. A tezaurusz részei ugyanis a következők: • alfabetikus rész: tezaurusz fő része, szócikkekből áll, melyet deszkriptorok és non-deszkriptorok építenek fel alfabetikus besorolással; • hierarchikus lista: csak deszkriptorokat és azok alárendeltjeit tartalmazza, a fölé-alárendeltség megértése szempontjából elengedhetetlen; • gráfok: a facettás rész alapján alakítjuk ki; • permutált lista:

abban az esetben hozzuk létre, ha olyan témával foglalkozunk, melyben a deszkriptorok nagy része két vagy több szóból áll, pl.: didaktikai háromszög tervezése, és az ezekhez való hozzáférhetőséget egy KWIC- szerű rendszerrel biztosítjuk Alfabetikus rész: Ez a rész a részletes deszkriptor cikkeket tartalmazza betűrendben. A deszkriptor cikk olyan szótári egység, mely tartalmazza az adott fogalom jelölésére szolgáló deszkriptort (vezér deszkriptor) illetve a használatával kapcsolatos magyarázatokat, a deszkriptor szinonimáit, annak hierarchikus és asszociatív kapcsolatait. Pl: DIAGRAM UF grafikus ábrázolás SN két vagy több tényező kölcsönös összefüggését grafikusan szemléltető ábra BT ábrázolás technika NT adatfolyam diagram dialógusvázlat döntési fa egyed-történeti diagram elérési út diagram eseményhatás diagram 33 hálódiagram ISAC gráf Jackson szerkezet logikai adatstruktúra RT struktúrált szervezés

módszertan táblázat Mint ahogy a példában is láthattuk, különböző relációk jelölésére különböző rövidítések használatosak: SN(scope note): megjegyzés a fogalom kiterjedéséről, más szóval szöveges definíció; Szinonima relációk jelölése: UF (USE FOR): egy kifejezés helyett egy másikat használunk; U (USE) a szinonima szó itt olyan kifejezésekre utal, melyek jelentése teljesen vagy csaknem teljesen megegyezik a deszkriptoréval, de nem használhatjuk sem indexelésre, sem keresésre. Az U-val (USE) jelölt kifejezések a nem használatos kifejezések, tehát elutalunk róluk. Az effajta utalást többféle esetben alkalmazhatjuk: • két szinonima esetén, pl.: eb U kutya • speciálisról általánosra vagy általánosról speciálisra való utalás esetén; • bizonyos rövidítések esetén, pl.: EGK U EU • kvázi szinonima esetén, ami nem azonos jelentésű szóra utal, hanem olyan szóra, melyet csak az indexelés szempontjából

tekintünk szinonimának, pl.: dokumentumok U szövegek • invertált kapcsolatoknál, pl.: irodalom, magyar U magyar irodalom • beszélt nyelvről vagy szlengről hivatalos nyelvre; • idegen nyelvű szavak esetén, pl.: byte, giga; Az UF és az SN sorrendje felcserélhető, de a többi reláció sorrendje kötött. Hierarchia relációk és jelölésük: BT (Broader Term): az általa jelölt fogalom az adott deszkriptorhoz képest magasabb rendű, átfogóbb jelentésű, tágabb fogalom; NT (Narrower Term): az adott deszkriptorhoz képest alacsonyabb rendű, szűkebb jelentésű fogalmat jelöli; A kettő egymással fordított kapcsolatban áll. Ez bizonyos fordítási szabályok bevezetését vonja maga után, melynek alapja az a megkötés, hogy mindennek, ami egy facettán belül megjelenik, deszkriptorként is szerepelnie kell (az UF-et és az SN-t kivéve): 34 • ha a BT megjelenik deszkriptorként, akkor annak az eredeti deszkriptor az NT-je lesz; • ha az NT

deszkriptorként jelenik meg, akkor annak az eredeti deszkriptor a BT-je lesz; Mivel mind a BT-ből, mind az NT-ből lehet több is, ezért felmerülhet a polihierarchia lehetősége, mely mindig csak az egyiknél valósulhat meg: BT BT1 NT BT2 BT3 NT1 NT2 NT3 RT (Related Term): ezek a fogalmak nincsenek alá-fölérendeltségi viszonyban a vezérdeszkriptorral, ugyanakkor jelentésük köre érintkezik vele, vagy részben fedi azt, esetleg ellentétpárja annak. Az RT vagy asszociatív kapcsolatok különbözőek lehetnek: 1. különböző objektumok és azok használata közötti kapcsolat, pl: Katalóguscédula RT besorolás 2. ok-okozat összefüggés, pl: síkosság RT lábtörés 3. valamilyen tárgy vagy objektum, ill annak tulajdonsága, pl: gumi RT elaszticitás 4. nyersanyag vagy gyártott termék, ill gyártásának helye, pl: gördülő csapágy RT Göcs 5. kölcsönös összefüggések esete, pl: tanítás RT egyetemi előadás 6. ellentétes fogalmak elve, pl: élet

RT halál 7. valamely cselekvés és ami azt okozza, pl: dohányzás RT cigaretta 8. valamely cselekvés és annak egy tulajdonsága, pl: dohányzás RT dohányfüst 9. valamely cselekvés és annak eredménye, pl: horgolás RT pulóver 10. valamely objektum és annak része, pl: repülőgépek RT propeller Az RT kapcsolatok megállapítására három módszert használhatunk: 1. megnézzük azokat a lehetőségeket, melyek alapján az RT-t megállapítjuk, pl: ok-okozati viszonyról van-e szó, stb.; 2. a deszkriptor és az RT között szintén inverz (szimmetria) kapcsolat van, tehát az esetek 80 %- ában ha az RT-ből deszkriptor lesz, az eredeti deszkriptorból RT. Persze ez nem mindig van így, ellenőrzésére minőségi összevetést kell végeznünk; 35 3. sok esetben több NT is előfordul egy szócikken belül, amikor ezek közül egyet deszkriptor helyzetbe teszünk, akkor megvizsgálhatjuk, hogy a többi NT közül melyik lehet az új facettában RT; Mivel manapság a

tezauruszokat számítógépes szoftverekkel állítják elő, szükség van deszkriptor kapcsolatok algebrai leírására is. Mint ahogy azt már korábban tárgyaltuk, öt féle kapcsolatot különböztetünk meg az egyes terminológiák között: 1. preferenciakapcsolatok 2. hierarchikus kapcsotok 3. asszociációs kapcsolatok 4. az 1. és 2 kapcsolattípusnak reciprokai 5. Ha ezt ábrával szeretnénk kifejezni, a következőket kapjuk: 1. USE 2. BT 3. RT recip recip 4. UF 5. NT Mindezeket kissé bővebben kifejtve a tezauruszban lévő kapcsolatok a következőképp alakulnak, beleértve a szimmetria, reflexivitás és tranzitivitást is. 1. Preferenciakapcsolatok: T1 USE T2, ahol T a terminológiát jelenti, T1 nem elfogadott terminológia, a felhasználót a T2-re irányítja. Ez a kapcsolat nem reflexív (mert nincs olyan, hogy T USE T); aszimmetrikus (mert T1 USE T2 = T2USE T1); intranzitív (mert T1 USE T2, T2 USE T3 = T1 USE T3); T2 UF T1, mely az előzőnek reciproka és

ahol T1 szintén nem elfogadott terminológia, helyette a T2-t kell használni, tehát T2 UF T1 T1 USE T2 2. Hierarchia kapcsolatok: T1 BT T2, ahol T1 hierarchikusan magasabb kapcsolata a T2 lesz. Ez a kapcsolat nem reflexív, aszimmetrikus és intranzitív; T2 NT T1, mely az előzőnek reciproka, és ahol T2 terminológia hierarchikusan alacsonyabb kapcsolata a T1, tehát T2 NT T1 T1 BT T2 3. Asszociatív kapcsolatok: 36 T1 RT T2, ahol T1 asszociatív lesz T2-vel. Ez a kapcsolat nem reflexív, szimmetrikus (mert T1 RT T2 = T2 RT T1) és tranzitív (mert ha T1 RT T2 és T2 RT T3 , akkor T1 RT T3); A kontrollált nyelvek esetében mindenképp beszélnünk kell az egyes- és többes szám, valamint a szinonimák és polysemia okozta nehézségekről. Egyes- és többes szám problémája: Szófajta anyagnevek (fizika, kémia tulajdonságok, sajátosságok technikai eszközök, készülékek, részek folyamatokat jelölő sz. nevek eseményeket, történéseket jelölő szavak

Egyes szám ha nagyon speciális terület pl. szénmonoxid speciális esetekben, pl.: hőmérséklet, hőfok nem lehet egyes számot használni pl.: építkezés, gyártás mindig Többes szám ha generikus, átfogó, pl.: fémek, nemesfémek mindig, pl.: számítógépek, röntgenkészülékek nincs sosem használatos nem lehet egyes számot használni mindig, pl.: háborúk, tüntetések ritkán, csak ha generikus Szinonimák: A szinonimák szerkesztésekor fellépő esetek: 1. U, UF két oldala között a kifejezések értelme szerint teljes megegyezés van: • helyesírási különbség van a két írásmód között, pl.: Debrecen -- Dereczen • vagy rövidítésről vagy „becenévről” van szó, pl.: zsaru – rendőr vagy EU – Európai Unió 2. a jelentés azonos, a forma különböző • hivatalos és beszélt nyelv közötti különbség • tájnyelv vagy dialektus 3. ugyanazt a használatot tételezi fel a két forma, pl: Amerika – USA, ÉszakAmerika 4.

hasonló jelentése van a két kifejezésnek, pl: köztársaság – népköztársaság 5. ellentmondásos kifejezések, pl: fémek – nem fémek 6. előfordulhat, hogy az egyes szinonimák között hierarchikus kapcsolat van, pl.: lexikonok, kézikönyvek Polysemia („többjelentésűség”) problémája: 37 Paripa Ló állat tornaszer Homályosság problémája: Hírek Híranyag Hírek 19:30-as TV híradó KWIC és KWOC indexelés Mint ahogy azt már korábban is említettük, a KWIC és KWOC indexelési technikák címre alapozott megközelítésűek, ami azt jelenti, hogy vannak kifejező címek. KWIC (Key Word In Context): Ebben az indexben, mint ahogy a neve is mutatja, a kulcsszavak a címbeli környezetükben jelennek meg. Az első lépés a releváns kulcsszavak kiválasztása Természetesen itt egy olyan címre van szükség, mely kifejezi az adott dokumentum lényegét, vagyis tartalmazza az adott terület terminológiáját. Ilyen dokumentumok általában a

természet- és alkalmazott- valamint a társadalomtudományok területén jelennek meg, a humán tudományterületeken sok a metaforikus cím. A kulcsszavak kiválasztásánál segítségünkre van egy ún. stoplista, mely a keresésre alkalmatlan (vagyis elöljárók, kötőszavak, nem releváns) kifejezéseket a számítógép segítségével kiszűri és csak a többi, megmaradt szót tekinti kulcsszónak. Következő lépésként a számítógép rotálja a címet. Minden egyes kulcsszó, a rotáció elvét követve, egyszer az élre kerül a vezérkifejezés pozíciójába. Végül a gép a rotált sorokat kifejezéseik betűrendjébe sorolja: 38 Rotáció A B C D E A B C D E A B C D E A B C D E A B C D E Mindezeket egy konkrét példán szemléltetve a következő indexet kapjuk: A cím, amit rotálni fogunk: Cost and planning as factors in automating the catalog (Költség és tervezés, mint tényező a katalógus automatizálásában) planning as factors in automating

the catalog in automating the the catalog / cost and automating the catalog / Cost and AC 2002 cost and planning as factors in AC 2002 catalog / cost and planning as factors AC 2002 planning as factors in automating AC 2002 Ebben az esetben nincs jelentősége az alfabetikus rendezésnek, hiszen csak egy címről van szó. A sorok végén a dokumentum azonosításához szükséges alfanumerikus vagy egyéb kódok találhatóak. Ebből a példából is láthatjuk, hogy a KWIC egy egysoros index, az egy címhez tartozó kifejezések nem kerülhetnek különböző sorokba. KWOC (KeyWord Out of Context): Mint ahogy a neve is mutatja, ez az indexelési módszer a kulcsszót a szövegkörnyezeten kívülre helyezi. Az indexben a tételek a kiemelt kulcsszavak betűrendjében találhatóak pl.: automating catalog cost planning Cost and planning as factors in automating the catalog Cost and planning as factors in automating the catalog Cost and planning as factors in automating the catalog

Cost and planning as factors in automating the catalog AC 2002 AC 2002 AC 2002 AC 2002 A KWOC hátránya, hogy sok esetben egyes többtagú szakkifejezéseket, melyeknek csak együtt van értelmük, szétválasztja, szétszórja. Mindkét indexelési módszer eredetileg angol nyelvre lett kitalálva, de a KWIC bármely nyelven használható, ugyanis nem zavarja a ragozott alak a keresőoszlopban, ami az erősen ragozott magyar nyelv esetében nem elhanyagolandó szempont. A KWOC használata a magyar nyelvben további erőfeszítéseket igényelne a ragozás áthidalásához, ami pedig elrontaná az automatizált jelleget. A KWIC módszert többnyelvű indexek esetében is alkalmazzák. 39 Referátum A referátum szó „valamely kérdés lényegének kifejtését” jelenti. És valóban, a referátum, bár mint módszer az indexeléshez tartozik, nemcsak kifejezéseket tartalmaz és az azok közötti kapcsolatot, hanem az adott szakterület terminológiáját szöveges

formában. Természetesen nem mindegy, hogy az adott terminológiát hogyan közli, készítésének vannak bizonyos szabályai, melyeket a későbbiekben tárgyalunk. Bár az információ visszakeresés problémáját az információs quantum állandó növelése nem oldja meg, állandóan törekszünk az információ visszakeresés megkönnyítésére, hiszen kognitív szempontból meg kell különböztetnünk azokat a felhasználókat, akik jobban képesek absztrakt gondolkodásra, és akiknek nem jelent gondot a terminológia megtalálása és értelmezése egy indexben azoktól, akik kevésbé alkalmasak absztrakt gondolkodásra. Hosszuktól és fajtájuktól függően a referátumok különbözőek lehetnek: • annotáció: rövid tartalmi ismertető vagy ajánló, formája: abstract/ summary /Zusammenfassung. • szinopszis: hosszabb terjedelmű annotáció; • szurrogátum: helyettesítő funkciót lát el, az eredeti dokumentumot pótló produktum. Jelenthet annotációt,

rendezhető adatbázisba, katalógusba; Típusuk szerint az annotációk kétfélék lehetnek:  indikatív: röviden utal, pl. kibővített cím;  informatív: tartalmi, de nem kritikai; A referátumokat orientáltságuk szerint is csoportosíthatjuk. • diszciplinára (tudományterületre) orientált • probléma orientált, pl: building science abstract • sarkított, ami a probléma orientált abstract egyik formája A referátumok szerepe igen nagy, mindig összekapcsolódnak (pl. bibliográfiai adatokkal), így felhasználhatók témafigyelésnél, megspórolja a felhasználó idejét, bizonyos nyelvi nehézségek hidalhatók át segítségükkel, egyszóval megkönnyítik az információ keresést. Éppen ezért nem mindegy, hogy hogyan készül el egy referátum, annak bizonyos formai és tartalmi feltételeknek kell megfelelnie: Tartalmi feltételek Formai feltételek 1. meg kell néznünk, hogy miről készül a 1 rövid, pontos, világos megfogalmazás referátum,

informatívnak vagy indikatívnak kell-e lennie 2. célok, okok, módszerek, eredmények, 2 szerzői terminológia használata, az 40 konklúziók szerepeltetése eredeti írói információs sorrend megtartása 3. a szerzői mondanivalót kell tükrözni, de nem szerepelhetnek benne a szerző spekulációi, sem ismert tények 4. nem tartalmazhatja az egyes részek részletesebb leírását más részek rovására 5. nyelvtani, szintaktikai szabályok: • indikatív. cselekvő mód, múlt idő • informatív: szenvedő szerkezet, jelen idő 3. vannak speciális szakterületek, melyek sajátos felépítésre tartanak igényt Persze az sem utolsó szempont, hogy ki készíti a referátumot: • maga a szerző • a szakterület specialistája (minőségi szakfolyóiratoknál ez a legjobb megoldás) • olyan személy, akinek kifejezetten ez a szakmája • kiadó, melynek elképzelései szintén meghatározhatják a referátum milyenségét A referátum készítés folyamata:

Ezt a folyamatot leginkább az alábbi táblázatban foglalt humán absztraktáló folyamattal tudnánk leírni a legjobban, melynek természetesen előfeltétele az adott témakör legalább minimális szinten való ismerete: fázisok, lépések 1. fókuszolás 2. releváns információ azonosítása 3. releváns információ kivonatolása, szervezése, méretre igazítása technikák eredmények anyag formájának, tartalmának osztályozása (ez többszöri átolvasást igényel) nyomjelző, funkciószavak meghatározása, kiterjesztése abstract típusának, relatív hosszának, nehézségi fokának meghatározása megszervezzük, abstractba sűrítjük, standard formára hozzuk a releváns információkat (kerülnünk kell a frázisokat, töltelékszavakat és saját véleményünk kinyilvánítását(ha van saját vélemény: review), az eredeti 41 reprezentatív mennyiségű releváns információ kivonatolva az eredetiből tömör, de még nem végleges formájú

abstract létrejötte 4. releváns információ finomítása szöveg saját véleményünk szerinti megváltoztatását) revízió (az író vagy egy szakértő leellenőrzi) jó informatív vagy indikatív abstract létrejötte A referálás minőségi kritériumai pedig a következők: • teljesség: minden lényeges tartalmi elemet tartalmaznia kell a műből • pontosság • objektivitás: az informatív referátum ne értékeljen • rövidség: kerülni kell a felesleges szófordulatokat, egyértelmű és a szakterületen belüli általános rövidítéseket kell használni. Grafikus ábrázolásokat is lehet alkalmazni • érthetőség: általánosan ismert szakkifejezéseket, nemzetközileg elfogadott jelöléseket, szimbólumokat, rövidítéseket kell használni • stílusát tekintve: kerülni kell a „távirati” stílust Könyv-, folyóirat- és újság indexelés Először is azt kell tisztáznunk, hogy mit értünk könyv, folyóirat és újság alatt: •

könyv: monográfia, egyszeri, egyedi munka, ami lehet akár egy kutatási jelentés is; • folyóirat: szakfolyóiratot értünk alatta, pl.: Könyvtári Figyelő, TMT; • újság: ez alatt a kiemelkedő színvonalú országos napilapokat értjük (legyen szó bármely országról), pl.: Népszabadság, Magyar Nemzet; Közülük mindegyiket hasonló gondolkodásmóddal kell indexelni, hiszen mindhárom esetében az index funkciója és célja ugyanaz, mégpedig a felhasználó szempontjából potenciálisan releváns információk azonosítása és lokalizálása. Mindezek feltétele: • különbségtétel az egy témára vonatkozó tényleges információ és a téma futólagos említése, érintése között; • az egy témához tartozó információk csoportosítása, pl.: utalók segítségével; • mindezekből egy szisztematikus, áttekinthető rendszer kiépítése; Ez a struktúra az egyes indextételek esetében hasonló. Különbség ott jelentkezik, hogy a folyóirat-

és újságindexelés esetében vannak bizonyos kötöttségek, pl: folyóirat számozás, hasábok. De mi is az, amit indexelünk az egyes dokumentumtípusok esetében? Vegyük csak őket sorjában: 42 Könyv: ebben az esetben minden lehetséges dolgot indexelünk, pl.: függelék, előszó, szöveg közti ábra, jegyzetek, lábjegyzetek, irodalomjegyzék, tartalomjegyzék, fényképek, stb.; Folyóiratok: itt már történik némi válogatás: • amit nem indexelünk: reklám, közlemény (pl.: kongresszusokról); • amit indexelünk: szerkesztői vélemények, olvasói levelek, szakpublikációk, nekrológok, recenziók; Napilapok: erős válogatás történik: • amit nem indexelünk: hirdetés, keresztrejtvény, sport, színes mellékletek; • amit indexelünk: kül- és belpolitikai, gazdasági és kultúrára vonatkozó részeket, ill. ezeken belül is történnek válogatások; A létrejövő indexek típusai a következők lehetnek: 1. Egy bizonyos könyv indexe: ez

nem más, mint egy szakkönyv tematikai szempontból történő feldolgozása, ahol természetesen a főszöveg lesz majd lényeges. A létrejövő index egy önálló, zárt egységhez tartozó index lesz, melynek hűnek kell lennie a szerzői terminológiához. Hosszát általában a kiadók határozzák meg 2. Egy bizonyos folyóirat indexelése: pl a Könyvtári Figyelő 1 évfolyamának indexe Ebben az esetben miután megállapítunk egy tárgyszót, azt kiegészítjük hivatkozásokkal, lokátorokkal, amik lehetnek oldalszámok, évfolyamjelölések. A cikkek nyelvezetére különös figyelmet kell szentelnünk, terminológiát be lehet ugyan hozni, de csak utalásként. 3. Egy bizonyos területre vonatkozó folyóiratok indexe: ebben az esetben minden lokátorban szerepelnie kell az adott folyóirat megnevezésének, évfolyamának és az oldalszámnak. 4. Egy bizonyos újság indexe: ebben az esetben egy teljes évfolyam minden számát indexeljük. Néhol a hasábokat és a

mellékleteket is jelölni kell a lokátorokban 5. Több újság indexe: ilyenkor nem használunk szakterminológiát, a nyelvezetet az általános beszélt nyelvhez igazítjuk. Magyarországon ez nem igazán jellemző, főleg a Skandináv országokban képezik különböző újságadatbázisok részét. Az indexelési munka menete: Könyv indexelés: 1. létrehozzuk annak a struktúrának a vázát, melyben az indexelési tétel megjelenik majd. Ehhez meghatározzuk az egyes fő tárgyszavakat és altárgyszavakat, majd azokat egy egységes, tematikus majd alfabetikus rendbe soroljuk. Először azonban tisztáznunk kell az egyszerű- és összetett rendszó közötti különbségeket: • egyszerű rendszó: egy szóból áll • összetett rendszó: különböző szóösszetételeket jelenít meg, ami állhat két vagy több részből. A két részből álló összetett rendszó is többféle lehet: 43  a két rész közös asszociációt fejez ki, pl: Magyarország és az EU;

 az első tag fogalomkörének kiterjesztésével fejez ki valamit, pl.: nyelvészet és informatika;  az egész tétel az első rész véleményét fejezi ki a másodikról, pl.: Habsburg Ottó és az OMM; Azt sem árt tisztázni, hogy mik lehetnek fő tárgyszavak és milyen az egyes rendszavak besorolása: • személynevek, pl.: Shakespeare, William • pápák, szentek uralkodók nevei, pl.: Benedek, XVI, pápa invertált f. • földrajzi nevek, pl.: Vietnam, Dél • intézmények Ha a nevek megegyeznek, de a hosszuk különböző, a besorolás a következőképp történik: Smith, K. Smith, H. K Smith, Hugh Jack Ha ugyanaz a karaktersorozat különböző dolgokra vonatkozik, sorrendet kell felállítani aszerint, hogy személynévről, földrajzi névről, tárgyszóról vagy címről van-e szó: 1. Személy: London, Jack 2. Földrajzi név: London (Anglia) 3. Tárgyszó: London népessége 4. Cím: London, History of A használt írésjelek pedig a következők: , 

invertálás ;  az egyes tételek elválasztása !  figyelem felhívás, pl: sic! : . használatuk nem jellemző ? ! A személynevek esetében fontos megjegyeznünk, hogy csak akkor szerepelhet fő tárgyszóként, ha róla szól a mű, altárgyszóként, másodlagos altárgyszóként, harmadlagos altárgyszóként viszont felhasználható. Miután meghatároztuk az egyes tárgyszavak, létrehozunk egy struktúrát, melyet az egyes fő- és altárgyszavak alkotnak majd. Az altárgyszavak a főtárgyszavak alá lesznek besorolva, a kettő sorrendjét nem lehet felcserélni. Ha az egyes altárgyszó kiemelt 44 jelentőségű, utalót kell készítenünk. Maguknak a tárgyszavaknak a megadása a szemantikai szintet képviseli, az azok közötti kapcsolat pedig a szintaktikai szintet, amikor is összeolvassuk ezeket a kifejezéseket. A kettős indexelés szerint van egy főtárgyszavunk és egy altárgyszavunk, amihez hozzárendeljük a lokátorokat: kiállítások

iparfejlesztés 25 Létezik azonban hármas indexelés is: kiállítások ipari ~ 148, 109 25, 41 képzőművészeti~ 119 2. a használt kifejezéseket megállapítjuk, szervezzük a szókészletet 3. hivatkozási rendszert hozunk a létre az utalók hozzáadásával, ahol: lásd  szinonimák csoportosítására használható lásd még => indextételek összekapcsolására használható, pl.: kiállítások mezőgazdasági~ 25 mezőgazdasági kiállítások  kiállítások Folyóirat indexelés: A folyóiratok esetében három lehetőség közül választhatunk: 1. formális indexelés: 2. tematikus indexelés: itt nem érdekes a forma, a megfelelő tárgyszó alá sorolunk be 3. a kettő kombinációja, amikor is egy egységes tárgyi indexet hozunk létre: N = nekrológ R= recenzió pl.: Sz= szerzői szénhidrátok 25,44,205,224 (L) L= levelek Újság indexelés: Itt kiemelt jelentőségük van a napilapokban szereplő képeknek, fotóknak. Az olyan cikkek esetén,

amelyekhez valamilyen illusztráció tartozik, mindenképpen fel kell tüntetni az illusztráltságot. Pl: szépségápolás 224 (i) 45 Az olyan illusztrációk esetén, amelyek nem tartoznak egyetlen cikkhez sem, nekünk kell tárgyszót párosítani hozzá és indexelni. Végül, de nem utolsó sorban tekintsük át a nem kontrollált természetes nyelveket és a kontrollált nyelveket azok előnyeinek és hátrányainak felsorolásával: Természetes nyelvek Előnyei: • magas specifikusságot ad, nagyon jó egyedi terminológia (nevek, személynevek) visszakeresésénél; • magas a visszahívási arány • kurrens, tehát az új terminológiák azonnal hozzáférhetőek • szerzői terminológia esetén nincs félreértés az indexelő részéről • az indexelő vagy kereső természetes nyelvi szavakat használhat • alacsonyak az input költségek • adatbázisok közti könnyű adatcsere biztosítva van, nem áll fenn a nyelvi inkompatibilitás lehetősége

Hátrányai: • az intellektuális erőfeszítés terhe a keresőre nehezedik • szintaktikai problémák keletkezhetnek, a helytelen terminológiai asszociációk miatt a hamis találatok veszélye megnő • az alaposság pontossági veszteséghez vezethet Kontrollált nyelvek Előnyei: • megkönnyíti a keresést azáltal, hogy kontrollálja a szinonimákat, magyarázza a homográfokat, SN-ek formájában magyarázatot ad • szélesebb- szűkebb és asszociatív fogalmakat ad • képes kifejezni szabad szövegben nehezen kifejezhető terminológiákat • szintaktikai problémákat old meg, pl.: hierarchikus rendezéssel • normál indexelési szinten elkerüli a precíziós veszteséget, pl. azzal, hogy túlteljesíti az alaposságot • numerikus, multilingvális rendszerekben ezek használata előny Hátrányai: • specifikusság hiánya • alaposság hiánya • nem azonnal kurrens 46 • • • • szerzői terminológia ki van téve hibás interpretációknak,

ami információ veszteséget eredményez a keresőnek meg kell tanulnia egy mesterséges nyelvet magasabbak az input költségek egyes rendszerek között inkompatibilitás keletkezhet, nem egyszerű az adatbázisok közötti adatcsere 47

Informatika | Felsőoktatás » Benediktsson-Balogh - Szövegfeldolgozás

Legnépszerűbb doksik ebben a kategóriában

Egyetemi záróvizsga tételsor, 1. rész

Kovács Gábor - Informatikai ismeretek, kézirat

Egyetemi záróvizsga tételsor, 2. rész

GDF Kidolgozott Államvizsga tételek, 2007

Tartalmi kivonat

Cikkajánló

Az ókori Alexandria

Doksiajánló

Tartalmak

Navigáció

Informatika | Felsőoktatás » Benediktsson-Balogh - Szövegfeldolgozás

Doksi olvasó beágyazása

Legnépszerűbb doksik ebben a kategóriában

Egyetemi záróvizsga tételsor, 1. rész

Kovács Gábor - Informatikai ismeretek, kézirat

Egyetemi záróvizsga tételsor, 2. rész

GDF Kidolgozott Államvizsga tételek, 2007

Tartalmi kivonat

Cikkajánló

Az ókori Alexandria

Doksiajánló

Tartalmak

Navigáció