Content extract
Kivonatolás, kérdés megválaszolás, dialógus rendszerek 2010. november 16 Kivonatolás • Automatic text summarization • Kivonat: rövid, de pontos reprezentánsa a dokumentum tartalmának • rövid: kevesebb, mint az eredeti fele • tartalom: legfontosabb tartalomnak át kell jönnie „Olvastam a Háború és Békét Oroszországról szól” Woody Alen A kivonatolás alkalmazásai • újságcikkek • TV műsor/mozi előzetes • tudományos publikációk • önéletrajzok • sport közvetítések • egyetemi jegyzetek Miért kivonatoljunk • információrobbanás, Internet • szöveges adatok, számítógép gyorsabb • ha a cél általános szövegek összefoglalása, nem konkrét információtípus (IE eredménye nem mindig értelmezhető hétköznapi embereknek) • mobil, PDA Kivonat típusok • megközelítés: kinyerés vs. absztrakt • általános, query alapú, felhasználó alapú • szakértői vagy bevezető jellegű • single
vs. multi document • input típusa (pl. részben strukturált) • nyelvközi kivonatolás Problémák a kivonatolásban • A szöveg tartalmát kell megragadni • Hogyan határozzuk meg a kivonat hosszát (rövid dokumentumok nehezebb összefoglalni)? • Automatikus rendszerek kiértékelése • Jelenlegi rendszerek közel sem olyan jók, mint az ember Mondat kinyerés • Alapegységek a mondatok (vagy?) • Cél: legfontosabb mondatok kiválogatása a szövegből • Legelső kezdeményezések (’58) – fontossági sorrend felállítása a mondatok közt (szignifikáns szavak előfordulásainak száma) – bináris osztályozás: állító/magyarázó mondat – domain-specifikus rendszerek • kiértékelés: pontosság, fedés Hasznos jellemzők • kulcsszavak/tulajdonnevek • szövegbeli pozíció – bevezetés/konklúzió – bekezdésen belüli pozíció • mondat hossza • mondatok közti szemantikus távolság A mondatkinyerés hátrányai • A
kohézió hiánya (kohézió analízis) • Következetesség hiánya Supermarket A announced a big profit for the third quarter of the year. The directory studies the creation of new jobs. Meanwhile, B’s supermarket sales drop by 10% last month. The firm is studying closing down some of its stores. (DOCUMENT) Supermarket A announced a big profit for the third quarter of the year. The firm is studying closing down some of its stores. (EXTRACT) Mondat realizálás • Tömörítés/egyszerűsítés When it arrives sometime new year in new TV sets, the V-chip will give parents a new and potentially revolutionary device to block out programs they don’t want their children to see. • Felügyelt szekvenciajelölő megközelítés – tanító adatbázis: kézi összefoglalók – párhuzamosítás Absztrakt kivonatolás • „új” mondatok generálása a „megértett” tartalom alapján • Anafóra feloldás/szintaktikai elemzés/WSD • query alapú kivonatolás: IE
eredményből generálás Absztrakt kivonat értékelése • kohézió, következetesség • eltalálja a témát? • fontos információ nem marad ki? • Helyettesítheti a kivonat a dokumentumot? (osztályozhatóság, kérdések megválaszolása) • Automatikus kiértékelés: ROUGE, emberi kivonatokhoz hasonlítás (hasonló a BLUE-höz, de fedés-alapú) A multi dokumentum kivonatolásról • Motiváció: „tegnapi sporthírek” • A dokumentumok stílusa különböző (még ha témájában meg is egyezik) • Redundáns információ/Kiegészítő info • Ellentmondó információ négyen haltak meg 3 embert öltek meg A multi dokumentum kivonatolásról • Lépései: – Mondatok kinyerése (megegyező mondatok) – Sorrend felállítása • kronológia • kohézió • klaszterzés + „átlagos” sorrend – Realizáció • Tisztítás, összevonás, co-refereciák Realizáció Presidential advisers do not blame O’Neill, but they’ve long
recognized that a shakeup of the economic team would help indicate Bush was doing everything he could to improve matters. U.S President George W Bush pushed out Treasury Secretary Paul O’Neill and top economic adviser Lawrence Lindsey on Friday, launching the first shake - up of his administration to tackle the ailing economy before the 2004 election campaign. Főcím generálás • A fő gondolat megtalálása (ált. rövidebb mint egy mondat) • Különbözik a folyó szövegtől – egyszerű nyelvtan – figyelemfelkeltő stílus • ML (legvalószínűbb főcím) – szó választás (jellemző, átfogó) – generálás Címkézés • tagging, kulcsszó kinyerés • címkehalmaz = kivonat • ugyanazok a problémák, mint mondatoknál – kiválasztás – kohézió – absztrakt címkék • egyszerűbb feladat • használhatóság? Címkézés alkalmazásai • blogokhoz ajánlás • újsághírek címkézése • tudományos cikkeknél kulcsszó kinyerés
• más NLP alkalmazásokhoz bemenet – dokumentum osztályozás/klaszterezés – információ visszakeresés Címke ajánlás • Kézzel címkézett halmaz rendelkezésre áll (pl. blog) 1. címkézetlen dokumentumokhoz leghasonlóbbak megtalálása 2. címkék átvétele (kapcsolódás mértéke, kohézió) • hátrány: fix címke halmaz Kulcsszó kinyerés • Egyetlen dokumentumra fókuszál 1. címkejelöltek azonosítása • • főnévi szerkezetek absztrakt címkék 2. végső címkézés szűrése jelöltek szöveg- és korpuszbeli • előfordulása • gyakorisága • együtt-előfordulása • hátrány: dokumentumközi koherencia Próbáljuk ki! • Kivonatolás http://cimkezes.origohu/cimkefelho/ • Q&A http://ask.com • Dialógus rendszerek http://www.lafoxkahu/ http://www.ikeahu Kérdés megválaszolás Kérdés megválaszolás • Question answering (Q&A) • Input: egy természetes nyelvi kérdés • Output: választ
tartalmazó dokumentumok halmaza (ugyanaz, mint IR) • Vagy releváns bekezdés (kivonat?) • Vagy a válasz • Következő generációs kereső rendszerek? – Ki használ speciális karaktereket? – Ki fog kérdést begépelni? Kérdések típusai • Tények (nevek, dátumok, helyek stb.) • Listák • Definíciók • Eldöntendő • Hogyan? Miért? Architektúra • kulcsszó alapú rendszer (kérdés szavai) • Azokat a mondatokat vizsgálja ahol megjelennek ezek a szavak • A mondatok rangsorolás (pozíció, sorrend, relevancia) • A kérdés átformálása működik ha elég nagy az adathalmaz: Hol született Petőfi? „Petőfi * született” Egy Q&A rendszer felépítése (Moldovan – TREC 2004) 1. Kérdés feldolgozás 2. Keresőszavak előállítása 3. Dokumentum szűrés és rangsorolás 4. Válasz feldolgozása Kérdés feldolgozás • Kérdés típus azonosítás – ML: bag-of-words, tulajdonnevek stb. • Válasz típusának
meghatározása (kérdéstípuson belül) • A kérés fókuszának behatárolása Melyik a leghosszabb folyó Európában? általában szabály alapú rendszerrel Kérdések típusai Keresőkifejezések előállítása • Heurisztikák: – nem gyakori szavak – tulajdonnevek – jelzős főnévi szerkezetek – igék – a kérdés fókusza • Szinonimák Dokumentumok szűrése • A kulcsszavaknak egymáshoz közel kell elhelyezkedniük (pl. egymást követő bekezdésekben) • Túl gyakori/túl ritka kulcsszavak • Rangsorolás: – dokumentum forrása (Wiki, hivatalos) – kérdés szavainak száma – nem illesztett kulcsszavak Válasz mondat kiválasztása • Válasz lokalizálása a dokumentumban (bekezdés/mondat) • Nyelvi elemzés (elsősorban szintaktikai) • Ellenőrzés, hogy a válasz típusának megfelel-e a találat (pl. WordNet hyponímia) • Legjobb válaszok listája(?) Q&A kiértékelése • MRR (mean recoprical rank) • adott:
– tesztkérdések – dokumentumhalmaz – emberi válaszok a dokhalmaz alapján • Minden rendszer N db rangsorolt választ ad minden kérdésre • metrika: jó válasz rangsorának reciproka Próbáljuk ki! • Kivonatolás http://cimkezes.origohu/cimkefelho/ • Q&A http://ask.com • Dialógus rendszerek http://www.lafoxkahu/ http://www.ikeahu Dialógus rendszerek Dialógus rendszerek • beszélgető ágensek • Ember-gép interakció • Tutoring • Adatbázis keresések • Információkinyerés dialógusokból • Tárgyalás követés Alkalmazások • Döntéstámogató rendszerek • Navigációs rendszerek • Ügyfélszolgálatok (irányítás) • Vizsgáztatás Példák [19:31:22] <TCH> öcsémnél lefagyott a firefox [19:31:23] <TCH> és erre írt a készítőknek [19:31:29] <TCH> hogy "lefagyott ez a szar„ [19:31:44] <TCH> erre visszaírtak magyarul, hogy "na jó, de hogy fagyott le ez a szar?„
[19:32:06] <TCH> szal fx-nél legalább support van Példák 17:03 < no screen> 3 honapos macska vkinek? 17:03 < no screen> free 17:03 < no screen> :) 17:04 < Steven > :DDDDDDDD 17:04 < no screen> ne rohogj :) 17:04 < no screen> :) 17:05 < reflexx> no screen: gari? allapot? 17:05 < no screen> :) allapot alig hasznalt 17:05 < no screen> gari azt valalok 1 evet 17:05 < no screen> :) 17:05 < reflexx> csipas verzio? 17:05 < no screen> csak ha teljesen tonkremegy akkor cserelem 17:05 < reflexx> :)) 17:05 < no screen> :)) 17:06 < reflexx> szin? 17:06 < no screen> szurke csikos 17:06 < reflexx> marka? 17:06 < no screen> homemade Problémák a dialógusoknál • Számítógépes nyelvészet – Kérdés vagy információközlés megértése (szemantikai reprezentáció) – NL generálás • Mesterséges Intelligencia – ha nem értem a kérdést visszakérdezzek
(pontosítás)? – mikor váltsak át kérdezőbe/információ közlőbe? – ha nincs válasz az nemet jelent? meddig várjak? – „Visszacsatolásos tanulás”: a dialógus ágens céljait milyen kérdések/közlések sorozatával érheti el a leghatékonyabban Jelenleg működő rendszerek • Lehetséges kérdések halmaza rögzített • ügyfélszolgálatok, tutoring • szűk domainen működik! • bejövő kérdéshez leghasonlóbb mintakérdés kiválasztása (egyébként „nem értem mire gondolsz”) és az előre megadott válasz (szöveges vagy navigáció) megadása Jelenleg működő beszélgető ágensek • néhány beépített (gyakori) kérdésre válasz • próbálják a kérdező szerepét átvenni (ált. eldöntendő kérdések) • a válaszok egyszerű elemzésével (bagof-words) tudnak „reagálni” • céljuk általában: beszélgetési/kérdés/válasz sablonok gyűjtése későbbi (gépi) tanuláshoz Turing teszt Kínai szoba
Próbáljuk ki! • Kivonatolás http://cimkezes.origohu/cimkefelho/ • Q&A http://ask.com • Dialógus rendszerek http://www.lafoxkahu/ http://www.ikeahu