Beszédazonosítás

Please log in to read this in our online viewer!

2002 · 43 page(s) (485 KB)

Hungarian

926

July 16 · 2004

Comments

No comments yet. You can be the first!

Content extract

AZ EGYÉNI HANGSZÍNEZET Bevezetés Ha hallunk egy szót, annak akusztikai hullámformája a fülön keresztül a hallóközpontba jut, majd a Wernicke-területre kerül, ahol a hangsor, majd annak szemantikai tartalma feldolgozódik. Egyúttal számos más döntéssorozat is történik agyunkban Ha a szót egy számunkra jól ismert személy ejtette ki, akkor képesek vagyunk ezt a személyt azonosítani. Ez azonban nem mindig ilyen egyszerû, a sikeres felismerés csak bizonyos korlátozásokkal mûködik. Sokszor nem elegendõ egyetlen szó, hogy felismerjünk valakit, máskor pedig a telefonvonalnak az élõszónál jóval szûkebb frekvenciatartománya is lehetõvé teszi, hogy beazonosítsuk, ki van a vonal másik végén. Az elmúlt évtizedek alatt a fonetikával, illetve beszédakusztikával foglalkozó szakemberek alapos és kimerítõ vizsgálatokat végeztek a beszédelemzés legtöbb területén (vö. Stevens 1998). Sikerült akusztikai elemzéssel mintegy rekonstruálni

a beszédet, sõt – bizonyos korlátokkal – beszédfelismerõ rendszerek is mûködnek. Azzal a ténnyel azonban, hogy az emberi hang magában rejti az egyéni jellemzõket is, csak az utóbbi évtizedekben kezdtek behatóan és körültekintõen foglalkozni. A kiinduló kérdés az volt, hogy a beszéd szegmentális vagy szupraszegmentális részében keresendõ-e az egyéni hangra utaló összetevõ, vagy mindkettõ tartalmazza azt. Ahhoz, hogy valakit felismerjünk a hangja vagy a beszéde alapján, már többször hallanunk kellett õt. Minél „jellegzetesebb” valakinek a hangja vagy a beszédmódja, annál könnyebb a felismerés. Még a jól ismert személyt sem tudjuk azonban minden körülmények között biztosan azonosítani. Az azonos nemû testvérek, az apa és a fiú vagy az anya és a lánya könnyen összetéveszthetõk, ha a körülmények nem tekinthetõk ideálisnak, például rövid közlést mondanak, zajos környezetben vagy telefonban beszélnek. A

probléma elméleti aspektusa az emberi hangszínezet kérdéskörében gyökerezik. Milyen mértékben jellemzõ az emberre a hangja, illetõleg a beszéde? Miképpen határozható meg az egyéni hangszínezet? E kérdéshez azután számos további kapcsolódik. A hangszínezet mely beszédképzési konfigurációval mutatja a legszorosabb kapcsolatot? A zönge, a toldalékcsõ avagy az artikulációs mozgások a meghatározóak, avagy valamennyi együtt eredményezi a hangszínezet nyújtotta percepciós élményt? Miként fejezhetõ ki a hangszínezet: artikulációs, akusztikai-fonetikai, percepciós-fonetikai megközelítésben avagy mindháromban együtt? A mindennapi életben jól ismert kifejezések, amelyek a beszélõ hangszínezetét igyekeznek meghatározni, általában metaforák: bársonyos hang, borízû hang, lágy hang, érces, érdes hang, sipító hang, rekedtes hang, kellemetlen hang, „barna” hang, éles hang, dörgõ hang, csengõ hang, megnyugtató hang,

bántó hang, sõt „úgy beszél, mintha gombóc lenne a torkában”, és még lehetne folytatni. Mi áll ezeknek a kifejezéseknek a hátterében a fonetika szempontjából? Mielõtt megpróbálkoznánk a válasz megkeresésével, szembekerülünk a szakszó használatának problémájával is. Mára már kimondható, hogy a ’hangszín’ szót a beszédhangok jellemzésére, míg a ’hangszínezet’ szót a beszélõ személy beszédének jellemzésére használjuk. A hangszínezet része annak a sajátos és összetett jelenségnek, amelynek hatására képesek vagyunk a beszélõ személyt azonosítani. Az angol nyelvben például ennek az összetett jelenségnek a megnevezésére a ’hangminõség’ (voice quality) kifejezést használják (Crystal 1985). (A magyar terminológia nem egységes; a ’hangminõség’ bizonyos szövegkörnyezetben a beszédhangra is vonatkozhat, ugyanakkor a ’hang’ szó ’Stimme’ értelemben is használatos, vö. Vértes O

1979) Bár a ’hangszínezet’ önmagában nem fedi le azt a komplex jelenséget, amely a beszélõ személy felismerését lehetõvé teszi, jobb híján mégis ezt a terminust fogjuk használni – jelentésének kiszélesítésével – azért, hogy egy újabb szakszó bevezetését elkerüljük. Ebben a szélesebb értelemben a ’hangszínezet’ magában foglalja mindazokat a beszédjellemzõket, amelyek egy adott személyt kétséget kizáróan azonosítanak. Az alaphangmagasság döntõ tényezõje a hangszínezetnek Az egyéni hangszínezet mint a beszélõazonosítás kulcskérdése A probléma modern alkalmazott fonetikai megközelítése a fonetika egyik legújabb ágának, az ún. törvényszéki fonetikának (’forensic phonetics’) a tárgya (ez a kérdéskör önálló diszciplínaként elsõ ízben 1995-ben programjában). Ezek a felismerésének akusztikai-fonetikai kutatások a jelent meg beszélõ személy megoldási a Fonetikai

lehetõségeivel egyértelmû, Világkongresszusok kétséget foglalkoznak. Az kizáró utóbbi évtizedben jelentõs eredmények születtek ezen a területen (Coulthard 1992; Schlichting– Sullivan 1998; a magyarra: Gósy–Nikléczy 1999). A megközelítések sokfélék, a matematikai számításoktól, az akusztikai méréseken át a szoros értelemben vett kísérleti-fonetikai és percepciós kísérletekig (pl. Schroder 1985; Nolan 1995) A beszélõ felismerésének alkalmazott fonetikai vizsgálata azt a célt szolgálja, hogy meghatározhatóak legyenek azok a feltételek, amelyek a) lehetõvé teszik, b) korlátozzák és c) nem teszik lehetõvé/gátolják a beszélõ személyének azonosítását. A tudománynak arra a kérdésre kell mindenekelõtt válaszolnia, hogy vajon a beszéd valóban olyan mértékben jellemzõ-e az egyénre, hogy az különféle célú azonosításokban (mint kriminalisztika, biztonsági rendszerek, beléptetõ vagy banki azonosító

rendszerek) kétséget kizáróan mûködtethetõ. Amennyiben e kérdésre igenlõ a válasz, a következõ kérdéssorozat a beszélõ azonosításának feltételeit, az azonosítás módszertani megoldásait és az azonosítás biztonsági fokának meghatározását érinti. A központi kérdés tehát – függetlenül attól, hogy az egyéni hangszínezet elméleti igényû vagy a beszélõfelismerés alkalmazott fonetikai szempontú kutatásáról van szó – az, hogy melyek azok a paraméterek, amelyek kétséget kizáróan felidézik/meghatározzák a beszélõ személyt. A nem kriminalisztikai célú alkalmazásokban (pl. banki rendszerek) a beszélõ felismerésének problémája – még telefonon át is – megoldottnak tûnik. A hetvenes évektõl indultak meg az erre irányuló kutatások és fejlesztések (pl. Doddington et al 1976), mára többféle, megbízhatóan mûködõ rendszer létezik a világban. Némelyikük állítólag 99%-os biztonsággal képes a

beszélõ személy azonosítására. A kutatók különbözõ algoritmusok alkalmazásával vagy különféle többcsatornás szûrõ eljárásokkal igyekeztek meghatározni a beszélõ személy azonosságát. A kidolgozott eljárásokkal sikerült – technikailag jó minõségû rögzített beszéd esetében – 90% fölötti eredményt elérni, de a vizsgálathoz általában 40-50 s hosszúságú hanganyagra volt szükség. Ahhoz, hogy megértsük, miért megoldatlan probléma mégis a törvényszéki beszélõfelismerés, nézzük meg, mit jelent az egyén azonosítása a biztonsági rendszerekben. A beszélõ valamilyen módon azonosítja önmagát (kóddal, névvel stb.), vagyis azonnal csökkenti a lehetséges bejelentkezõk számát A beszéd alapján történõ személyfelismerésnek tehát arra kell válaszolnia, hogy valóban a feltételezett személy jelentkezett be. Egy többé-kevésbé meghatározott szöveget kell a beszélõnek bemondania (pl szókapcsolatot,

szókapcsolatokat vagy rövid mondatot). Általában az ún normalizált, hosszú idejû átlagos spektrum elemzést használják, amelynek során az aktuálisan bemondott szöveg különféle jegyvektorait vetik össze a beszélõtõl korábban tárolt szöveg paramétereivel. Ezt követõen egy ún. hasonlósági indexet számítanak Az egyezést a küszöbértéktõl való távolság szerint határozzák meg. Ezekben az esetekben tehát a beszélõ felismerését számos tényezõ részben megkönnyíti, részben pedig kizárólagosan lehetõvé teszi. A beszélõ kooperatív, ez azt jelenti, hogy azt szeretné, hogy megtörténjen a biztos azonosítása. Létezik a beszélõtõl már korábban tárolt, jó akusztikai és felvételi körülmények között rögzített beszédminta. Ismert az aktuális bejelentkezés körülménye, az összevetés tehát valóban gyorsan és jó hatásfokkal elvégezhetõ. A törvényszéki esetekben a helyzet lényegesen bonyolultabb és

bizonytalanabb. A beszélõ személy ismeretlen, következésképpen nincsen „tárolt” beszédminta. Jó esetnek számít, ha van gyanúsított vagy gyanúsítottak, ez kiindulást jelenthet a személyazonosításhoz. A feltételezett eredeti beszélõnek azonban ekkor nem célja, hogy természetesen, tisztán, megfelelõ hangerõvel beszéljen; az akusztikai-fonetikai összevetés tehát nehezedik. Mintegy 15%-ra tehetõ ezekben az esetekben, hogy a beszélõ akaratlagosan megváltoztatja a beszédét (Künzel 1995). A leggyakoribb ilyen torzítások a suttogás, a megemelt hangfekvés és a zárt szájjal képzett beszéd. A rögzített beszéd rendszerint zajos, szûk frekvenciatartományban jelentkezik, a hasznos paraméterek tehát erõsen csökkentett számban vannak jelen (nemritkán csak 20-30 mp-nyi anyag áll az elemzõ rendelkezésére). A leglényegesebb különbség a kétféle beszélõazonosítás között a lehetséges beszélõk számának különbsége. Az

egyik esetben tulajdonképpen a beszélõ személyének igazolása történik meg; a kriminalisztikai esetekben pedig valóságos azonosítás a cél. A beszélõ azonosításához rendszerint háromféle megközelítésmódot használnak: (i) hallás alapú elemzések (általában képzett szakemberek, elsõsorban fonetikusok részvételével), (ii) részletes akusztikai-fonetikai analízis alapján, (iii) félautomatikus, speciálisan fejlesztett számítógépes elemzõ rendszerek alkalmazása. A beszélõ felismerése más beszélõk által Az anyanyelv-elsajátítás folyamán kialakulnak azok a neurális spektrogramok az agyban, amelyek lehetõvé teszik, hogy a gyermek a beszélõ személy artikulációs sajátosságaitól függetlenül képes legyen a beszédhangokat azonosítani, a szavakat, mondatokat felismerni. Nem tudjuk még pontosan, hogy vajon ezek a neurális spektrogramok – mint ahogy megnevezésük sejteti – valóban hasonlatosak-e a

beszédrõl készült akusztikai regisztrátumokkal, a spektrogramokkal. A spektrogramok mindig egyediek, a neurális spektrogramok pedig szükségszerûen valamiféle általánosított képek kell, hogy legyenek. Feltételezhetõen a hangsor(ok)ra szignifikánsan jellemzõ invariáns jegyeket tartalmaznak, amelyek egyúttal információval szolgálnak a beszélõ személyére vonatkozóan is. A kísérletek tanúsága szerint, néhány hónapos csecsemõk képesek azonosítani az édesanyjukat a beszédük alapján akkor is, ha nem látják õket. Minél hosszabb az ugyanazon beszélõtõl származó szöveg, a hallgató annál biztosabban képes a beszélõt felismerni. Ennek alapján az is feltételezhetõ, hogy a beszéd valamiképpen hangsúlyozottabbá hallgatásakor aktiválódó válnak beszélõt a neurális azonosító spektrogramsorozatban paraméterek. Ezek a feltételezések vezettek a matematikai megoldások kereséséhez, amelyek azonban nem hozták

meg a várt eredményt. A neurális spektrogramok kialakulásában az emlékezésnek meghatározó jelentõsége van. Az emlékezés folyamatában a régebben észlelt tárgyak, jelenségek és események képét/képeit és ezek összefüggéseit felidézzük anélkül, hogy az azokat létrehozó ingerek vagy ingeregyüttesek éppen hatnának ránk. Az emlékezés az objektív valóságnak a tudatban történõ visszatükrözõdése. Az emlékképek a múltbeli észlelések, élmények reprodukciói A beszélõ személy felismerésére vonatkoztatva két dolog alapvetõen fontos: szükséges a megfelelõ inger, valamint a felidézés képessége. Az észleletek, feldolgozott ingerek megjegyzéséhez az szükséges, hogy létrejöjjön az emléknyom, amely az ismétlések során bevésõdik. Minél gyakoribb az ismétlõdés, annál nagyobb mértékû a bevésõdés Ha ritkán hallunk valakit beszélni, lassabban, nehezebben azonosítjuk a beszédet a beszélõvel. Minél gyakoribb a

beszéd akusztikai élménye, annál gyorsabb és biztosabb lesz a beszélõ személy felismerése. A beszéd beszélõspecifikus, invariáns jegyei A beszélõre jellemzõ neurális spektrogram nyilvánvalóan tartalmazza mindazokat a nyelvi/beszédbeli tényezõket, amelyek alapján azonosítjuk a személyt. A hatvanas, hetvenes évek nem túlzottan széleskörû kutatásai a beszédhangok akusztikai szerkezetében jelölték meg a meghatározó paramétereket. Elsõsorban a magánhangzók harmadik formánsát gondolták jelentõsnek, amelyrõl azóta egyértelmûen bebizonyosodott, hogy nem is igazán jellemzõ és messze nem elegendõ az egyén azonosításához. Ha azonban csak egy formánst nézünk is (jelen esetben a harmadikat), akkor is három, numerikusan kifejezhetõ adattal állunk szemben: a formáns frekvenciaértékével, sávszélességével és az intenzitásával. Figyelembe véve azt az egyáltalán nem elhanyagolható tényt, hogy e három összetevõ állandó

változása a beszéd velejárója, akkor nehéz elméletileg is feltételezni azt a számértéket, amely az egyénre jellemzõ lehet. Ha pedig nem tudunk meghatározni egy vagy néhány konkrét frekvenciaértéket (maximum ±30 Hz eltéréssel), akkor a személyazonosítás számértékek alapján nem valószínûsíthetõ. Egyelõre még nem vettük figyelembe azt, hogy a formánsok értéke függ a hang hangkörnyezetétõl is. Az akusztikai paramétereket elemzések vizsgálják elsõsorban (különbözõ a spektrográfián nyelvekben): alapszanak; formáns a következõ sávszélesség, központi formánsfrekvenciák, maximumpontok, a rés- és zárhangok zörejfrekvenciái, átmenetek és még valami, amit úgy neveznek, hogy ’sajátos spektrográfiás alakzat’, de közelebbrõl nem meghatározható paraméter. Tekintetbe veendõk még a beszédtempó, illetõleg az artikulációs sebesség, a hezitációs jelenségek és a dallammenet. A kutatók

azonban egyetértenek abban, hogy a spektrogramok elemzése nem nyújt egyértelmû kulcsot a beszélõ személy felismeréséhez. Az alapvetõ kiindulás mégis a beszéd akusztikuma A Los Angelesben kifejlesztett beszélõazonosító rendszer például 14 paramétert használ (az idõtõl a spektrumig). Ezzel a rendszerrel állítólag 98%-os pontosságot lehet elérni (a kísérletek 50 férfi beszélõtõl származó beszédmintát tartalmazó adatbázison folytak). A fizikai értelemben jó minõséggel rögzített minták összehasonlítását a beszéd teljes spektrumában el lehet végezni. Jóval nehezebb feladatot jelent, ha az összehasonlítandó hangfelvételek rossz jel/zaj viszonyúak, és a kérdéses felvétel nem egységes telefonhálózaton belül készült. A minõségen kívül fontos a szerepe a minták idõtartamának, az egységnyi idõtartam alatt elhangzó információnak, valamint a szöveg spontaneitásának. Állandóság és változás az artikulációban

A beszélõre jellemzõ neurális spektrogram nyilvánvalóan tartalmazza mindazokat a nyelvi/beszédbeli tényezõket, amelyek alapján azonosítjuk a személyt. Amennyiben ezt nem kérdõjelezzük meg, akkor valójában mi okozza az egyénre jellemzõ akusztikai tulajdonságok mûszeres kimutatásának nehézségét? Elsõsorban az, hogy a beszédinformációt továbbító akusztikus rezgések a hangképzõ rendszer tehetetlensége következtében kvázistacionárius jellegûek. Ez azt jelenti, hogy a rezgések paraméterei általában korlátozott ideig tekinthetõk állandónak. Az elõbbiekbõl következik, hogy a beszéd közben létrehozott hangsorok nem ismételhetõk meg még egyszer teljesen azonosan. Az 1 ábrán a „Jó napot” hangsor spektrogramja és hangsoron belüli intenzitásviszonyai láthatók ugyanazon személy ejtésében 1 nap eltéréssel. (A lehetõ legjobb, torzításmentes megjelenítés érdekében a hangsort 50000 minta/s-os mintavételezési

sebességgel digitalizáltuk és Hamming ablakfüggvényû 71 Hz-es szûrõvel elemeztük.) Az ábra bal és jobb oldalának vizuális összehasonlítása alapján is megállapítható, hogy az idõben késõbb készült, jobb oldali hangfelvételrõl regisztrátumon a formánsok és az intenzitás értékei lényeges eltérést mutatnak. készült 1. ábra A „Jó napot” hangsor spektrogramja 0-3 kHz-es tartományban MAGYAR BESZÉLÕ AZONOSÍTÁSÁNAK KÍSÉRLETI ADATAI I. A jelen kísérletsorozat egy sajátos helyzetben igyekszik a probléma megoldásához közelebb jutni. Ez a sajátos helyzet az, amikor valaki egy másik beszélõt személyesít meg azzal a határozott céllal, hogy a hallgatóban a másik személyt idézze fel. Általában csak tudatos beszélõk, rendszerint színészek képesek ilyen fajta utánzásra (a legkülönfélébb célokkal). Az utánzó tudatosan vagy kevésbé tudatosan igyekszik olyan artikulációs mozgássorokat létrehozni,

amelyek hangzásukban a másik beszélõre jellemzõ beszédet képviselik. Nem arról van tehát szó egyszerûen, hogy az utánzó az utánozni szándékozott személy beszédprodukcióját imitálja, ez a sok tekintetben eltérõ artikulációs szervek és mûködtetésük következtében nem is lenne lehetséges. Az utánzó az utánzott beszéd hangzását igyekszik megvalósítani a saját artikulációs bázisán belül a saját artikulációs mozgásainak részleges módosításával. Az utánzó helyzete azért is nehéz, mivel soha nem fogja úgy hallani az utánzott beszéd akusztikumát, ahogyan azt a hallgatóság, hiszen a beszélõ a csontvezetés révén is dekódol. Mik az utánzó lehetõségei egy másik személy beszédének „reprodukálására”? Az átlagos alaphangmagasság közelítése, az egyénien ejtett beszédhangok felismerése és artikulációja, a sajátos beszéddallam és hangsúlyozás, valamint a beszédtempó utánzása. Anyag

és módszer József Attila Ars poetica címû versét választottuk hanganyagnak; amely egy jól ismert színész elõadásában rendelkezésre állt, és amelyet egy ugyancsak ismert (színész) utánzó elõadásában rögzítettünk. Az utánzó egyfelõl az eredeti színészi elõadást imitálta, a második felvételkor pedig saját személyében mondta el a verset. Ez a háromféle felvétel adta a kísérletek beszédanyagát. Eredmények Az elsõ vizsgálatsorozat eredményeit az akusztikai elemzések adták. Összesítettük a beszédhangok formánsaira, az idõtartamokra, az alaphangmagasság és az intenzitás változásaira kapott értékeket, majd – ahol szükséges volt – statisztikai elemzéseket is végeztünk. Az egyes beszédhangokra vonatkozóan az összes lehetséges elõfordulást adatoltuk (az azonos kontextus követelményét ennek ellenére sem tûzhettük célul minden esetben). A beszédhangok akusztikai szerkezetének elemzése sajátos

különbségeket, illetõleg egyezéseket mutat, egyfelõl a beszélõtõl függõen, másfelõl aszerint, hogy az utánzó utánozni kíván-e avagy „saját maga” beszél. A magánhangzók jellegzetesebbek, a mássalhangzók artikulációjában jellegzetes eltérés alig volt található. A magánhangzók közül az [e, , i] hangok elsõ formánsai a színész ejtésében egyértelmûen más frekvenciasávban realizálódnak, mint az utánzó esetében. Kisebb mértékû eltérések mutatkoznak a második formánsoknál is (1. és 2 ábra) 2500 2000 1500 1000 500 0 e F2 a F2 i F2 1. ábra Az elsõ formánsok alakulása a háromféle beszédanyagban (a szürke oszlop az e, a fekete az[a, a fehér az i magánhangzó átlagát szemlélteti) Az utánzó kétféle ejtésében alig van különbség a beszédhangok F1-ének és F2-jének átlagértéke között. Az [ø] magánhangzó különösen jellegzetesen alakul a háromféle ejtésben, ami azért sajátságos, mivel

akusztikailag ún. „semleges” magánhangzóként kevéssé feltételeztük, hogy jellegzetes különbség mutatkozzon a formánsok átlagértékeiben. Az adatok kismértékû eltérést mutatnak az utánzó (utánzott és saját) anyagában, és relatíve nagyfokú különbséget regisztráltunk az utánzó és a színész eredeti ejtése között. A 3 ábra egy képre vetítve szemlélteti az elsõ és a második formánsok átlagértékeinek alakulását. 2000 H z 1500 1000 500 0 színész utánzó utánzó eredeti 2. ábra Az [ø] magánhangzó elsõ (uu) és második formánsainak (nn) átlaga a három beszédanyagban A többi magánhangzó esetében nagy értékkülönbségeket a háromféle ejtésben nem találtunk; a tendencia azonban kivétel nélkül megerõsítette a három kiemelt beszédhangra jellemzõ eredményeket. Az utánzó imitált és saját eredeti artikulációja hasonlóbb, mint amikor tudatosan igyekezett egy másik beszélõt utánozni.

Lássunk néhány adatot! Az [a:] magánhangzó elsõ formánsainak átlagértéke a színész, az utánzó és az utánzó eredeti ejtésben: 662 Hz, 660 Hz és 675 Hz. A második formánsok átlagértéke ugyanezen sorrendben: 1320 Hz, 1354 Hz és 1393 Hz. Hasonló a helyzet például az [e:] magánhangzó esetében is Az elsõ formánsok átlagértékei (az elõzõ sorrendben): 378 Hz, 395 Hz és 414 Hz, a második formánsoké pedig 2081 Hz, 2068 Hz és 2087 Hz. Elemeztük a harmadik formánsokat valamennyi mérhetõ helyzetben, az összes magánhangzónál. A statisztikai elemzések szignifikáns eltérést a háromféle ejtés alapján nem mutattak, a szórás meglehetõsen nagy volt a legtöbb esetben. Az átlagértékek a következõk (az eltérések 20-40 Hz körüli értékek, amelyek az F3 esetén jelentéktelenek. Az F3 átlaga a színész ejtésében 2722,7 Hz, az utánzó ejtésében 2707,7 Hz, az utánzó saját ejtésében pedig 2683,2 Hz. A színész

jellegzetesen artikulálja az [e] magánhangzót, lényegesen zártabban, mint a köznyelvben szokásos hangzás. E sajátosan zártan ejtett [e] magánhangzók elsõ és második formánsának értékeit összegeztük. Az F1 átlaga 456,2 Hz, a második formánsé 1760,3 Hz A „zártság” akusztikailag – a köznyelvi ejtés frekvenciájához képest – az elsõ formáns értékének csökkenésében jelentkezik. Az utánzó ezt a zárt ejtést igyekszik megvalósítani, az ennek a módosított artikulációnak megfelelõ akusztikai paraméterek az alábbiak. Az elsõ formánsok átlagértéke 532 Hz, a második formánsoké 1720 Hz. Ezek az adatok azt mutatják, hogy a zárt ejtést közelíti ugyan az utánzó, de nem sikerül minden esetben ugyanolyan mértékben realizálnia azt. Természetesen számos olyan [e] magánhangzót mértünk, amelynek az elsõ két formánsa erõsen megközelíti vagy eléri a színész ejtésének megfelelõ formánsstruktúrát, de mégsem

ezek tekinthetõk gyakoriaknak. Elemeztük a mássalhangzókat, amelyek artikulációjában mindössze egyetlen jellegzetes eltérést tapasztaltunk az ún. köznyelvi ejtésmódtól A színész hehezetesen artikulálja a zöngétlen zármássalhangzókat, különösen abszolút szó végén. Ez az akusztikai képen egyértelmûen jelentkezik: a zárfelpattanást követõen alacsony intenzitású zörejelemek jelentkeznek csaknem a teljes spektrumban, amelyek idõtartama jóval meghaladja a magyar ejtésben normatívnak tekinthetõ értékeket. Megnéztük, hogy ez az ejtési sajátság miként érvényesül az utánzó artikulációjában. Saját ejtésében egyáltalán nem jelentkezik, vagyis a hehezetes zárhangokat nagyon tudatosan csak az imitált beszédben alkalmazza. Hangzásra, vagyis a hallgató észlelésében az eredeti és az utánzott mássalhangzók azonosnak tûnnek. Meglepetésre, az akusztikai szerkezetük jellegzetes eltérést mutat Amíg a színész ejtésében a

hehezetesség a fent leírt struktúrát mutatja, addig az utánzó a kívánt hangzást egy nagyon intenzív zárfelpattanással „helyettesíti”. Az artikulációs mozgás tehát teljesen különbözõ, a hangzásélmény azonban nagyon hasonló. Elemeztük az egyes beszédhangok idõtartamát a három szövegben. Az eredményeket a 4 ábra grafikonja szemlélteti. 100 90 80 70 60 50 40 30 20 10 0 színész utánzó utánzó eredeti 4. ábra A beszédhangok átlagidõtartamának alakulása a három beszédanyagban Az adatok szignifikáns eltérést mutattak (p<0.01 szinten) a színész és az utánzó ejtése között, amikor az utánzó a színész beszédprodukcióját imitálta. Ismételten nem találtunk ilyen mértékû különbséget az ugyanazon beszélõ (azaz az utánzó) artikulációjakor. Az ugyanazon beszélõ artikulációs sajátosságainak állandósága erõsen relatív; nehéz ugyanis azt megmondani, hogy milyen mértékû különbségek jellemzõek

még ugyanazon beszélõre és melyek már nem. Nincs rendszeres vizsgálati adatmennyiség arra nézve sem, hogy vajon mely tényezõk hatnak jobban vagy kevésbé a beszéd artikulációjára, s mely akusztikai paraméterek értékeiben érhetõek e változások tetten. Vizsgálati anyagunkban – még a szándékolt eltérés, azaz az utánzás ellenére is – a szavak akusztikai szerkezete sokkal nagyobb hasonlósát mutat ugyanazon beszélõ ejtésében, mint az eredeti és az utánzott szavak esetében. A hangszínképeken látható akusztikai szerkezet szemlélteti az eltéréseket és hasonlóságokat (5., 6, 7 ábra) Az akusztikai elemzések azt mutatják – példaként az egymás szót hoztuk az ábrákban –, hogy az utánzás akusztikai következményei csupán hasonlóak az eredeti ejtéshez. 5. ábra A színész ejtésében az egymás szó 6. ábra Az utánzó ejtésében az egymás szó (utánzásként) 7. ábra Az egymás szó ejtése alapján készült

spektrogram az utánzó saját ejtésében Kimondható, hogy a beszéd akusztikai szerkezetének vizsgálata semelyik területen sem mutatott ki olyan jellegû egyezéseket, amelyek a sikeres utánzást, illetõleg a hallgató benyomását kétséget kizáróan igazolták volna. Vizsgáltuk az alaphangmagasság határértékeit, valamint a beszéddallamok alakulását. A színész alaphangmagasságának határértékei 107-155 Hz, az utánzóé pedig 103-140 Hz, vagyis az utánzó alaphangja kissé mélyebb. A színész utánzásakor az utánzó az alaphangmagasságát jellegzetesen megemeli, tehát közelít az utánzott beszélõ értékeihez Az utánzott beszéd F0-határértékei 125-150 Hz szórnak. Az utánzó igyekszik továbbá az eredeti beszélõ jellegzetes dallamvonulatait reprodukálni. A 8 ábra mindháromra hoz példát (ugyanazon mondat esetében). 8. ábra A színész (az eredeti), az utánzott és az utánzó saját ejtése alapján készült dallamgörbék

(balról jobbra) Elemeztük az intenzitásváltozásokat. A színészre jellemzõ, hogy nagy különbségekkel realizálja az egyes beszédszakaszokat. Az utánzó az imitálás során ezt a hangerõstruktúrát igyekszik megvalósítani. Helyenként túlzottan is él az intenzitás adta lehetõségekkel, nagyobb különbségeket hoz létre, mint amilyenek az eredeti beszélõnél tapasztalhatók. A percepciós eredmények magyarázattal szolgálnak arra, hogy miért állítottuk az akusztikai elemzések után, hogy nem kaptunk egyértelmû választ a hangzásbeli hasonlóságra. Látszólagos ellentmondást tapasztaltunk ugyanis az objektív adatok és a szubjektív benyomás között. A beszédutánzás sikere ugyanis több tényezõ, illetõleg azok együttjárásának függvénye. (i) Tökéletesen sikeres akkor, ha nincs azonos idõben „versengõ” beszédminta, vagyis ha az eredeti beszéd nem hangzik el az utánzást közvetlenül megelõzõen. Ha a kísérleti

személyek csupán az utánzót hallották és azonosítaniuk kellett a beszélõ személyt, akkor az eredeti színészt 98,8%-ban ismerték fel. Az utánzó tehát képes volt a hallgatók „megtévesztésére”, ha aktuális összehasonlítás nem történhetett (ii) Ha csak differenciálni kellett az eredeti és a „másolat” között, vagyis rendelkezésre állt valamiféle „élõ” minta is, akkor a hallgatók teljesítménye szignifikánsan javult, azaz az utánzás sikere szignifikánsan gyengült. (iii) Az utánzás sikere nem volt független a hallott szöveg hosszától sem. Az eredeti beszélõ biztonságos felismerése annál pontosabb, minél több beszédrészlet áll a hallgató rendelkezésére ahhoz, hogy az agyban tárolt „adatokat” az adott hangzásélménnyel összevesse. Minél több, illetõleg minél hosszabb a meghallgatott beszédrészlet, annál egyszerûbb a döntés Kísérletünkben a szavak álltak szembe a mintegy mondatnyi hosszúságú

beszéddel. Amikor a beszélõket a hallgatóknak szavak alapján kellett megkülönböztetniük, 43,4%-os téves eredményt kaptunk. A hibaarány 12%-ra csökkent, ha rövid szakaszok differenciálása volt a feladat Következtetések Az e tanulmányban leírt kísérletsorozat egy széleskörû kutatás része, amelyben az egyénre jellemzõ fonetikai sajátosságokat kívánjuk meghatározni, leírni. A jelen kísérlet eredményei módszertani szempontból is jelentõsek, hiszen egy egészen más aspektusból közelítik az egyéni hangszínezet megismerhetõségét. Az eredmények azt mutatják, hogy a beszéd utánozható és a hallgató „átejthetõ”, vagyis elhitethetõ vele, hogy az utánzott személyt hallja. Adataink azonban egyértelmûen rávilágítottak arra is, hogy az utánzás sikere korlátozott, több tényezõtõl függ és rendkívül változékony. Az utánzó a saját artikulációs mozgásait igyekszik hasonlatossá tenni az utánzott személy

ejtésmódjához. Nem az adott artikulációs gesztusoknak van döntõ jelentõsége, hanem az akusztikus következménynek, még pontosabban annak a percepciós élménynek, amit az a hallgatóban kivált. Az utánzó tehát egyfelõl közelíti saját ejtését az utánzott személyéhez, másfelõl pedig mintegy felnagyítja, illetõleg még jellegzetesebbé teszi az utánzottra jellemzõ ejtési sajátosságokat. E kettõ kombinációjával éri el a kívánt hatást: nem õ, hanem valaki más, az a bizonyos személy beszél. Hasonlatos mindez a karikatúrához A jó karikatúra hasonlít ugyan az eredeti személyhez, annak egyértelmû azonosítását azonban döntõen az eredeti személy jellegzetességeinek (nemritkán eltúlzott) vizuális hangsúlyozásával éri el. A beszéd állandósága az idõ változásának függvényében Ha feltételezzük, hogy a beszéd alapján, a beszélõ akaratlagos együttmûködésével meghatároztuk mindazokat a paramétereket, amelyek

a személy felismerését kétséget kizáróan lehetõvé teszik, szembekerülünk az idõ változásának problémájával. Mit jelent ez? Múlik az idõ, változik az ember, s ebben a változásban óhatatlanul részt vesznek a beszélõ szervek, az artikulációs mozgások, a teljes beszédprodukció. Az elsõ kérdés az, hogy vajon mennyi idõ elteltével kell a beszéd észlelhetõ változását szükségszerûen tekintetbe vennünk. Egy év vagy tíz év múltán? Minden ember esetében azonos mértékû a változás és hasonló annak következménye? A gyakorlati alkalmazás is számos kérdésre vár feleletet a tudománytól. Például, ha beszédminta alapján azonosítjuk a beszélõt telefonon keresztül, akkor milyen gyakorisággal kell a személytõl új beszédmintát rögzíteni a biztos felismeréshez. Az alkalmazott tudomány az ilyen és hasonló kérdésekre ma csupán hozzávetõleges válaszokat tud adni. Ismereteink és hiányaink az idõ

változásával és annak a beszédre gyakorolt hatásával kapcsolatban a következõkben foglalhatók össze. a) A beszédképzés a személy életkorának elõrehaladtával változik. Nem tudjuk azonban, hogy ez a változás a beszédnek milyen paramétereit érinti. b) Ismert, hogy a beszédképzés egyéni eltérései csak részben akaratlagos mûködések eredményei (Nikléczy 1996). Nincsenek sok be-szélõre kiterjedõen vizsgálatok azonban arra vonatkozóan, hogy u-gyanazon személy esetében mekkora idõ elteltével tapasztalható lényeges változás a beszédben. c) Kísérletek igazolták, hogy a fiatalok és az idõsek között a beszéd több területén tapasztalható eltérés (Gósy 2000). Például a beszéd-tempóban (Gocsál 2000), az alaphangmagasság alakulásában (Balázs 1993), sõt az artikulációban is, de ez utóbbi még nincsen pontosan összegezve. Rögtön felmerül ugyanakkor a kérdés: honnan számítjuk az idõskort, illetõleg az

öregkort. Mettõl és meddig beszélhetünk fiatalokról és középkorúakról? Az években meghatározott idõszakaszok jellemzõek-e a beszédre is? Tapasztalatból tudjuk, hogy könnyen felismerjük a beszédük alapján évek elteltével is azokat a személyeket, akikkel folyamatos kapcsolatban vagyunk (például telefonon át). Ha azonban két-három évtizedig nem beszéltünk az ismerõsünkkel, akkor pusztán a beszéde alapján, nem fogjuk felismerni. Mindkét tény igaz, ami viszont tökéletes ellentmondás Egyfelõl ugyanis azt állítjuk, hogy a beszéd nem (nagyon) változik, hiszen felismerjük a beszélõt, másfelõl pedig ugyancsak állítjuk, hogy oly mértékû a változás, hogy nem ismerjük fel a beszélõt. Melyik tapasztalati tény igaz, illetõleg ha mindkettõ bizonyítható, akkor e paradoxon hogyan oldható fel? A kérdés megválaszolására kísérletsorozatot terveztünk. Arra kerestünk választ, hogy 25 év elteltével milyen azonosságok és

változások tapasztalhatók ugyanazon beszélõk beszédprodukciójában. Anyag, módszer, kísérleti személyek A vizsgálatsorozatot az tette lehetõvé, hogy (i) birtokunkban volt három beszélõ két és fél évtizeddel ezelõtt rögzített beszédanyaga, (ii) ugyanezek a beszélõk jelenleg is rendelkezésre álltak és (iii) ugyan-azon berendezésekkel volt megismételhetõ a hangfelvétel, mint amelyeket huszonöt évvel ezelõtt használtak. A hangrögzítés körülményei – beleértve a felvétel helyiségét, a csendes szobát – megegyeztek, ez-által a változók számát gyakorlatilag az idõre lehetett szûkíteni, vagyis a beszélõ személyek életkorának változására. Az említett három személlyel végeztük el a kísérleteket, két férfivel és egy nõvel. Az elsõ felvételkor (1975-ben) a férfiak 30 és 32 évesek, a nõ 23 éves volt; a második felvételkor (2000-ben) a két férfi 55 és 57, a nõ pedig 48 éves. A hangrögzítés mindkét

esetben Sennheiser MKH 815T típusú mikrofonnal, Beag gyártmányú elõerõsítõvel történt Studer A80-as stúdiómagnetofonra (Agfa 525-ös hangszalagot használtunk). Mindkét beszédanyagot a CSL 4300B típusú digitális jelfeldolgozóval elemeztük 2000-ben (különbözõ beállításokban). Eredmények A szakirodalomban megtalálható és adatolt tény az alaphangmagasság csökkenése az életkor elõrehaladtával nõknél és emelkedése idõskorban férfiaknál. Nincs egyértelmû válasz azonban arra vonatkozóan, hogy a változások pontosan hány éves korban következnek be, hiszen az egyén egészségi állapota, beszédhasználati sajátosságai alapvetõen befolyásolják ennek a változásnak a létrejöttét (sõt, egyéb tényezõk is tekintetbe veendõk, például a dohányzás). Nem tudjuk, hogy vajon a fiatalabb és az idõsebb felnõttek között van-e, és ha igen, milyen mértékû változás az alaphang-magasság alakulásában. Saját

eredményeinket a három személy esetében az 1. táblázat mutatja Az adatok két beszélõnél az alaphangmagasság meglehetõsen nagy mértékû csökkenését mutatják (az egyik férfi és a nõ), ugyanakkor a másik férfi beszélõ F0-értéke gyakorlatilag változatlan. Tekintettel arra, hogy hármójuk közül egyik sem dohányzik (és soha nem is dohányzott), az alaphang mélyülését, illetõleg változatlanságát egyéni sajátosságként kell értelmeznünk. Az átlagosan 41 Hz és 44 Hz különbség egyértelmûen olyan változás, amely a percepcióban is jelentkezik. Nézzük meg a hangszalag-mûködés frekvencia- és intenzitásállandóságát! Ezek az értékek arra utalnak, hogy a beszélõ zöngéje beszéd közben akusztikailag mennyire változékony. 1. táblázat: Az alaphang jellemzõinek statisztikai változása (F0 = alaphangmagasság, I = intenzitás) Változ ók Idõ Férfi Férf N 1 i2 õ F0 múlt 116 150 (Hz) jelen 114

106 18 5 144 F0állandóság (%) 1, múlt 1,13 1,28 41 jelen 1,6 1,07 1, 08 Iállandóság (dB) 0, múlt 1,26 1,11 83 jelen 0,89 0,75 0, 77 Az adatok szerint az idõsebb korban mélyebben beszélõk alaphang-magasságának frekvenciája sokkal állandóbb, mint a változatlan F0-értéken beszélõé. Feltehetõ, hogy valamiféle kiegyenlítõdés következik be, s ha ez igaz, akkor kimondható, hogy az alaphangmagasság mélyülése fordítottan arányos a frekvenciaállandóságával. Az intenzitás állandósága nem mutat jelentõs eltérést a nõi beszélõnél, a két férfi esetében azonos mértékû a változás. Feltételezhetõ, hogy itt a beszédhasználati gyakoriság kap szerepet (a nõi beszélõ rendszeresen elõad, a férfiak ritkábban). A magánhangzók vizsgálatakor szokásosan az elsõ három, ritkábban az elsõ négy formáns frekvenciáját határozzák meg. Ennek az az oka, hogy az F1 és az F2 egyértelmûen meghatározzák a

magyar magánhangzók minõségét, szükségtelen tehát a magasabb indexszámú összetevõk elemzése. (Korábban technikailag sem volt megoldható a felsõbb formánsok pontos mérése.) Tudjuk, hogy az alaphang változása nem befolyásolja az alsóbb formánsok elhelyezkedését. A magánhangzó minõségét – mint említettük – az elsõ két formáns frekvenciahelye biztosítja, hiszen ha itt egy adott értéknél nagyobbak a változások, akkor az eredeti magánhangzó más hangminõségbe fog átcsapni. Ennélfogva a feltételezett 9000 8000 formánsértékek (Hz) 7000 6000 5000 4000 3000 2000 1000 0 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. magánhangzók 1. ábra Elemzett magánhangzók formánsértékei (folyamatos vonal = 1975, szaggatott vonal = 2000) 11. 12. változások csak a felsõbb formánsok elhelyezkedésében várhatók. Elemzéseink e feltételezést egyértelmûen igazolták. Az 1 ábra szemléltetõ jellegû, mivel csak 12

magánhangzót ábrázol egyetlen beszélõ ejtésében. Az ábrán jól látható, hogy a formánsok különféleképpen változtatták értéküket a 25 év elteltével. Az összes beszélõ valamennyi magán-hangzóját tekintetbe véve, a következõ, százalékban kifejezett átlagos változások adódtak. Az elsõ formánsok különbsége -0,6%, az F2-é +1,2%, az F3 +7,5%, az F4 -2,6%, az F5 -7%, az F6 +3,9% és az F7-nél -6%. A teljes anyag vizsgálata alapján az alábbi következtetések fogalmazhatók meg. 1. Az elsõ két formáns értékei 25 év elteltével csak kismértékû, nem szignifikáns eltérést mutatnak. 2. Hasonlóan stabil az F4 értéke 3. Az F3, az F5, F6 és F7 frekvenciája ugyanakkor különbséget mutat az elsõ és a második felvétel tekintetében. A hangszínképeken vizuálisan is jelentkeznek a fent említettek; nem csupán a tiszta fázisban mért értékek, de az ugyanazon kontextusban megjelenõ magánhangzók formánshelyei egészen

hasonló le-futásúak. Ez azt jelenti, hogy az elsõ két formáns frekvenciatartományában lényegében nincs különbség, a felsõben viszont határozottan van. A formánsok sávszélességének elemzése ugyancsak valamennyi beszélõ esetében azonos eredményre vezetett. Az egyes formánsok sávszélességében eltéréseket találtunk a múltban és a most rögzített artikuláció következményét tekintve. Az F4 kivételével valamennyi formáns sávszélessége megnövekedett, e növekedés mértéke azonban formánsonként változó. E változások mértéke átlagosan 34%. Egyet-len olyan formánst találtunk, amelynek a sávszélessége csökkent, ez a negyedik formáns. Már a formánsok frekvenciájának elemzésekor is tapasztaltuk, hogy az F4 értéke a felsõbb indexszámú formánsokkéhoz képest kisebb eltérést mutat. A jelen adatok arra utalnak, hogy a nagy-mértékû stabilitás mellett az F4 sávszélessége is másként változik, mint az összes többi

formánsé, hiszen szûkült valamennyi beszélõ esetben. E szûkülés mértéke átlagosan 28% A 2 ábra a formánssávszélességek alakulását mutatja Elemeztük az [e] magánhangzó összesített FFT energiagörbéit (3. ábra) Ez a fajta elemzés is megerõsítette a formánsok már elvégzett vizsgálataival kapott eredményeket. H 1200 z 1000 800 600 múlt 400 jelen 200 0 F1 F2 F3 F4 F5 F6 F7 2. ábra A formáns-sávszélesség változása 25 év elteltével (összesítés) 3. ábra Az [e] magánhangzó összesített FFT energiagörbéi az egyik férfi beszélõ artikulációja alapján (a felsõ vonal a 25 évvel ezelõtti, az alsó a jelen ejtés alapján kapott görbét mutatja) Az energiagörbék egybeesnek az elsõ két formáns területén, ugyanakkor jellegzetes különbségeket mutatnak a felsõbb formánsok frekvenciatartományában. Az ábra az egyik férfi beszélõ elemzett magánhangzóinak az összes elõfordulásban mért energiagörbéit

mutatja. További vizsgálatot igényel, hogy vajon a felsõbb formánsok között – több beszédhang elemzésbe vonása esetén – tapasztalunk-e szignifikáns, illetõleg a beszélõ személyre jellemzõ objektíven mérhetõ adat-eltérést. Az LPC-analízis ismételten megerõsítette a korábbiakban kapott eredményeket. Az ábrán jól látható, hogy az F1-re és az F2-re kapott értékek csaknem egybeesnek; hasonló az F4-re kapott elemzési eredmény is. Az F3 és a felsõbb formánsok mért értékei azonban jellegzetesen szórnak, amit a görbék vonulatai jól szemléltetnek (4. ábra) 4. ábra Az [e] magánhangzó összesített LPC-rezonanciagörbéi Megvizsgáltuk, hogy a kísérleti személyek ejtésében a magánhangzók idõtartama változott-e két és fél évtized alatt. Valamennyi elõfordulás mért értékét összegeztük, és azt találtuk, hogy szinte minden esetben nyúlás történt (vö. 5 ábra) Az idõtartamok nyúlásait százalékban

fejeztük ki és ábrázoltuk, mivel így a különbözõ beszélõk adatai összevethetõek. Jól látszik, hogy a három beszélõ eltér a magánhangzók nyújtása tekintetében, de annak függvényében is, hogy izolált szavakat vagy mondatokat ejt-e. Legnagyobb mértékû az idõtartam változása a nõi beszélõ ejtésében, mind szóban, mind mondatban Az izolált szavakban elõforduló elemzett magánhangzók nála hosszabbodnak meg legjobban. A férfiak produkciójában ugyancsak nagyobb mértékû a magánhangzó nyúlása, ha mondatban fordul elõ. Feltûnõ, hogy az egyik férfi a mondatbeli ejtéshez képest alig nyújtja a magánhangzókat az izolált szavakban. 25 szóban % mondatban 20 15 10 5 0 f1 f2 n 5. ábra Az [e] magánhangzók idõtartamának változása az egyes beszélõk ejtésében (f=férfi, n=nõ) Az egyes beszélõk átlagadatai – függetlenül a beszédhang tágabb kontextusától – a két férfinél igen hasonló, hozzájuk

képest a nõi beszélõnél szignifikáns különbséget mutatnak. A kapott adatokból két következtetés vonható le. 1 Az életkor elõrehaladtával az artikulációs mozgások lassúbbodnak, s ez a beszédhang idõtartamának nyúlásában ölt testet. 2 Az idõtartam-változások aktuális mértéke nagyobb individuális különbségeket mutat, amelyek kevéssé elõre jelezhetõk. Összegzés A tárgyalt kísérletsorozat különlegességét az adja, hogy nemcsak a részt vevõ személyek, hanem a beszéd rögzítésének körülményei és berendezései is ugyanazok. Ezáltal az idõ múlásának következményeit vizsgálva erõsen le lehetett szûkíteni a változókat. Az eredmények igazolták a „paradoxonnak” tekintett jelenséget: az emberi beszéd változik is, és állandó is hosszabb idõ, jelen esetben 25 év elteltével. Hogyan oldható fel tehát a paradoxon? Mi állandó és mi változó a beszéd akusztikai szerkezetében? Elemzéseinkben

erõsen leszûkítettük a lehetséges változókat, amikor egyetlen magánhangzó különféle elõ-fordulásainak akusztikai szerkezetét vizsgálatuk a 25 évvel ezelõtti és a mostani artikulációnak megfelelõen. Eredményeink a következõkben foglalhatók össze: 1. Az életkor hatással van az alaphangmagasság alakulására, ennek mértéke azonban egyénenként változó. A mintegy 25-50 év és a 30-55 év közötti beszélõknél részben erõteljes csök-kenést, részben változatlanságot tapasztaltunk. 2. A magánhangzók elsõ két formánsának elhelyezkedése gyakorlatilag nem változik Ezen formánsok stabilitása a hang mi-nõségének biztosítéka, itt tehát jelentõs változást nem is vártunk. 3. A negyedik formáns állandóságot mutat mind a három beszélõnél, az értékek hasonlósága 25 év elteltével is igen nagy, gyakran egybe is esnek. 4. Az F5, F6 és F7 formánsok helye jellegzetesen megváltozik, magasabb és alacsonyabb frekvenciák

irányába egyaránt történik eltolódás. Az eltolódások mértéke 3-10% körüli, azonban sem a mérték, sem az irány nem köthetõ a beszélõ személyhez. 5. A formáns-sávszélességek két és fél évtized elteltével átlagosan 20-40%-kal növekednek. Az F4 esetében éppen ellenkezõleg, szûkülés tapasztalható, kivétel nélkül minden helyzetben és minden beszélõnél. 6. Az elemzett magánhangzók idõtartama idõsebb korban egyértelmûen megnyúlik Ennek az idõtartam-növekedésnek a sajátosságait azonban csak nagyobb anyag vizsgálatával lehet egy-értelmûen leírni. Noha a kutatás tovább folytatódik, a kapott adathalmaz mennyisége és a kialakult eredmények alapján kétséget kizáróan megfogalmazható a következõ gondolat. A beszélõ életkorának változása kihat a beszédprodukciójára, az artikulációs gesztusaira, s ezáltal beszédének hangzására. A változások mértéke ugyanakkor mégis lehetõvé teszi a beszélõ

felismerését, ha az invariáns elemek dominánsan érvényesülnek. A kérdés ezek után az, hogy mit jelent az invariáns elemek domináns érvényesülése. Ember és ember közötti kapcsolatban ez azt jelenti, hogy az állandó ingerhatás biztosított. Ha a beszélõ személlyel folyamatos a kapcsolatunk, s a beszédében bekövetkezõ változásokat az agyunk állandóan regisztrálja, s az adott személy beszédérõl kialakított ún. neurális spektrogramot ennek megfelelõen folyamatosan módosítja, akkor az invariáns elemek dominánssá válnak, s a beszélõ személyt hosszú évek elteltével is felismerjük a beszéde alapján. Ha nincs mód a neurális spektrogram módosítására, mivel nélkülözzük az ingert (ti. nem találkozunk a személlyel, nem beszélgetünk vele), akkor hosszabb idõ elteltével a beszéde alapján nem, illetve nehezen fogjuk õt felismerni. Az invariáns elemek ugyanis nem válhattak dominánssá az észlelésünkben. További,

rendszeres kutatásoknak kell számot adniuk az invariáns elemekrõl, s arról, hogy ezek milyen összefüggésben képesek az egyén beszédét oly mértékben jellemezni, hogy a beszélõ személy felismerhetõ legyen. A felhangok elemzése A következõ kísérletsorozatban a felhangok személyazonosító funkcióját elemeztük a korábbi eredmények alapján. A formánsstruktúrát leválasztva, olyan felharmonikusokat keresünk, amelyek a legkevésbé esnek egybe (azaz megfelelõ távolságban vannak) a formánshellyel. A formánshelytõl távol levõ felhang ugyanis a kívánt felbontással elemezve, magában hordozza a hangszalagrezgés egy teljes periódusában bekövetkezett változást. Ez az eltérés pedig spektrálisan megjeleníthetõ. Az így megjelenített, megfelelõ számú spektrum összehasonlításával, kialakítható egy olyan analizáló stratégia, amely rövid idõ alatt nyújt értékelhetõ adatot, és jól reprezentálja a személy hangjának bizonyos

sajátosságait. Elsõdleges célunk az volt, hogy olyan vizsgálati módszert dolgozzunk ki, amelynek segítségével a korlátozott (rövid) idõtartamú, rossz jel/zaj viszonnyal rendelkezõ beszéd vizuálisan és numerikusan összehasonlító, és a kapott eredmények alapján az azonosítás nagy biztonsággal elvégezhetõ. Az MTA Nyelvtudományi Intézetének Fonetikai Laboratóriumában korábbi kísérletek alapján sikerült olyan eljárást kidolgozni, amelynél rossz technikai körülmények között rögzített hangfelvételek alapján is elvégezhetõ a személyazonosítás (azonos hangsorok esetében). A felhangok frekvenciaértéke nagyjából megegyezik az alaphang frekvenciaértékének egész számú többszörösével (mivel a gégerezgés ún. kváziperiodikus jel, ez az érték nem egészen pontos). A spektrumon az egymást követõ felhangnyalábok távolsága fordítottan arányos a forrásjel alapperiódusával. A felhangok a garat- és a

szájüregben mint rezonátorokban az artikuláció következtében más és más értéknél erõsödnek fel, és különbözõ formánsstruktúrákat eredményeznek. A kialakult formánsstruktúrák a rezonátorüregekben felerõsödött felhangnyalábokat tartalmazzák. A jelen tanulmányban ismertetendõ elemzõ eljárásunk lényege az, hogy a hang spektrumából csak a felharmonikusok vizsgálatával foglalkozunk, függetlenül attól, hogy az adott tartományban van-e formáns vagy nincs. Mivel a felharmonikusok alacsonyabb frekvenciatartományban intenzívebben vannak jelen, ezért mûszeres elemzésre alkalmasabbak. A 400 Hz és 800 Hz közötti tartományban lévõ felhangok dinamikus változását és elhelyezkedésének numerikus értékét vesszük figyelembe. Megfelelõen választott hangszelet (frame), illetõleg sávszálesség esetében a szegmentált részrõl készített hangszínkép alapján az összehasonlítás elvégezhetõ. A „hogy ma este”

hangsor „maes” részletérõl készült regisztrátumok illusztrálják a fentieket a 2. és 3 ábrán A példában a személyazonosítás telefonvonalról, rossz minõségben rögzített hangfelvételbõl szegmentált közlésrészlet alapján történt. A kiválasztott rész idõtartama 560 ms A lehetséges beszélõ személyektõl az elõre meghatározott szöveget stúdióminõségû felvételen rögzítettük, és a négy hangsorról készített spektrumot vizuálisan elemeztük. Az RM jelû spektrogramról elmondhatjuk, hogy a felhangstruktúra dinamikus változása semmiképpen nem azonos az etalonfelvétellel. Az SZM jelû személy hangjáról készült spektrogram már mutat némi hasonlóságot, de numerikus értékei nem azonosak. A PH jelû személy azonban minden tekintetben azonosnak mondható a telefonról rögzített személy hangjával. (Megjegyezzük, hogy a vizsgálatban valójában 9 személy vett részt, de a többi részvevõ hangszínképe lényeges

eltérést mutatott az eredetihez képest, ezért ezekre itt nem tértünk ki). E módszer hátránya az, hogy csak azonos hangsorok esetében alkalmazható. A szemléletesség kedvéért közöljük a hangsorok teljes spektrumát 5 kHz terjedelemig (4. ábra) Az ábrákból jól látható, hogy az azonosítás ilyen megjelenítési formában nem végezhetõ el. 2. ábra: A hogy maes hangsor ejtése RM jelû (bal oldal) és SZM jelû személy (jobb oldal) esetében 3. ábra A hogy maes hangsor ejtése PH jelû személytõl (bal oldal) és a telefonról rögzített hangfelvétel 4. ábra Az SZM és a RM jelû személy ejtésérõl készült teljes spektrum 5. ábra A PH jelû személy hangjáról (bal oldalon) és a telefonról készített hangfelvétel teljes spektruma (jobb oldalon) A felhangok változásának elemzésén alapuló eljárás magában hordozza a hibalehetõséget is. Abban az esetben, ha a rögzített szöveg – rövidsége miatt – nem tartalmaz

hasonló beszédhangokat, hangkapcsolatokat, ez az azonosítást erõsen megnehezíti. Ezért következõ lépésként olyan módszerrel kísérleteztünk, ahol nem a beszélõ személy által ejtett hangsorokat tekintjük kiindulási alapnak, hanem annak kisebb egységét, magát a hangot. A hosszan ejtett magánhangzó, illetve a zöngés mássalhangzó ugyanis bizonyos fokig magában foglalja a személy egyéni hangszínezetét is. Feltételezésünk szerint a felhangoknak is hordozniuk kell a beszélõ személyre jellemzõ egyéni sajátosságokat. A formánsstruktúrát leválasztva tehát, olyan felharmonikusokat keresünk, amelyek a legkevésbé esnek egybe (azaz megfelelõ távolságban vannak) a formánshellyel. A formánshelytõl távol levõ felhang ugyanis a kívánt felbontással elemezve, magában hordozza a hangszalagrezgés egy teljes periódusában bekövetkezett változást. Ez az eltérés pedig spektrálisan megjeleníthetõ Az így megjelenített, megfelelõ

számú spektrum összehasonlításával, kialakítható egy olyan analizáló stratégia, amely rövid idõ alatt nyújt értékelhetõ adatot, és jól reprezentálja a személy hangjának bizonyos sajátosságait. Mindezek igazolására kísérletet végeztünk, ahol a minta formáns- és felhangstruktúráját vizsgáltuk. Megállapítottuk (i) azt az átlagos frekvenciatartományt, amely a személy beszédének formánseloszlására jellemzõ, valamint (ii) a második vagy után elhelyezkedõ elsõ tiszta felhang frekvenciaértékét. A harmadik formáns magasabban elhelyezkedõ felhangot elsõsorban a körülötte elhelyezkedõ gyengébb intenzitású formáns kisebb ráhatása miatt célszerû választani. A „tiszta” felhangot a jó melléknyaláb-csillapítás érdekében Hamming-ablakfüggvényû keskeny sávú digitális szûréssel megtisztítva (a többi felhangtól), vetjük alá összehasonlító spektrális vizsgálatnak. A cél annak megítélése,

hogy az így kiválasztott felhang spektruma milyen képet ad a hang teljes idõtartamában, illetve hogy elegendõ-e 8-10 periódus a vizsgálat céljára. A kísérlet elsõ fázisában 5 beszélõvel végeztük el a vizsgálatokat úgy, hogy a kísérleti személyektõl rendelkeztünk 23 évvel ezelõtt készített hangfelvételekkel. Az öt személy hanganyagát CSL 4300B digitális jelfeldolgozóval vizsgáltuk. A vizsgálat menete a következõ volt: 1. A kiválasztott szöveget digitálisan rögzítettük A rögzítés mintavételezési sebessége 50000 minta/s. 2. A bevételezett hanganyagból a kiválasztott hangot (ebben az esetben ez az [l] mássalhangzó volt) szegmentáltuk. 3. A megfelelõ hosszúságú mintát (kb 70 ms) keskeny sávú Hamming-ablakfüggvénnyel 300 Hz sávszélességben szûrtük, majd az intenzitását többszörösen megnöveltük. 4. A keletkezett mintáról keskeny sávú spektrogramot készítettünk A kapott különbözõ

spektrogramok összehasonlítása a következõ eredményhez vezetett. A különbözõ személyektõl származó zöngés mássalhangzók periódusonként más-más elhelyezkedésû intenzitásmaximumot mutatnak. A 6 ábrán látható, hogy a felsõ részben lévõ spektrogramon a periódusok gömbszerû alakot vesznek fel, lefelé mutató nyúlvánnyal, a középsõ részben elnyújtott formát láthatunk, felfelé mutató nyúlványokkal. Az alsó részben látható forma hasonlít ugyan kissé a felsõhöz, de a gócok maximumpontjai inkább felfelé mutatnak. Az ábra 4 sorában az elsõ sorban lévõ személy hangja ismétlõdik meg, de a két ejtés között 1 hét különbség van. Az 5 sorban kissé ellaposodó periódustól eltekintve, nagyjából azonos jelek láthatók. A 6 sor viszont periódusonként eltérõ képet mutat lefelé mutató nyúlványokkal. 3. ábra Az [l] hang átlagosan nyolc periódusáról készült spektrografikus kép különbözõ személyek

ejtésében Következtetések A beszélõ személy azonosítása a beszéde alapján már bizonyos múltra tekinthet vissza a magyar szakirodalomban (Gordos–Takács 1983; Gósy 1996; Nikléczy 1996;), de rendszeres akusztikai-fonetikai és percepciós vizsgálata alig két éve indult meg. A munkálatok részlegesen ugyan támaszkodhatnak a nemzetközi szakirodalomban leírt eredményekre, azonban a nyelvspecifikusság ténye mindig új feladat elé állítja a kutatót. Az alábbiakban összegezzük azokat a megállapításokat, amelyek részben elméleti meggondolás, részben gyakorlati tapasztalat, illetõleg saját kísérleti eredményeink alapján már egyértelmûen megfogalmazhatók. Ezek a megfogalmazható kijelentések nemegyszer sok-sok órás elemzõ munkán, számtalan adat sokféle feldolgozásán alapulnak (magukban foglalva a kutatás zsákutcáit is). 1. A beszéd akusztikuma oly mértékben jellemzõ a beszélõre, hogy az akusztikai-fonetikai paraméterek

alapján a beszélõ azonosíthatóvá válik. 2. Az elméleti megállapítást a humán beszélõfelismerõ képességünk is alátámasztja 3. A beszéd alapján történõ közel-objektív személyazonosítás számtalan tényezõ függvénye Ezek részben külsõ faktorok (pl. a beszédrögzítési körülmények) és belsõnek tekinthetõk (pl. a beszélõ kooperációs készsége), amelyek befolyással vannak a felismerés biztonságára. 4. A beszélõfelismerés során többféle eljárás is célravezetõ lehet; az alkalmazott módszert a konkrét cél, a beszédminta és egyéb körülmények határozzák meg. 5. Jelenleg nincs tudományosan alátámasztott válasz arra vonatkozóan, hogy hány vagy mely paraméterek azok, amelyek az egyén felismerését kétséget kizáróan biztosítják. Nem zárható ki az, hogy az agyban tárolt neurális spektrogram aktiválása egészen különbözõ azoktól az akusztikai eljárásoktól, amelyek révén a beszéd egyéni jegyeit

igyekszünk meghatározni. 6. Ígéretesnek látszanak a felhangstruktúra elemzésének adatai 7. A beszélõ személy felismerése multifaktoriális, azaz a hallgató a rendelkezésére álló valamennyi hangzásbeli, nyelvi és ahol mód van, nem nyelvi információt is integrál az észlelési folyamata során a „feladat” elvégzéséhez. 8. Különféle aspektusú adatfeldolgozás, akusztikai-fonetikai -tárolás és megoldásához közelebb jussunk. összegzés) és percepciós szükségesek kísérletek ahhoz, hogy (és rengeteg a probléma Mindezek után újra feltehetõ a kérdés: mit tud ma a fonetika a hangszínezetrõl. Elméleti aspektus ugyan, de fontos, hogy egyértelmûen definiálható. A hangszínezet az elhangzó beszédnek az a jelensége, amely nagymértékben hozzájárul ahhoz, hogy a beszélõ személy felismerhetõ. Mivel az ismert beszélõt telefonon át is azonosítjuk, a hangszínezet legjellemzõbb paraméterei a

200-3500 Hz-es sávban találhatók. A hangszínezet a beszéd akusztikumában van jelen, annak része; de összetett jelenség (nem korlátozható a zöngére), mivel minden valószínûség szerint több komponens hozza létre (beleértve a beszéd szegmentális és szupraszegmentális tényezõit egyaránt). A genetikai tényezõ a beszélõ személy felismerésében Mindennapi tapasztalatunk az, hogy az azonos nemû rokonok beszéde hasonló. Ez a hasonlóság néha oly mértékû lehet – például azonos nemû testvérek vagy szülõ és gyerek között –, hogy a beszélõk összetéveszthetõk. Gyakrabban fordul ez elõ telefonbeszélgetés során, különösen, ha az elõfeltevésünk a várt személy megjelenésére összpontosul. Tudjuk, hogy a rokonok sok tekintetben hasonlóak, liletve lehetnek hasonlóak. Felmerül az a kérdés, hogy vajon a beszédképzés mutat-e nagyobb hasonlóságot, esetleg egyezést közeli rokonok között, avagy az Beszédtapasztalatunk

erre vonatkozó növekedésével benyomásunk kialakul, hogy egy más okokkal bizonyos magyarázható. embertípushoz egy meghatározott beszédtípust képzelünk el. Ennek az alapja jó ismert a foniátriai gyakorlatban ún. alkati harmóniának nevezett jelenséggel (Frint 1999) Ez azt jelenti, hogy egészséges állapotban az alkati harmónia következtében a beszédszervek megfelelõen mûködnek, és így az elvárt hangzás jön létre. Azonos alkatú emberek beszédképzése is általában hasonló lesz Az azonos és hasonló genetikai sajátosságok értelemszerûen megjelennek a beszédben is, jogos tehát az a feltevés, hogy az azonos nemû rokonok beszéde lényegesen nagyobb mértékben kelti ugyanazt a benyomást, mint az azonos életkorú és/vagy alkatú, de nem rokon beszélõké. A kérdés tudományos igazolására kísérletsorozatot végeztünk Anyag és módszer Két-két testvérpárt választottunk résztvevõknek, akik között azonban

többféle szintû rokonsági kapcsolat van. Valamennyien férfiak, egy idõsebb és egy fiatal testvérpár, akik között 4-4 év korkülönbség van. A fiatalabb testvérpár az idõsebb testvérpár egyikének két fia. Kétféle hanganyagot rögzítettünk ugyanazon felvételi körülmények között, ugyanazon magnetofont (Uher) és mikrofont (Sennheiser) használva csendesített helyiségben. Elõször egy 112 szavas meseszöveget olvastattunk fel hangosan, majd a hét napjainak és az év hónapjainak felsorolását kértük, ami jól ismert, régóta tárolt lexikai egységek elõhívását jelentette. Mindenképpen kerülnünk kellett a spontán beszédet, nehogy a beszédtervezési és a beszédkivitelezési folyamatok esetleges diszharmóniája, illetõleg a beszélõk közötti különbség e tekintetben okot adhasson az artikulációs különbségekre. Az olvasás és az automatikusan aktiválható szósorokkal gyakorlatilag tisztán az artikulációs

sajátosságok hangzási következményeit lehetett rögzíteni. Az elemzéseket a CSL 4300B típusú digitális jelfeldolgozóval végeztük. A beszélõ felismerésével kapcsolatos korábbi eredményeinket (Nikléczy 1996, Gósy 1999, Gósy– Nikléczy 2000) figyelembe véve, a következõket végeztük el: hat magánhangzó formánsszerkezetének részletes vizsgálatát (átlagosan 14 elõfordulás alapján), az egyes beszélõkre jellemzõ felhangszerkezet elemzését (beszédhangonként átlagosan 6 felhangot), a szavak idõviszonyainak (izolált ejtésben és felolvasáskor), valamint az alaphangmagasság és az intenzitásviszonyok jellemzõinek tanulmányozását. Eredmények A hallgató szempontjából döntõ az alaphang magassága, hiszen ennek az azonosítása a legkönnyebb számára az azonosság, illetõleg különbözõség tekintetében. Az olvasott szöveg alapján az F0 statisztikai átlagértékét, valamint az adott személy zöngéjének

jellegzetességeit tartalmazza az 1. táblázat A rövidítések feloldásai: A = apa, N = nagybácsi, T1 = idõsebb fiútestvér, T2 = fiatalabb fiútestvér. A statisztikailag különbségeknek, az átlagolt idõsebb alaphangmagasság-értékek testvérpáré valamivel megfelelnek magasabb, mint a az életkori fiatalabbé. A legmagasabb értéket (közel 130 Hz-et) a legidõsebb beszélõnél regisztráltuk, ez megfelel annak a biológiai ténynek, hogy az életkor elõrehaladtával a férfiak hangmagassága növekszik (Balázs 1993). Az F0-állandóság tekintetében az A jelû beszélõnél tapasztaltunk lényegesebb különbséget, a másik háromé igen hasonló. Az intenzitás állandósága az apa és fiai beszédében kis különbségeket mutat, valamivel jobban eltér ettõl a nagybácsié. A jel/zaj viszony adatai az A jelû kivételével mutatnak ismét hasonlóságot. Összegzésképpen kimondható, hogy a fiatalabb testvérek adatai mutatják egymás

között a legnagyobb hasonlóságot; a döntõ faktort, az alaphang-magasságot figyelembe véve az apa és az idõsebb fiú között gyakorlatilag nincs különbség, az apa és a kisebbik fiú közötti eltérés azonban már jól észlelhetõ különbséget eredményez. (Az F0-állandóság és az I-állandóság eltérése a hallgató számára alig, a jel/zaj viszony valamivel nagyobb mértékben észlelhetõ.) Tekintettel az F0 értékére, valamint a percepciós benyomásra, a nagybácsit mint kevéssé hasonló beszédût a további elemzésekben már nem vettük figyelembe. Az idõsebb életkorú testvérek hangjának minõségét lényegesen jobban befolyásolja az általános fiziológiai, egészségi, pszichés állapot, mint a fiatalabbakét, így a hasonlóság nem feltétlenül olyan nagy mértékû, mint a fiatalabbaknál. Esetünkben az ötven év feletti testvérek jelentõsen különbözõ hangmagassága erõsen csökkenti a hasonlósági fokot, bár az

intonációban, a beszédtempóban és a hangsúlyviszonyokban jellegzetes hasonlóságok fedezhetõk fel. Az anyagunkban leggyakrabban elõforduló magánhangzók – az [a:,a ], o, e, e:] és [i] – formánsstruktúráját hangsúlytalan elemeztük helyzetben 8000 Hz-es vizsgáltunk, tartományban. hogy a Valamennyi hangsúlyozás magánhangzót esetleges egyéni megvalósításainak artikulációs különbözõségeit kiküszöböljük. Az elõfordulások száma a beszélõk tekintetében azonos volt (hiszen ugyanazon szöveget rögzítettük magnetofonszalagra), az egyes magánhangzók összes megjelenése azonban értelemszerûen különbözött (legtöbbször az [e] fordult elõ, összesen tizenhatszor, legritkábban az [e:], összesen tizenegyszer). Noha az értékek tendenciaszerûen mutatnak hasonlóságokat, ezek gyakorlatilag megfelelnek az anyanyelvi beszédhangképzés akusztikai következményeinek. Ez azt jelenti, hogy nem a genetikai faktor

esetleges érvényesülése következtében kialakuló értéktartományok. Az egyes beszélõk egyes magánhangzóinak formánsszerkezete is rendszertelenül mutat nagyobb hasonlóságot a három beszélõ között (hol az apa és az egyik fiú, hol a két testvér tekintetében). Szemléltetésül az [o] magánhangzóra kapott formánsértékeket mutatjuk be. A 2 táblázat három-három jellegzetes elõfordulás adatait összegzi, azonos kontextusban. 2. táblázat: Az [o] magánhangzó formánsainak és formáns-sávszélességeinek értékei Formánsok (Hz) F1 F2 F3 F4 F5 F6 A T1 T2 457 270 395 638 211 325 425 580 474 2354 1341 1581 2115 1086 972 2442 2300 573 3627 3084 2801 3450 3301 3267 3383 3120 2871 5861 4374 4342 5417 4565 4349 5616 4395 4524 6585 4876 5987 6539 6228 5766 6707 6521 6184 8547 6188 7547 9138 7055 6519 9218 8546 7184 Az adatok elég nagy szórásról árulkodnak. A

félkövérített számok a beszélõk közötti nagyobb adathasonlóságot jelzik. Az elemzett magánhangzóra ennek alapján a következõk állapíthatók meg: az F1 és az F6 esetében teljesen változóak a formánsértékek a hasonlóság tekintetében. Az F3 és F4 adatai egyértelmûen, az F2 pedig részlegesen a testvérek közötti nagyobb hasonlóságot igazolják. Az F5 ebben az esetben az alap és az egyik fiú közötti nagyobb akusztikai rokonságot jelzi. Bár az összes magánhangzó esetében kimutatható a testvérek beszédének jellegzetes hasonlósága az apáéhoz képest, ez mégsem eredményez olyan szûk frekvenciatartományt, hogy a genetikai faktor letéteményeseként volna kezelhetõ. Az adatok még valamirõl árulkodnak. A fiatal testvérpár felsõbb indexszámú formánsait lényegesen alacsonyabb frekvenciaértékek jellemzik, mint az apáét. Amíg az apa hatodik formánsai nyolcezer és kilencezer Hz-en találhatók, addig a fiaié döntõen

6000 Hz-en és 7000 Hz-en. Az elmondottak tendenciaszerûen az összes többi elemzett magánhangzóra is érvényesek. A formánsértékek mellett adatoltuk a formánsok sávszélességének értékét is, de ezek sem igazoltak nagyobb hasonlóságot az egyes beszélõk között. Amíg például az apánál a hatodik formáns sávszélességének jellegzetes szûkülése található, ez egyik fiánál sem mutatható ki. Az apa és az idõsebb fiú között ugyanakkor vannak bizonyos hasonlóságok több magánhangzó esetében, ilyen például a második formáns sávszélességének jellegzetesen megnövekedett értéke. A esetében 1151 Hz és 1253 Hz, illetõleg T1 esetében 1189 Hz és 1469 Hz. T2 mindhárom értéke 1000 Hz-en belül marad Elemeztük a beszélõk felhangtartományát 1500 Hz-ig. Korábbi vizsgálataink ugyanis jó eredménnyel zárultak a beszélõ személy felismerését illetõen, ha a felhangok adatait vetettük össze (Nikléczy 1996, Gósy 1999). A két

testvér felhangtartománya már a vizuális benyomás alapján is erõteljes hasonlóságról tesz tanúbizonyságot. Az alsóbb frekvenciákon relatíve nagy intenzitású felhangok láthatók, amelyeket csökkenõ intenzitásúak követnek. Az 1 ábrán az január szó []] és [a:] magánhangzóinak felhangszerkezete látható az idõsebb testvér, a 2. ábrán ugyanezek a fiatalabb testvér ejtésérõl készült regisztrátumon. A hangsúlytalan helyzetû [a:] esetében különösen jól látható a két beszélõ ejtése közti erõteljes hasonlóság. Ha ezekhez illesztjük az apa ugyanazon szaváról készült regisztrátumot (3. ábra), megint csak igazolható a hasonlóság, de már nem olyan mértékben, mint a testvérek között. A rokonok beszédérõl kapott adatokat egy, az apával azonos korú „idegen” férfi beszédének elemzett adataival vetettük össze (vö. 4 ábra), akkor azt látjuk, hogy ennek a beszélõnek a felhangszerkezete teljesen más. Nála nem

csökkenõ tendenciájúak az intenzitásviszonyok; három egyértelmûen elkülöníthetõ „csúcs” rajzolódik ki az adott magánhangzótól függetlenül. Elemeztük a szavak idõtartamát mindhárom beszélõnél az izolált ejtésû szavak, illetõleg az olvasott szövegben elõforduló szavak esetében. Jellegzetes különbséget az idõsebb testvérpár és a fiatalok között találtunk, a fiatalok artikulációja mind a mondott, mind az olvasott szavak esetében gyorsabb. A két fiatalabb testvér között nincs lényeges különbség a kiejtésre fordított idõ tekintetében spontán beszédkor. Hasonló megállapítás tehetõ az idõsebb testvérpár esetében is, mindkettõ hasonló idõtartamokban realizálja az egyes lexikai egységeket. Izolált ejtésben az idõsebbek között szintén nem volt jellemzõ különbség, a fiatal testvérek között azonban igen. Ez az eltérés oly nagymértékû, hogy az apa átlagos idõtartamértéke az izolált szavakra

hasonló, mint a nagyobbik fia esetében. Az 5 ábra grafikonja a szavak idõtartamának átlagait szemlélteti az egyes beszélõknél. ms izolált szó szövegszó nagybácsi fiú1 600 500 400 300 200 100 0 apa fiú2 5. ábra Ugyanazon szavak idõtartamának átlaga a négy rokon beszélõ esetében (külön az izolált és a szövegben elõforduló szavakra kapott adatokkal) Következtetések A kutatás kiinduló kérdése az volt, hogy vajon a genetikai tényezõ, azaz az emberek rokonsági foka jelentkezik-e és milyen mértékben beszédükben. Tudjuk, hogy a hallgató döntéshozó folyamatában a beszédjel bizonyos jegyeit használja ahhoz, hogy meghatározza, egy bizonyos személy azonos-e a feltételezettel vagy nem (Nolan et al. 1995) A nehezebb feladat annak eldöntése, hogy melyek ezek a jegyek. Objektív és szubjektív elemzéssel közelítettük meg a problémát, amely tágabb értelemben a beszélõ személynek a beszéde alapján történõ

felismeréséhez kapcsolódik. Két testvérpár beszédét vizsgáltuk, egy idõsebbét és egy fiatalabbét, akik apa és fiai, illetõleg nagybácsi és unokaöccsök rokonsági viszonyban álltak egymással. Az akusztikai és a percepciós kísérletek eredményei alapján az alábbi összefüggést határoztuk meg a genetikai tényezõ megjelenésére a beszédben (a nyilak vastagsága, illetõleg a személyeket jelzõ téglalapok távolsága a beszéd hasonlósági fokának jelzésére szolgál): apa testvére apa idõsebb fiú fiatalabb fiú A jelen kísérletben mindössze egy család tagjai vettek részt; messzemenõ következtetésekre tehát a kapott adatok nem jogosítanak fel. Az a mindennapi tapasztalatunk azonban, hogy – például telefonon keresztül – még a jól ismert családokban is a szorosabb rokoni kapcsolatban lévõket a beszédük, hangjuk, rövid közléseik alapján összetévesztjük, megengedi a következõ hipotézis

megfogalmazását. A rokoni kapcsolatban lévõk beszéde különbözõ mértékben ugyan, de objektív adatokkal alátámaszthatóan hasonló. Minél közelebb állnak egymáshoz életkorban, illetõleg a beszédtervezés és az artikuláció tekintetében, annál nagyobb a beszédük közötti objektív hasonlóság. Ez egyértelmûen megerõsíthetõ az észlelési kísérletek eredményeivel is. A lehallgatók azokat a beszélõket tévesztették össze, akiknél a beszédakusztikai elemzések is nagymértékû hasonlóságot igazoltak. Nem vártunk és nem is várhattunk ugyanakkor tökéletes megfeleléseket, sem a mûszeres, sem az észlelési kísérletek eredményeiben, hiszen különbözõ személyekrõl, egyéni ejtésmódokról van szó, amelyekben a ’genetikai tényezõ’ csupán egy olyan többlet, amely a hasonlóságukat mutatja meg. Ez a tényezõ az objektív és a szubjektív adatok együttesével számértékben is kifejezhetõ. Anyagunkban a

következõképpen Az akusztikai-fonetikai elemzések százalékban megadott hasonlóságai a két felnõtt testvér között 25%, a két fiatalabb testvér között 75%, az apa és a nagyobbik fiú között 65%, az apa és a kisebbik fiú között 35%, a nagybácsi és a két fiú között nem találtunk említésre méltó hasonlóságot. A percepciós teszt eredményei a fiatalabb testvérek között 58,4%-os, az apa és a nagyobbik fiú között 33,4%-os, az apa és a kisebbik fiú között 16,6%-os hasonlóságot adtak. Egyszerûen összegezve az adatokat azt kapjuk, hogy az apa és a fiai beszéde közötti hasonlósági fok 49,2%, illetõleg 34,2%, a két huszonéves testvér között pedig 66,7%. Az adatokból valószínûsíthetõ az apa/anya és fia(i)/lánya(i) beszéde közötti meglehetõs hasonlóság, továbbá a fiatal életkorú, azonos nemû testvérek közötti nagy hasonlóság. Irodalom Balázs Boglárka: Hangképzési zavarok idõskorban. In: Beszédkutatás

1993 Szerk: Gósy Mária – Siptár Péter. MTA Nyelvtudományi Intézet Budapest 1993, 156-166 Coulthard, M.: Forensic discourse analysis In: Advances in Spoken Discourse Analysis Routledge. Ed: Coulthard, M London 1992, 242-258 Crystal, D.: A Dictionary of Phonetics and Linguistics London 1985 Doehring, D.G–Ross, RW: Voice recognition by matching to sample J of Psycholinguistic Res. 1 1972, 233-142 Doddington, G.R–Helms, RE–Hydrick, BM: Speaker verification III Texas Instruments Inc. Report for RDAC, Rome, New York 1976 Frint Tibor: Foniátria. Medicina Budapest 1999 Gocsál Ákos: Életkorbecslés a beszélõ hangja alapján. In: Beszédkutatás ’98 Szerk: Gósy Mária. MTA Nyelvtudományi Intézete Budapest 1998, 122-135 Gordos Géza–Takács György: Digitális jelfeldolgozás. Mûszaki Könyvkiadó Budapest 1983 Gósy Mária: Az egyéni hangszínezet és a beszélõ felismerésének kísérleti-fonetikai megközelítése. Magyar Nyelvõr 123 1999, 424-438 Gósy Mária:

A beszéd akusztikai szerkezetének állandóságáról. In: Nyelv, nyelvész, társadalom. Emlékkönyv Szépe György 65. Születésnapjára barátaitól, kollégáitól, tanítványaitól. II Szerk: Terts István Keraban Könyvkiadó JPTE Pécs 1996, 66-75 Gósy Mária: Állandóság és változás a beszédben. Magyar Nyelv XCVI, 2000/1, 1-14 Gósy Mária–Nikléczy Péter: A beszélõ felismerése: elméleti megalapozás, módszertani közelítések. In: Beszédkutatás ’99 Szerk: Gósy Mária MTA Nyelvtudományi Intézete Budapest 1999, 1-19. Hecker, M.: Speaker recognition: an interpretative survey of the literature ASHA Monogr 16. Washington, DC 1971 Heuvel, H. van den–Cranen, B–Rietveld, T: Speaker characteristics in the coarticulation of three Dutch vowels a, i, u. Proceedings of the XIIIth ICPhS Eds: Elenius, K–Branderud, P. KTH and Stockholm University Vol 2 Stockholm 1995, 742-746 Hollien, H.: Speaker identification by long-term spectra under normal

and distorted speech conditions. JASA 62 1977, 975-980 Hollien, H.: The Acoustics of Crime Plenum Press New York, London 1990 Janota, P.: Personal characteristics of speech Trans Of the Czechoslovak Academy of Sciences – Social Sciences Series 77/1. 1967 Kempelen, W. von: Mechanismus der menschlichen Sprache nebst der Bescreibung seiner sprechenden Maschine. Wien 1791 Künzel, H.J: Field procedures in forensic speaker recognition In: Windsor Lewis, J: Studies in General and English Phonetics. Essays in Honour of Professor J D O’Connor Routledge. London 1995, 68-85 Ladefoged, P.: Expectation affects identification by listening Language and Speech 21/4 1978, 373-375. La Riviere, C.: Acoustic and perceptual correlates to aural speaker identification In: Rigault, A. (ed): Proc 7th ICPhS The Hague 1972, 558-564 Lux Gyula: A nyelv. Athenaeum Budapest, én, de 1926 után Molnár Imre: Eufonétika. A szép beszéd és éneklés tana Kis Akadémia kiadása Budaperst Budapest 1942. Nakasone,

H.–Melvin, C: Computer assisted voice identification system Proceedings IEEEASSP 1988, 587-590 Nikléczy Péter: Beszélõ személy azonosítása szûk frekvenciás szavak alapján. In: Beszédkutatás ’96 Szerk: Gósy Mária MTA Nyelvtudományi Intézete Budapest 1996, 20-31 Nolan, F.: Can the definition of each speaker be expected to come from the laboratory in the next decades? Proceedings of the XIIIth ICPhS. Eds: Elenius, K - Branderud, P KTH and Stockholm University. Vol 3 Stockholm 1995, 130-134 Nolan, F. – Hollien, H – Braun, A – Broeders, P: Forensic phonetics In: Proceedings of 13th ICPhS. Eds: Elenius, K – Branderud, P Vol 3 University of Stockholm Stockholm 1995, 130-142. Regner Tivadar: A magyar nyelv kiejtése. Magyar Akadémiai Értesítõ II Budapest 1862 Schlichting, F.–Sullivan, KPH: Can voice imitation be detected in voice line-ups in a language unknown by the listeners? Phonum 6. 1998, 105-118 Schroder, M. R (ed): Speech and Speaker Recognition

Karger Basel, München 1985 Stevens, K.N: Acoustic Phonetics MIT Press Cambridge, Mass 1998 Vértes O. András: A hang némely tulajdonságának történeti változásáról Magyar Fonetikai Füzetek 3. 1979, 42-48 Vértes O. András: A magyar leíró hangtan története az újgrammatikusokig Akadémiai Kiadó Budapest 1980

Information Technology | Artificial Intelligence » Beszédazonosítás

Most popular documents in this category

Mi a MI? - Mesterséges Intelligencia Könyv

Intelligens rendszerek I. összefoglaló

Hermann Gyula - Mesterséges Intelligencia