Nyelv- és beszédtechnológia Magyarországon
Interjú Váradi Tamással
2009.05.06.
Váradi Tamás az MTA Nyelvtudományi Intézetének Nyelvtechnológiai és Élőnyelvi Osztályát, azon belül a Nyelvtechnológiai Kutatócsoportot vezeti, s mivel az Intézet az ezirányú hazai törekvéseket összefogó Nyelv- és Beszédtechnológiai Platform koordinátora, az ottani munkákban is fontos szerepet tölt be.

- A nyelv- és beszédtechnológia az IT legdinamikusabban fejlődő, az utóbbi években legtöbb konkrét eredményt felmutató szakterületei közé tartozik. Mi a főbb különbség a nyelv- és a beszédtechnológiák között, illetve miként definiálná a két terület jelenlegi legfontosabb célkitűzéseit?

- A két terület távlati céljai megegyeznek és ezek megvalósításához egyre inkább szükséges a konvergenciájuk. Önálló részterületté szerveződésük mögött inkább tudományszociológiai okok állnak, mintsem szilárd szakmai indokok. A nyelvtechnológia hagyományosan a nyelv írott alakjával (szövegekkel) foglalkozik, míg a beszédtechnológia a hangzó formából indul ki, ezért a nyers akusztikai jelenség és a nyelvi egység közötti kapcsolatot is ki kell építenie, amivel az elektronikusan létező szövegek esetében a nyelvtechnológiának nem kell foglalkoznia. Ez sajátos feladatokat és módszerek alkalmazását jelenti a beszédtechnológiában, amelyet egyébként egyre inkább alkalmaznak a nyelvtechnológia területén is. A két terület konvergenciája több szempontból is előrelátható. Nyilvánvaló, hogy a beszéd és az írott szöveg is ugyanazon nyelvi rendszer megnyilvánulása, ilyen értelemben egy bizonyos szint feldolgozása után közös feladatokkal néznek szembe. Ha az alkalmazások oldaláról tekintjük a kérdést, már ma is szembetűnő a trend a beszédre épülő alkalmazások iránt. Ez összhangban van azzal a ténnyel, hogy a nyelv elsődleges közege a hangzó beszéd. Előbb-utóbb az ember-gép kommunikáció döntő mértékben a beszéd útján valósul meg. De csak akkor tud sikeres lenni, ha a beszédet a nyelvi rendszer minél teljesebb modellje támogatja.

- Hogyan látja az ember-gép kommunikáció jövőjét? A beszéd mellett mennyire fontos szerep jut a nem-verbális kommunikációs formáknak?

- Az ember-gép kommunikáció könnyebbé tétele sürgető feladat. A nemrégiben beindított Nemzeti Digitális Közmű alapvető részének tartom a nyelvi infrastruktúra kiépítését. Nem elég csak sávszélességben gondolkodni az internet elterjesztésében, hiszen a billentyűvel vezérelt számítógépes kommunikáció a tömegek számára nem vonzó. Mennyivel más lenne a helyzet, ha magyar nyelven beszélhetnénk a gépekhez, amelyek végrehajtanák kéréseinket, és természetes hangon válaszolnának!

A nem-verbális kommunikáció bizonyos elemei egyre nagyobb szerepet kapnak a kutatásokban. Elsősorban az érzelem kifejeződési formáinak észlelésére és természetes reprodukálására gondolok. Enélkül természetes hangú kommunikáció el sem képzelhető, hiszen nagyon gyakran nem a konkrét szavakkal, hanem azok intonációjával és egyéb prozódiai kísérőjelenségeivel fejezzük ki magunkat.

- Milyen szerepet tölt be, szándékszik betölteni a magyar információs társadalomban az említett Nemzeti Digitális Közmű?

- A Nemzeti Digitális Közmű egy nagyszabású kormányzati kezdeményezés, melynek célja országos lefedettségű informatikai infrastruktúra létrehozása. Abból a felismerésből indult ki, hogy a szélessávú internetelérés alapvető feladat az információs társadalom eléréséhez, ugyanakkor nem várható el, hogy csak üzleti alapon mindenütt kiépüljön. Ezért indította a fejlesztéspolitikai kabinet útjára ezt a tervet, melyet a Magyar Tudományos Akadémián mutattak be az év elején.

- Mióta foglalkozik nyelvtechnológiával, mely részterületekre specializálódott?

- Még a személyi számítógépek megjelenése idején kezdtem el foglalkozni azzal a kérdéssel, hogy mire használhatók a nyelv feldolgozásában. 1990-ben egyéves TEMPUS ösztöndíjjal a Lancasteri Egyetemen bekapcsolódtam, az akkori egyik legnagyobb korpusz, a LOB korpusz szintaktikai elemzésébe, majd a beszélt angol nyelvi adatbázis a MARSEC korpusz munkálataiban vettem részt. 1995-ben hazatérve az Intézetben hamarosan megalakítottam a Korpusznyelvészeti Osztályt, melynek fő feladata volt a Magyar Nemzeti Szövegtár. Tehát korpusznyelvészettel kezdtem el foglalkozni majd később a többnyelvűség kérdéseivel, gépi fordítással, végesállapotú felszíni mondattani elemzéssel. Az utóbbi időben a nyelvtechnológiai infrastruktúrák szervezésén dolgozom egy nagy európai projekt (CLARIN) és nem utolsósorban a Platform keretében.

- Bemutatná röviden a korpusznyelvészetet?

- A korpusznyelvészet célja a nyelvhasználat modellezése nagy méretű szöveges adatbázisok, korpuszok építésével. A korpuszok nem pusztán szövegek egymás mellé rakott halmaza, hanem gondosan összeválogatott gyűjtemény, amelyet nyelvi elemzéssel úgynevezett alaktani, mostanában pedig egyre inkább mondattani annotációval látnak el. Fontos szerepük van a számítógépes alkalmazásokban használt statisztikai eljárásokban és a nyelvhasználat empirikus vizsgálatát célzó kutatásokban.

- Milyen célokat igyekszik megvalósítani a CLARIN projekt?

- A CLARIN (Common Language Resources and Technology Infrastructure) projekt nagyszabású (26 országból 32 partnert tömörítő) kutatási infrastruktúra projekt, melynek célja a tudományos kutatás támogatása a nyelvtechnológia, a nyelvi erőforrások könnyű elérhetővé tételével. Ezt a jelenlegi, elszigetelten működő központok egységes hálózatba szervezésével kívánjuk elérni. A CLARIN-nak szerte Európában ma már több mint 150 központ a tagja, a Nyelvtudományi Intézet a CLARIN alapító szervezete. A Platform-tagok többsége tagja a magyar CLARIN hálózatnak is.



- Hogyan látja a terület hazai fejlődését, mely részein tapasztalható lemaradás a világ „élmezőnyéhez” képest? Melyek a legfőbb hazai műhelyek?

- Magyarország a térségben élvonalbeli szerepet tölt be, de természetesen be kell látni, hogy nem mi diktáljuk a technológiai versenyt. Azt azonban nagyon fontos szem előtt tartani, hogy tevékenységünk a magyar nyelvre irányul. A magyar nyelv gyökeresen eltérő szerkezetű a legtöbb európai nyelvtől, ezért más nyelvekre kidolgozott eljárások egyszerű adaptálása nem járható út. A magyar nyelv- és beszédtechnológia feladata és hivatása a magyar nyelv technológiai támogatása. Ezt a munkát nem fogják a nagy multinacionális vállalatok elvégezni. Már ma is sok jele van annak, hogy bizonyos szint felett egyszerűen nem támogatják a minőség javítását.

Ennek a munkának itt Magyarországon megvannak a kompetens szakmai műhelyei, melyeket a Platform tagjai (AITIA International Informatikai ZRt, Alkalmazott Logikai Laboratórium, BME Szociológia és Kommunikáció Tanszék Média Oktatási és Kutató Központ – MOKK, BME Távközlési és Médiainformatikai Tanszék, Kilgray Fordítástechnológiai Kft, MorphoLogic Kft, MTA Nyelvtudományi Intézet, Szegedi Tudományegyetem Természettudományi és Informatikai Kar Informatikai Tanszékcsoportja) képviselnek.

- Szemléltetne néhány példával más nyelvekre kidolgozott, működő eljárásokat, amelyek a magyarban, a nyelv egyedisége miatt kevésbé funkcionálnak? Hogyan hidalták át a problémákat ezekben a konkrét esetekben?

- A magyar nyelvben a szavak végéhez fűzött toldalékokkal fejezzük ki azt, amit más nyelvekben külön szavakkal vagy akár egész mondattal fejeznek ki. A toldalékok ráadásul egymás után láncba épülnek a szavak végén, ami azt jelenti, hogy az egy tőből képezhető szóalakok száma (különösen, ha a produktív szóösszetételt is figyelembe vesszük) akár több millió is lehet. Nyilvánvaló, hogy itt tehát nem alkalmazható az egyéb nyelvekben, különösen az angolban remekül működő „nyers erő” technológiája, amely egyszerűen listába veszi az összes szóalakot. A magyarban a szóalakok felismerését mindenütt online elemzőnek kell végeznie. Ilyen morfológiai elemzőre jó példa a MorphoLogic Kft. HUMOR rendszere vagy a BME MOKK-ban kifejlesztett HunMorph.

- Milyen szerepet tölt be a 2008-ban alakult Nyelv- és Beszédtechnológiai Platform?

- A Beszéd- és Nyelvtechnológiai Platform kutatásfejlesztő egyetemi/akadémiai műhelyek és ipari partnerek szövetsége, melynek célja lehetővé tenni, hogy természetes, emberi nyelven kommunikáljunk gépekkel. A feladat: a gépeket kell megtanítani arra, hogy értsenek az emberek nyelvén, azaz felruházni mindazzal a rendkívül bonyolult nyelvi tudással, amellyel mi rendelkezünk. Itt nem csak a beszéd és a szövegek előállításának számítógépes támogatásáról van szó, hanem annak az óriási tömegű információnak automatikus és intelligens feldolgozásáról, amely különösen az internet révén, manapság eláraszt minket. Még a mai multimédia uralta korban is igaz az, hogy az emberi tudást végső soron a nyelv közvetíti. Az információs társadalom építésének alapfeltétele tehát, hogy gépekkel minél hatékonyabban fel tudjuk dolgozni az irdatlan tömegű írott vagy hangzó szöveget, és abból tudást építsünk. Különösen fontos felelősségünk a magyar nyelvű infrastruktúra fejlesztése. Bár a fent vázolt kihívást lehetőség szerint nyelvfüggetlen technológia fejlesztésével igyekeznek elérni, de természetesen végső soron az adott nyelvre csakis beható szakértelemmel, valamint gondos munkával előállított adatbázisok és szoftvereszközök révén lehet alkalmazni. Ehhez a Platform nyújtja a legkiválóbb kompetenciát. A Platform egyben az NKTH támogatásával létrejött kétéves projekt is, amelynek egyik fő feladata, hogy meghatározza az iparág jövőképét, készítsen egy stratégiai kutatási tervet, valamint kidolgozza annak megvalósítási tervét.

- Mit gondol az iparág jövőképéről?

- Meg vagyok győződve arról, hogy az iparág nagy fejlődés előtt áll, hiszen az az alapvető gond, hogy manapság gépekkel kommunikálunk, és óriási tömegű emberi nyelvvel kifejezett információt kell feldolgoznunk, ezt pedig csak akkor tudjuk hatékonyan megoldani, ha a gépek nyelvi tudását növeljük. Ezzel lehetővé válik, hogy mi továbbra is természetes módon, emberi nyelven kommunikáljunk a gépekkel, másrészt gépi úton tudjuk feldolgozni azt a rengeteg tudást, amire a mai felgyorsult világban, naprakészen szükségünk van.

- Milyen kutatások folynak jelenleg az MTA Nyelvtudományi Intézetében?

- Az MTA Nyelvtudományi Intézet Kelet-Európában is elsők között volt a nyelvtechnológia alkalmazásában. Az egykori motiváció az volt, hogy amikor a nyolcvanas évek elején új lendületet kapott az akadémiai nagyszótár előkészülete, azt számítógépes módszerekkel, gondosan összeállított szöveges adatbázis, úgynevezett korpusz adatainak felhasználásával tervezték végezni. Ebből a munkából jött létre vezetésem alatt a Korpusznyelvészeti Osztály, melynek első fő feladata a Magyar Nemzeti Szövegtár megalkotása volt. Az MNSZ máig a legnagyobb elemzett magyar nyelvű korpusz, amelyet számítógépes alkalmazásokhoz informatikusok, kutatásokhoz nyelvész kollégák és általános célú érdeklődésre a nagyközönség egyaránt használhat. Időközben az Intézet jórészt a többi platformtaggal szerteágazó kutatásfejlesztő projektben vett részt, gépi fordítás, lexikai adatbázisfejlesztés, információ-kinyerés stb. témákban. Az Intézet elsősorban nyelvi erőforrásfejlesztést és alapkutatást végez. A Beszéd- és Nyelvtechnológiai Platform kezdeményezői és jelenlegi koordinátorai vagyunk. Az alapkutatás jellegű munkák esetünkben nyelvi adatbázisok fejlesztését jelentik. Jelenleg a mondatok vázát alkotó igei szerkezetek automatikus kinyerése az egyik legfontosabb munka, ami nem csak a szintaktikai elemzésben, de a szövegek értelmezésében is nagyon fontos szerepet kap. Egy másik terület, ahol aktívan dolgozunk, az az Intézet közönségszolgálati tevékenységének támogatása nyelvtechnológia eszközökkel. Előkészületben van az igeszerkezetek gyakorisági szótára és dolgozunk a Magyar Nemzeti Szövegtár új változatának előkészítésén.

(kf)