- A nyelv- és beszédtechnológia az IT legdinamikusabban fejlődő, az utóbbi években legtöbb konkrét eredményt felmutató szakterületei közé tartozik. Mi a főbb különbség a nyelv- és a beszédtechnológiák között, illetve miként definiálná a két terület jelenlegi legfontosabb célkitűzéseit?
- A két terület távlati céljai megegyeznek és ezek megvalósításához egyre inkább szükséges a konvergenciájuk. Önálló részterületté szerveződésük mögött inkább tudományszociológiai okok állnak, mintsem szilárd szakmai indokok. A nyelvtechnológia hagyományosan a nyelv írott alakjával (szövegekkel) foglalkozik, míg a beszédtechnológia a hangzó formából indul ki, ezért a nyers akusztikai jelenség és a nyelvi egység közötti kapcsolatot is ki kell építenie, amivel az elektronikusan létező szövegek esetében a nyelvtechnológiának nem kell foglalkoznia. Ez sajátos feladatokat és módszerek alkalmazását jelenti a beszédtechnológiában, amelyet egyébként egyre inkább alkalmaznak a nyelvtechnológia területén is. A két terület konvergenciája több szempontból is előrelátható. Nyilvánvaló, hogy a beszéd és az írott szöveg is ugyanazon nyelvi rendszer megnyilvánulása, ilyen értelemben egy bizonyos szint feldolgozása után közös feladatokkal néznek szembe. Ha az alkalmazások oldaláról tekintjük a kérdést, már ma is szembetűnő a trend a beszédre épülő alkalmazások iránt. Ez összhangban van azzal a ténnyel, hogy a nyelv elsődleges közege a hangzó beszéd. Előbb-utóbb az ember-gép kommunikáció döntő mértékben a beszéd útján valósul meg. De csak akkor tud sikeres lenni, ha a beszédet a nyelvi rendszer minél teljesebb modellje támogatja.

- Hogyan látja az ember-gép kommunikáció jövőjét? A beszéd mellett mennyire fontos szerep jut a nem-verbális kommunikációs formáknak?
- Az ember-gép kommunikáció könnyebbé tétele sürgető feladat. A nemrégiben beindított Nemzeti Digitális Közmű alapvető részének tartom a nyelvi infrastruktúra kiépítését. Nem elég csak sávszélességben gondolkodni az internet elterjesztésében, hiszen a billentyűvel vezérelt számítógépes kommunikáció a tömegek számára nem vonzó. Mennyivel más lenne a helyzet, ha magyar nyelven beszélhetnénk a gépekhez, amelyek végrehajtanák kéréseinket, és természetes hangon válaszolnának!
A nem-verbális kommunikáció bizonyos elemei egyre nagyobb szerepet kapnak a kutatásokban. Elsősorban az érzelem kifejeződési formáinak észlelésére és természetes reprodukálására gondolok. Enélkül természetes hangú kommunikáció el sem képzelhető, hiszen nagyon gyakran nem a konkrét szavakkal, hanem azok intonációjával és egyéb prozódiai kísérőjelenségeivel fejezzük ki magunkat.
- Milyen szerepet tölt be, szándékszik betölteni a magyar információs társadalomban az említett Nemzeti Digitális Közmű?
- A Nemzeti Digitális Közmű egy nagyszabású kormányzati kezdeményezés, melynek célja országos lefedettségű informatikai infrastruktúra létrehozása. Abból a felismerésből indult ki, hogy a szélessávú internetelérés alapvető feladat az információs társadalom eléréséhez, ugyanakkor nem várható el, hogy csak üzleti alapon mindenütt kiépüljön. Ezért indította a fejlesztéspolitikai kabinet útjára ezt a tervet, melyet a Magyar Tudományos Akadémián mutattak be az év elején.
- Mióta foglalkozik nyelvtechnológiával, mely részterületekre specializálódott?
- Még a személyi számítógépek megjelenése idején kezdtem el foglalkozni azzal a kérdéssel, hogy mire használhatók a nyelv feldolgozásában. 1990-ben egyéves TEMPUS ösztöndíjjal a Lancasteri Egyetemen bekapcsolódtam, az akkori egyik legnagyobb korpusz, a LOB korpusz szintaktikai elemzésébe, majd a beszélt angol nyelvi adatbázis a MARSEC korpusz munkálataiban vettem részt. 1995-ben hazatérve az Intézetben hamarosan megalakítottam a Korpusznyelvészeti Osztályt, melynek fő feladata volt a Magyar Nemzeti Szövegtár. Tehát korpusznyelvészettel kezdtem el foglalkozni majd később a többnyelvűség kérdéseivel, gépi fordítással, végesállapotú felszíni mondattani elemzéssel. Az utóbbi időben a nyelvtechnológiai infrastruktúrák szervezésén dolgozom egy nagy európai projekt (CLARIN) és nem utolsósorban a Platform keretében.

- Bemutatná röviden a korpusznyelvészetet?
- A korpusznyelvészet célja a nyelvhasználat modellezése nagy méretű szöveges adatbázisok, korpuszok építésével. A korpuszok nem pusztán szövegek egymás mellé rakott halmaza, hanem gondosan összeválogatott gyűjtemény, amelyet nyelvi elemzéssel úgynevezett alaktani, mostanában pedig egyre inkább mondattani annotációval látnak el. Fontos szerepük van a számítógépes alkalmazásokban használt statisztikai eljárásokban és a nyelvhasználat empirikus vizsgálatát célzó kutatásokban.
- Milyen célokat igyekszik megvalósítani a CLARIN projekt?
- A CLARIN (Common Language Resources and Technology Infrastructure) projekt nagyszabású (26 országból 32 partnert tömörítő) kutatási infrastruktúra projekt, melynek célja a tudományos kutatás támogatása a nyelvtechnológia, a nyelvi erőforrások könnyű elérhetővé tételével. Ezt a jelenlegi, elszigetelten működő központok egységes hálózatba szervezésével kívánjuk elérni. A CLARIN-nak szerte Európában ma már több mint 150 központ a tagja, a Nyelvtudományi Intézet a CLARIN alapító szervezete. A Platform-tagok többsége tagja a magyar CLARIN hálózatnak is.