Főoldal|Keresés|Oldaltérkép
Hírek|Konferenciák|Publikációk|Források|Linkek
Agent Portál a jövő információtechnológiájáról az AITIA International Zrt szerkesztésében az NHIT együttműködésével
Általános MI
MI részterületek
Magyar kutatók
Külföldi kutatók
Emergencia, ágensek
Mesterséges élet, szimuláció
Robotika
Internet, networking
Információs társadalom
NHIT
Hírközlés
Biotech, nanotech
Rövid hírek
 > Főoldal >  Hírek  >  Magyar kutatók  > 
Nyelv- és beszédtechnológia Magyarországon
Interjú Váradi Tamással
2009.05.06.
Váradi Tamás az MTA Nyelvtudományi Intézetének Nyelvtechnológiai és Élőnyelvi Osztályát, azon belül a Nyelvtechnológiai Kutatócsoportot vezeti, s mivel az Intézet az ezirányú hazai törekvéseket összefogó Nyelv- és Beszédtechnológiai Platform koordinátora, az ottani munkákban is fontos szerepet tölt be.
<< 2/2

- Hogyan látja a terület hazai fejlődését, mely részein tapasztalható lemaradás a világ „élmezőnyéhez” képest? Melyek a legfőbb hazai műhelyek?

- Magyarország a térségben élvonalbeli szerepet tölt be, de természetesen be kell látni, hogy nem mi diktáljuk a technológiai versenyt. Azt azonban nagyon fontos szem előtt tartani, hogy tevékenységünk a magyar nyelvre irányul. A magyar nyelv gyökeresen eltérő szerkezetű a legtöbb európai nyelvtől, ezért más nyelvekre kidolgozott eljárások egyszerű adaptálása nem járható út. A magyar nyelv- és beszédtechnológia feladata és hivatása a magyar nyelv technológiai támogatása. Ezt a munkát nem fogják a nagy multinacionális vállalatok elvégezni. Már ma is sok jele van annak, hogy bizonyos szint felett egyszerűen nem támogatják a minőség javítását.

Ennek a munkának itt Magyarországon megvannak a kompetens szakmai műhelyei, melyeket a Platform tagjai (AITIA International Informatikai ZRt, Alkalmazott Logikai Laboratórium, BME Szociológia és Kommunikáció Tanszék Média Oktatási és Kutató Központ – MOKK, BME Távközlési és Médiainformatikai Tanszék, Kilgray Fordítástechnológiai Kft, MorphoLogic Kft, MTA Nyelvtudományi Intézet, Szegedi Tudományegyetem Természettudományi és Informatikai Kar Informatikai Tanszékcsoportja) képviselnek.

- Szemléltetne néhány példával más nyelvekre kidolgozott, működő eljárásokat, amelyek a magyarban, a nyelv egyedisége miatt kevésbé funkcionálnak? Hogyan hidalták át a problémákat ezekben a konkrét esetekben?

- A magyar nyelvben a szavak végéhez fűzött toldalékokkal fejezzük ki azt, amit más nyelvekben külön szavakkal vagy akár egész mondattal fejeznek ki. A toldalékok ráadásul egymás után láncba épülnek a szavak végén, ami azt jelenti, hogy az egy tőből képezhető szóalakok száma (különösen, ha a produktív szóösszetételt is figyelembe vesszük) akár több millió is lehet. Nyilvánvaló, hogy itt tehát nem alkalmazható az egyéb nyelvekben, különösen az angolban remekül működő „nyers erő” technológiája, amely egyszerűen listába veszi az összes szóalakot. A magyarban a szóalakok felismerését mindenütt online elemzőnek kell végeznie. Ilyen morfológiai elemzőre jó példa a MorphoLogic Kft. HUMOR rendszere vagy a BME MOKK-ban kifejlesztett HunMorph.

- Milyen szerepet tölt be a 2008-ban alakult Nyelv- és Beszédtechnológiai Platform?

- A Beszéd- és Nyelvtechnológiai Platform kutatásfejlesztő egyetemi/akadémiai műhelyek és ipari partnerek szövetsége, melynek célja lehetővé tenni, hogy természetes, emberi nyelven kommunikáljunk gépekkel. A feladat: a gépeket kell megtanítani arra, hogy értsenek az emberek nyelvén, azaz felruházni mindazzal a rendkívül bonyolult nyelvi tudással, amellyel mi rendelkezünk. Itt nem csak a beszéd és a szövegek előállításának számítógépes támogatásáról van szó, hanem annak az óriási tömegű információnak automatikus és intelligens feldolgozásáról, amely különösen az internet révén, manapság eláraszt minket. Még a mai multimédia uralta korban is igaz az, hogy az emberi tudást végső soron a nyelv közvetíti. Az információs társadalom építésének alapfeltétele tehát, hogy gépekkel minél hatékonyabban fel tudjuk dolgozni az irdatlan tömegű írott vagy hangzó szöveget, és abból tudást építsünk. Különösen fontos felelősségünk a magyar nyelvű infrastruktúra fejlesztése. Bár a fent vázolt kihívást lehetőség szerint nyelvfüggetlen technológia fejlesztésével igyekeznek elérni, de természetesen végső soron az adott nyelvre csakis beható szakértelemmel, valamint gondos munkával előállított adatbázisok és szoftvereszközök révén lehet alkalmazni. Ehhez a Platform nyújtja a legkiválóbb kompetenciát. A Platform egyben az NKTH támogatásával létrejött kétéves projekt is, amelynek egyik fő feladata, hogy meghatározza az iparág jövőképét, készítsen egy stratégiai kutatási tervet, valamint kidolgozza annak megvalósítási tervét.

- Mit gondol az iparág jövőképéről?

- Meg vagyok győződve arról, hogy az iparág nagy fejlődés előtt áll, hiszen az az alapvető gond, hogy manapság gépekkel kommunikálunk, és óriási tömegű emberi nyelvvel kifejezett információt kell feldolgoznunk, ezt pedig csak akkor tudjuk hatékonyan megoldani, ha a gépek nyelvi tudását növeljük. Ezzel lehetővé válik, hogy mi továbbra is természetes módon, emberi nyelven kommunikáljunk a gépekkel, másrészt gépi úton tudjuk feldolgozni azt a rengeteg tudást, amire a mai felgyorsult világban, naprakészen szükségünk van.

- Milyen kutatások folynak jelenleg az MTA Nyelvtudományi Intézetében?

- Az MTA Nyelvtudományi Intézet Kelet-Európában is elsők között volt a nyelvtechnológia alkalmazásában. Az egykori motiváció az volt, hogy amikor a nyolcvanas évek elején új lendületet kapott az akadémiai nagyszótár előkészülete, azt számítógépes módszerekkel, gondosan összeállított szöveges adatbázis, úgynevezett korpusz adatainak felhasználásával tervezték végezni. Ebből a munkából jött létre vezetésem alatt a Korpusznyelvészeti Osztály, melynek első fő feladata a Magyar Nemzeti Szövegtár megalkotása volt. Az MNSZ máig a legnagyobb elemzett magyar nyelvű korpusz, amelyet számítógépes alkalmazásokhoz informatikusok, kutatásokhoz nyelvész kollégák és általános célú érdeklődésre a nagyközönség egyaránt használhat. Időközben az Intézet jórészt a többi platformtaggal szerteágazó kutatásfejlesztő projektben vett részt, gépi fordítás, lexikai adatbázisfejlesztés, információ-kinyerés stb. témákban. Az Intézet elsősorban nyelvi erőforrásfejlesztést és alapkutatást végez. A Beszéd- és Nyelvtechnológiai Platform kezdeményezői és jelenlegi koordinátorai vagyunk. Az alapkutatás jellegű munkák esetünkben nyelvi adatbázisok fejlesztését jelentik. Jelenleg a mondatok vázát alkotó igei szerkezetek automatikus kinyerése az egyik legfontosabb munka, ami nem csak a szintaktikai elemzésben, de a szövegek értelmezésében is nagyon fontos szerepet kap. Egy másik terület, ahol aktívan dolgozunk, az az Intézet közönségszolgálati tevékenységének támogatása nyelvtechnológia eszközökkel. Előkészületben van az igeszerkezetek gyakorisági szótára és dolgozunk a Magyar Nemzeti Szövegtár új változatának előkészítésén.

(kf)

<< 2/2
A www.agent.ai vebszájton található tartalom az AITIA International Zrt. szellemi tulajdona.
A cikkek másodközlését megelőzően vegye fel a kapcsolatot szerkesztőségünkkel.
Cikk küldése ismerősnek
Nyomtatóbarát verzió
 Kapcsolódó anyagok
 CLARIN
 MTA Nyelvtudományi Intézet, Magyar Nemzeti Szövegtár
 MTA: Mi a Nemzeti Digitális Közmű?
 Nyelv- és Beszédtechnológiai Platform
 Váradi Tamás
Feliratkozás
hírlevélre

Feliratkozás az Rss csatornára RSS
Hajrá Peti!
Jogvédelem|Oldaltérkép|Impresszum