krono.inaplo.hu

  • A betűméret növelése
  • Alapértelmezett betűméret
  • A betűméret csökkentése
iNapló / iNter / Hálózati jelenségek / Az informatika nyelvészeti vonatkozásai

Az informatika nyelvészeti vonatkozásai

Tags: nyelv

A nyelvészetben a század közepétõl ugyanúgy érezhetõ az informatikai megközelítés mint más tudományokban. Itt is törekedtek a matematikai módszerek alkalmazására, így próbálták a természettudományokhoz közelíteni a humán tudományokat. A legfõbb törekvés a nyelv mérhetõ aspektusainak, a nyelv relációs és szerkezeti mozzanatainak vizsgálata és a szintaktikai paradigmatikai rendszertani kérdések tisztázása volt.

A nyelvészet több irányzata sorolható ide: a strukturalizmus, a szemantikai nyelvészet, a generatív grammatika, összefoglaló néven a matematikai nyelvészet. 

A módszereket is más tudományoktól kölcsönözték, a halmazelmélettõl, az információelmélettõl, a kibernetikától és a kommunikációelmélettõl. A számítógép eszközévé vált a nyelvstatisztikai vizsgálatoknak, és a nyelvi modellek készítésének. A nyelvészet eredményeit használják a gépi fordítás és a gépi szövegfordítás fejlesztésénél.
A strukturalizmus irányzata Saussure nevéhez fûzõdik. Saussure szerint a beszéd a nyelv egyéni megvalósulása. A nyelv a beszédbõl alakul ki, a beszéd létformája.A generatív grammatika kifejlesztõje Noam Chomsky.

A Chomsky féle generatív nyelvelmélet alaptétele, hogy bármely természetes nyelv grammatikájában vannak olyan szabályok, melyek ciklikusan akárhányszor alkalmazhatóak, s ezáltal véges számú szabálygyûjtemény segítségével mondatok végtelen sokasága generálható. Ezzel magyarázható, hogy az ember hogyan ért meg ismeretlen, korábban sosem hallott mondatokat. A kompetencia ezen szabályok ismerete, a performancia tényleges használata.
A beszéd során elõször a mondanivaló mélyszerkezetét hozzuk létre, melybõl transzformáljuk a mondat felszíni szerkezetét, amelyet aztán mondattá formálva leírunk, kiejtünk.

A gépi fordítás igényének felmerülésekor a kezdeti lelkesedés igen nagy volt, de nem voltak meg a kellõ elméleti alapok a gépek megfelelõ mûködéséhez. A gépi fordítás ról Weaver így ír.: az ember természetesen elcsodálkozik, ha azt hallja, hogy a gépi fordítás nem más mint egy titkosírás megfejtése. A fordítások elsõ eredményei nem túl bíztatóak, a fordítások tele vannak hibákkal. A pontos nyelvészeti elmélet hiányzott.Bebizonyosodott, hogy a nyelv formális egzaktsága nem elegendõ, a szavak, mondatok jelentése is ugyanolyan fontos.

A statisztikai vizsgálat a nyelv másik információelméleti megközelítése. A nyelv véges számú jelbõl áll, és alkalmazása nem más, mint választások sora az elemek közül.A beszélt nyelvben a fonémák sorára is alkalmazható a shannoni képlet. Kiszámíthatjuk a fonémasor információtartalmát, elemei elõfordulási valószínûségét , hírértékét és a redundanciát is.A nagyfokú redundanciának köszönhetõ, hogy a beszédet nagy zaj ellenére is megértjük, kevésbé sérülékeny mint más akusztikus jelrendszer. Például az ismeretlen zenét könnyen értelmezhetetlenné teszi a zaj.


Az írott szöveg könnyebben vizsgálható. Az elsõ betûgyakoriság vizsgálatot már 1380-ban elvégezték, célja a titkosírás készítés volt, majd Morse is betûgyakoriság alapján optimalizálta a kódhosszúságokat. Az angol nyelv elsõ információelméleti vizsgálatát Shannon végezte el. A magyar nyelv egyes betûinek információtartalmát is vizsgálták, ám ezek az eredmények nem túl sokatmondóak. A betûkettõsök, hármasok vizsgálata már pontosabb eredményre vezet. Az információérték mindig függ a befogadótól.


A valószínûség alapján számos kísérlet történt gépi szövegformálásra is. Értelmes szöveget csak olyan szoftverekkel sikerült generálni, amelyek szintaktikai sorrendiséget és szavakkal feltöltött paradigmakészleteket kezeltek. Jó példa erre Papp Tibor disztichongenerátora. Papp Tibor létrehozott egy programot, amelyben tizenhat billió disztichon lehetõsége rejlik.
A disztichon versformáját kielégítõ mondatszerkezet valós szavakkal töltõdik fel. A huszonnégy üres, szavakkal feltöltetlen disztichon-szerkezetbe olyan költõi szóhasználatok, stilisztikai fordulatok, képek kerülnek, amelyek nem csak a formai követelményeknek tesznek eleget, hanem a poétikai kíváncsiságot is kielégítik. (Bohár András: A forma és a disztichon)
A szavak szintjén való vizsgálatoknál a kutatások ismét szemantikai falba ütköztek. A szavak információtartalmát a szógyakoriság alapján nehéz számolni. Ahhoz, hogy egy szövegminta kielégítõ módon reprezentáljon egy adott nyelvet, nagyon sok jól megválasztott minta szükséges. A leggyakoribb szavak általában a legrövidebbek. Ezeket a vizsgálatokat gyakran kéne ismételni, mert a szókészlet a nyelv legváltozékonyabb része.A hangtani, szótani, mondattani szabályok tovább korlátozzák a szabad szóválasztás lehetõségeit, s növelik a redundanciát, ennek köszönhetõen a nyelvi közleményekben az információtartalom tehát nem oszlik el egyenletesen.


De ugyanez érvényes bekezdési szinten is, a retorika szabályai szerint. A nyelv nagymértékû redundanciája mégsem tekinthetõ egyértelmûen a hatékonyságot rontó jelenségnek, hiszen nemcsak az átvitel biztonságát növeli, de a kifejezés gazdagságát is.


Bár elméletileg készíthetõ lenne olyan statisztika, ami minden szempontot és szabályt figyelembe véve súlyozza egy szövegben a betûk, szavak elõfordulási valószínûségét, s ezáltal pontos értéket ad a szöveg információtartalmáról, az eredmény mégis semmitmondó lenne, hiszen azt képtelenség lenne összehasonlítani más szövegek ugyanígy kapott értékeivel. A szövegek információtartalma címzettjükkel, az üzenet vevõjével is összefüggésben áll.
A szókészletvizsgálatok célravezetõbbek egy-egy költõ, író szókincse esetében. Ezek a vizsgálatok (pl. létezik Petõfi szótár) stilisztikai szempontból érdekesek.
Másik fontos terület a beszéd és írás, mint pszicholingvisztikai és kommunikációs folyamat elemzése.
A beszédtevékenység során a redundanciamentes, tartalomorientált beszédbõl kódoljuk az egyezményes nyelvnek megfelelõ mondatainkat. Ki kell választani a mondandót leginkább fedõ szavakat, közlési egységekbe kell állítani, toldalékolni kell õket, és ki kell választanunk a kimondáshoz szükséges fonémákat.
Több elmélet is született, hogy agyunk hogyan tárolja emlékezetünk a szükséges elemeket. Egyes kutatások alapján sejthetõ, hogy agyunk a szavakat fogalmi kategóriák szerint rendezi , másrészt nyelvbotlás-vizsgálatok alapján az derült ki, hogy általában értelmes szavak a nyelvbotlás eredményei, amelyek nyelvtanilag helyesek, mondattanilag a helyükön vannak, hangtanilag pedig sohasem hibásak: a botlás többnyire szemantikai. Ebbõl arra következtethetünk, hogy agyunk a szavakat nyelvtanilag is elõrendezve tárolja.


Vélhetõen fontos hibajavító szerepe van annak is, hogy beszéd közben halljuk saját hangunkat, és látjuk a hallgató reakcióit.


A beszélt nyelvi követelmények szerint kódolt mondandó kimondása újabb kódolást jelent. Az artikulációs program kidolgozása, az idegpályákon az izmokhoz futó parancsok sokasága, a szükséges mozgás elvégzése.
Beszéd közben folyamatosan zajlik a kódolás is, a mondatok menet közben alakulnak ki, a beszédszituáció változásainak megfelelõen módosulhatnak


A folyamat sebessége, összetettsége gyakorlatilag kizárja, hogy teljesen tudatos tevékenység lehessen a beszéd,ugyanakkor reflexszerûen sem lehet beszélni, különben nem tudnánk reagálni ismeretlen gondolatokra, új helyzetekre.A megoldás az, hogy a beszédfunkciók genetikailag kódolva vannak az emberbe, s beszéd közben mintegy megtámogatják a tudatos agyi tevékenységet, vezérlik a megformálás és kiejtés tevékenységét.
A megértés folyamatából több elmélet is tartja magát.

Az elsõ szerint a felismerés alulról felfelé három szinten, fonetikai, szintaktikai majd szemantikai szinten megy végbe, kötött sorrendiséggel
A másik vélemény szerint a megértést egymástól független modulok valósítják meg, amelyek részben egymástól függetlenül, részben egymással kölcsönhatásban mûködnek
A harmadik szerint a különbözõ szintû elemzések egymással állandó kölcsönhatásban párhuzamosan történnek, semmiféle sorrendiség nincs, ide-oda kapcsolunk, a lehetõ legnagyobb sebesség elérése érdekében


Végezetül van olyan elképzelés, mely szerint elõbb a nagyobb beszédegységeket, mondatokat, szövegegységeket értjük meg, s csak aztán bontjuk fel, ismerjük fel a szintaktikai struktúrát, azonosítva a fonémikus komponenseket. A mesterséges intelligenciakutatás számára izgalmas kérdés a téma-réma váltakozás is. 


Az emlékezetben a megértés során a már elhangzott, az új üzenetben megerõsített egységek vélhetõen átmenetileg kihangsúlyozódnak, csomópontokat alkotnak, s ezekhez rendeljük hozzá az új, még bizonytalan információt, aminthogy a korábbi, általánosan ismert tudáshoz viszonyítjuk a frisset.Információelméleti szempontból mondandónk továbbítására két univerzális kód áll rendelkezésünkre, a beszéd mellett a másik az írás. Bár megoldható a beszéd kódolása is vizuális kódba, a kinyomtatott hanghullámokat viszonylag kevesen képesek folyamatosan olvasni


Az írás, olvasás szerepe ma, korábbi jóslatok dacára egyre hangsúlyosabb. Az írás elõnye és hátránya a beszéddel szemben egyaránt maradandóságában rejlik: nem tárolja a hanglejtést, mimikát, gesztusokat, viszont fennmarad.


Eredete is a nyilvántartás köznapi gazdasági szükségletére vezethetõ vissza, az i.e.3000-es uruki kõtáblák feliratai állatok, állati termékek számbavételei voltak. A betûírásra i.e .13. sz.-ban találtak rá a fõniciaiak, s ez szolgált alapjául mind a latin, mind héber, arab és cirill betûs írásnak. A kínai, japán írás bármennyire is jelentõs a használata, voltaképp kezdetlegesebb.Az írás elõnye még, hogy van idõnk közben gondolkozni, s ennek köszönhetõ, hogy az eredetileg rögzítésre szolgáló kód önálló közlésmódként is funkcionálni kezdett levelekben, memoárokban. Az írás fogyatékosságainak ellensúlyozására számos kísérlet történt, gondoljunk elsõsorban a tipográfiára, melyet mûvészi rangra emelt a képvers, az avantgard.

További irodalom:

 

 
inapimag007.jpg

Kapcsolódó írások