I. Az ideális virtuális szótár
lexikográfia, adatbázis, szócikk, címszó, ekvivalens, minősítés, célnyelv, forrásnyelv, rétegnyelv, frazeologizmus, kiejtés, helyesírás, keresőmotor, web 2.0, wiki, Wikipédia
Milyen legyen egy ideális on-line szótár? Milyen elvárásoknak kellene megfelelnie? A hagyományos szótárak mely tulajdonságait vigye tovább, s milyen új alkalmazásokkal bővüljön a kereshetőség és frissíthetőség alapvető vívmányai mellett? Az első részben ezeket a kritériumokat kíséreljük meg rendszerbe szedni, továbbá kitérünk a szótáradatbázis problémájára.
Mielőtt a konkrét szótárak elemzésébe kezdenék, tekintsük át, hogy igényes, a mindennapi életben is szótárt forgató, internetes felhasználóként milyen elvárásokat támaszthatunk egy ideális on-line szótárral szemben. Az elvárások megfogalmazása során az egyébként alapvető piaci szempontokra (költség- és munkaerőigény, megtérülési szempontok, a lehetséges szolgáltatások és a felhasználók valós igényei közti különbség, ha a felhasználók igényei az alacsonyabbak stb.) nem voltam tekintettel, továbbá nem tudom megítélni, programozói szempontból a technikai fejlettség jelenlegi fokán valamennyi felsorolt elvárás kivitelezhető-e (a később elemzett konkrét szótárak alapján látni fogjuk, hogy nagy részük már részben vagy teljes egészében megvalósult, csak nem együtt, vagy ha nem valósult meg, annak nem technikai, hanem anyagi okai vannak, így jó okunk van feltételezni, hogy az alábbi követelmények nem teljesen irreálisak).
Az elvárt tulajdonságokat három csoportba sorolhatjuk:
1. Formátumtól függetlenül, bármely adatbázissal szemben támasztható általános elvárások:
– a célkitűzéshez mérten legyen teljes (egy szótár esetében pl. ha a cél egy üzleti szakszótár létrehozása, akkor a címszóállomány e szakszavakra korlátozódjon, de azon belül a teljességre törekedjen)
– adataiban legyen pontos, az adott tudományág/szakma (jelen esetben a lexikográfia, illetve az adott nyelv) mindenkori aktuális állásának megfelelő
– struktúrájában legyen egységes (szótárak esetében a szócikkek egységes felépítésére gondolhatunk, pl. adott adatelemeket, mint az ekvivalensek, minősítések, nyelvtani kiegészítések egységes formában rögzítsék, továbbá pl. a hasonló jellegű adatok-szócikkek, mint földrajzi nevek, személyes névmások, hónapok nevei, szintén azonos módon, következetesen épüljenek fel)
– legyen felhasználóbarát (egy könyv esetében gondolhatunk pl. az áttekinthető tipográfiára; elektronikus szótárak esetében pedig pl. a csak releváns találatok megjelenítésére)
– az adott formátum adta lehetőségeken belül legyen mód az adatbázis frissítésére, javítására, bővítésére.
2. A hagyományos, nyomtatott szótárral szemben támasztott elvárások – a fentieken túl ezek elsősorban a szócikkek tartalmára vonatkoznak:
– informáljon a szó kiejtéséről, hangsúlyozásáról (amennyiben ez az adott nyelv kiejtési szabályaitól eltér – de akár szabályos kiejtésű nyelveknél is megadható)
– informáljon a szó helyesírásáról, elválasztásáról (előbbi a szó megadásával automatikusan megtörténik, de kivételes esetben, pl. egy helyesírási reformkor informatív lehet a korábbi íráskép megadása is)
– az egyes jelentésváltozatokat egyértelmű magyarázattal ellátva adja meg
– adja meg a szó helyes használatához szükséges nyelvtani információkat (pl. szófaj, rendhagyó ragozási alakok, tőváltozatok, nyelvtani nem, ragozási osztály)
– adjon tájékoztatást az adott szó vagy kifejezés rétegnyelvi használatáról (regionális nyelvhasználat, pl. amerikai angol, svájci német; stílusréteg, pl. köznyelvi, emelkedett; szaknyelvi jelentések)
– adjon meg az adott címszó használatát illusztráló élőnyelvi példákat, különös tekintettel az állandósult kifejezésekre, frazeologizmusokra, amelyek célnyelvi megfelelője nem állítható össze automatikusan a kifejezést alkotó szavak fordításával
– ha egy címszónak nem létezik célnyelvi ekvivalense, utaljon erre, és körülírással adja meg a címszó jelentését
– az oda-vissza keresések ne adjanak eltérő eredményt (ha az alma apple, az apple-nél is alma szerepeljen, természetesen csak adott jelentésváltozatra vonatkoztatva).
3. Az elektronikus, illetve on-line formátumból következő elvárások – ezek nagyrészt a keresőmotorhoz és a frissíthetőséghez kapcsolódó szolgáltatások, továbbá ide kapcsolódnak mindazok az aktuális fejlesztéseknek megfelelő, innovatív szolgáltatások, amelyek egy-egy ilyen szótárfelületet még vonzóbbá tehetnek (pl. multimédiás, közösségi alkalmazások). Míg az első két csoport viszonylag zártnak tekinthető, természetéből adódóan ez a csoport nyitott a mindenkori kreatív ötletekre, így az ésszerűség határáig szabadon bővíthető:
a) a keresőmotorhoz kapcsolódó elvárások:
– mivel az állomány nincs terjedelmi korlátokhoz és a fizikai formátumhoz kötve, a lehető legtöbb (az összes) nyelvkombinációban legyen lehetséges a keresés (természetesen, ez a virtuális világkönyvtár mintájára meglehetősen utópisztikus elképzelés)
– legyen megoldható (pl. szűrők beállításával), hogy az adatbázis mely részében keresünk (pl. csak szaknyelv), illetve milyen részletes megjelenítést kérünk (pl. csak címszó, példák is stb.)
– kereséskor legyen választható opció, hogy pontos kifejezésre keresünk-e, vagy a megadott karakterlánccal kezdődő valamennyi találatra, azaz teljes vagy szó eleji egyezéssel keressük-e a szavakat
– a keresőszoftver legyen képes lemmatizálni, azaz a nem szótári alak (lemma) formában megadott keresőkifejezések alapján is meg tudja találni a kívánt ekvivalenst (pl. bokrok-ból a bokor megfelelőjét)
– adott keresőkifejezést ne csak a címszavak között, hanem más címszavak példáinak szövegében is keressen
– a keresőkifejezések elgépeléséből adódó hibákat szűrje ki (csak bizonyos korlátok között lehetséges, rövid szavaknál, mikor az elgépelés is létező címszót ad, nem)
b) egyéb elvárások:
– a kiejtés bemutatására a transzkripció mellett tartalmazzon audiofájlokat, hogy a kiejtés meghallgatható legyen
– bizonyos megszorítások között, amennyiben ez információértékkel bír (pl. szakszavak, a képes szótárak hagyományos anyaga), a kifejezés mellett közölje az illető dolog képét, videóját
– adjon meg további információkat a címszóról (pl. gyakoriság, szókörnyezet, szinonimák, antonimák); ha léteznek ilyenek, teremtsen kapcsolatot olyan célnyelvi egynyelvű szótárak, illetve szöveges adatbázisok honlapjaival, amelyek a fenti vagy egyéb információval szolgálnak (pl. idézetek gyűjteménye, melyek az illető kifejezést élőnyelvi szövegkörnyezetben tartalmazzák)
– egyfajta mashup szolgáltatásként a beépített példákon túl legyen lehetőség további példák kérésére olyan weblapokról, melyek az illető kifejezést tartalmazzák (pl. egy beépített Google-keresővel)
– az oldal legyen interaktív, azaz a felhasználóknak legyen módjuk az adatállományt javítani, bővíteni (ehhez álljon a rendelkezésükre útmutató, a meglévő szócikkstruktúra megőrzését elősegítő szócikkminta), de szerkesztéseik csak szakmai kontroll után legyenek véglegesítve
– a felhasználót segítsék munkájában olyan személyes beállítási lehetőségek, mint pl. korábbi keresések elmentése, megjelenítése; keresési találatok más formátumba konvertálása)
– legyen olyan közösségi felület, amelyen a felhasználók és a szótár készítői, a honlap üzemeltetői/karbantartói kapcsolatba tudnak lépni egymással, és megoszthatják egymással kérdéseiket, javaslataikat (pl. hiányzó kifejezésre felhívhatják a figyelmet, ha maguk nem tudnak ekvivalenst adni).
Mivel az ideális minőség elérése szempontjából nem releváns, milyen módon érjük el, a fenti kitételek között nem szerepel, viszont mindenképpen ki kell térnünk még egy kérdésre, mely a szótárkészítés alapvető feltétele: magának a szótáradatbázisnak az eredetére. Amennyiben a szótárkészítőnek vagy szótárkiadónak van választási lehetősége, a teljes munkafolyamatot meghatározó döntés, hogy egy már létező szótárat újít fel, bővít, szerkeszt át, vagy teljesen új adatbázist hoz létre. Köztudott tény, hogy a semmiből a legritkábban születnek szótárak; ha egy-egy létező szótár előzményeit az időben visszafelé haladva felgöngyölítenénk, mindig találnánk egy korábbi szótárat vagy szójegyzéket, amelynek – bevallottan, vagy nem – az átdolgozásaként, kibővítéseként az új szótár megszületett, egészen a modern szótárak ősének tekintett középkori glosszákig. Ha közvetlen kétnyelvű előzményre nem is, még az elvben „új” kétnyelvű szótárak is támaszkodnak forrás- és célnyelvi egynyelvű szótárakra. Természetesen a fenti döntés minden – hagyományos nyomtatott és elektronikus – szótár készítőjének dilemmája, és elsősorban financiális kérdés. Mindkét megoldásnak vannak előnyei és hátrányai. Korábbi szótárak felújításánál rengeteg munka (pénz, idő) takarítható meg, ugyanakkor a meglévő adatbázis hibái, elavult struktúrája mintegy „ránehezedik” a szótárkészítőre, és gátolja az újító munkálatokat, pl. új lexikográfiai elvek figyelembevételével készült más szócikkstruktúra létrehozását.
Az on-line szótárak esetében, a web 2.0-ás közösségi alkalmazások, a „wiki-kultúra” térhódításával azonban egy harmadik lehetőség is adódik: az adatbázisnak valóban a „semmiből”, a felhasználók általi, alulról építkező felépítése (más kérdés persze, hogy az egyes felhasználók honnan merítik az ismereteiket – esetleg szintén már meglévő szótárakból?). A Wikipédia sikerét látva, elméletileg nincs okunk kételkedni e harmadik variáció sikerességében, technikailag kivitelezhető, bár rögtön felveti a szakmai kontroll szükségességének, feleslegességének vagy – „diktatórikus” voltára való hivatkozással – elutasításának ismert problémáját. Megfontolandó azonban, hogy a szócikkek szerkesztésének egyik legfőbb motivációja, ami pl. a Wikipédia esetében fennáll, a téma iránti érdeklődés, egyes szavak esetében már nehezen ébreszthető fel, így feltehetőleg jóval hosszabb időt vesz igénybe, mire egy használható méretű adatbázis létrejön, továbbá a lexikonszócikkekben még megengedhető szubjektivizmus egy-egy szójelentés megadásánál nemigen tolerálható. Ezért szótárak esetében jobban indokolható egy állandó szakmai szerkesztő (az adott nyelv anyanyelvi beszélője, lexikográfus) folyamatos jelenléte.
A fent felsorolt három adatbázis-építő mód közül bármelyik valósuljon is meg egy on-line szótár esetében, annyi mindenképpen elvárható lenne, hogy a felhasználó egyértelmű tájékoztatást kapjon a szótáradatbázis eredetéről és a szócikkállomány mindenkori aktuális méretéről (a szócikkek számáról), aminek alapján (különösen közösségi fejlesztésű szótáraknál) meg tudja ítélni, egy hagyományos nyomtatott szótárhoz képest milyen stádiumban van az adatbázis felépítése. Hiszen hiába kínál az oldal érdekesebbnél érdekesebb kiegészítő alkalmazásokat, ha mindössze 2000 szót tartalmaz.
II. A hagyományos szótárkiadók útkeresései
egynyelvű szótár, kétnyelvű szótár, szótárkiadó, szótárformátum, Akadémiai Kiadó, Grimm Kiadó, MorphoLogic, digitalizálás, SGML, XML, fordítóprogram
A hagyományos szótárak kiadói amellett, hogy nyomtatott termékeik értékesítésében érdekeltek, nem hagyhatják figyelmen kívül az on-line szótárak egyre fokozódó népszerűségét sem. Képesek-e lépést tartani, s ha igen, milyen fejlesztéseket eszközölnek? Ebben a részben a hazai piac egyetlen jelentős, az elektronikus szótárkiadás irányába is elmozduló kiadójának, az Akadémiai Kiadónak a fejlesztéseit tekintjük át, illetve említést teszünk a hazai legismertebb szótárprogram-fejlesztő cégről, a MorphoLogicról.
Hagyományos szótárkiadónak tekintem azokat a kiadókat vagy más vállalatokat, amelyek már a nyomtatott/elektronikus paradigmaváltás előtt vagy attól függetlenül után rendelkeztek szótáradatbázisok kiadói, esetleg szerzői jogával, illetve kiadtak már legalább két nyelven, legalább kéziszótár méretű általános szótárat. Ennek alapján nem vettem figyelembe – még akkor sem, ha üzemeltetnek kisebb on-line szótárakat – az olyan, egyéb profilú kiadókat, amelyek csak kisebb „kiruccanást” tettek a szótárkiadás területére, és általában egy-egy (a profiljukba vágó) szakszótárat jelentettek meg (pl. Mezőgazda Kiadó: Karsai–Vörös–Szieberth: Állatorvosi szótár – Magyar–latin–angol–német; Semmelweis Kiadó: Donáth Tibor: Anatómiai szótár – magyar–angol–német), a szótárkiadásra szakosodott, de alapvetően egynyelvű szótárakat kiadóit (Tinta Könyvkiadó), illetve mivel a magyar piac felmérése a célom, a külföldi kiadók (Oxford, Langenscheidt, Pons), amelyek szintén jelentettek meg, esetleg egy-egy magyar kiadóval társulva, magyar kétnyelvű szótárakat.
A könyvpiacon jelenleg szereplő kiadványok alapján a rostán csupán két kiadó ment át: az Akadémiai Kiadó és a Grimm Kiadó. Bár utóbbi népszerű, felhasználóbarát, új fejlesztésű szótáraival képes volt az Akadémiai Kiadó egyedüli jelentős konkurensévé felküzdeni magát, egyelőre csak hagyományos nyomtatott szótárakat jelentet meg, így vizsgálódásunk kizárólag az Akadémiai Kiadóra irányul, mint az egyetlen jelentős szótárkiadóra, amely szótárait immár elektronikus formában is piacra bocsátja.
Az Akadémiai Kiadó szótárkiadó tevékenysége hosszú évtizedekre tekint vissza, a rendszerváltásig abszolút egyeduralkodó a területen, s ha kizárólagosságát nem sikerült is teljes mértékben megőriznie, máig a legjelentősebb és legnagyobb szótárkiadó hazánkban. A rendszerváltás után, 1996-ban a Wolters Kluwer holland cég vásárolta meg a kiadó tulajdonhányadának nagyobb részét, ami a piaci érdekek előtérbe kerülésével járt. Bár a kiadó birtokolta az akkor forgalomban lévő összes általános egy- és kétnyelvű szótár kiadási jogát, éppen ezért az „örökség terhe” rá nehezedett a leginkább. A kilencvenes évek második felében, hogy a jelentkező konkurencia mellett piacképes maradhasson, kettős kihívásnak kellett megfelelnie: egyrészt fel kellett újítania ekkor már nagyjából negyvenéves szótárait, másrészt szembe kellett néznie az elektronizáció rohamos terjedésével. A két cél összekapcsolódott, s 1998-ban megkezdődött a kiadó nagy szótár-felújítási projektje, melynek során a tartalmi felújítást már elektronikus adatbázisban hajtották végre. Az áttérés az elektronikus, majd on-line formára fokozatosan történt meg, nagyjából a következő állomásokra bontható:
1. digitalizálás, SGML- (majd XML-) adatbázis létrehozása – első lépésként a meglévő papírszótárak begépeltetése (akkor ez a szkennelésnél egyszerűbbnek, kedvezőbbnek bizonyult) után a kiadó informatikai részlege (nem sok kiadó képes külön informatikai részleget fenntartani, az Akadémiai Kiadó esetében azonban elengedhetetlen volt) létrehozta az akkor legmodernebbnek számító SGML-adatbázist (később, az XML megjelenése után átalakították). A tartalmi szerkesztés már elektronikusan történt, a végtermék, a felújított szótárcsalád azonban kezdetben csak hagyományos nyomtatott formában volt kapható.
2. off-line megjelenés – második lépésként, hogy haladjon a korral, illetve egyfajta marketingfogásként, termékei vonzóbbá tétele céljából, a kiadó a szótárai anyagát CD-n is megjelentette, melyet a könyv mellékleteként árusított (a CD külön nem volt kapható). A CD keresőfelülete viszonylag egyszerű volt, a frissítés problémája nem volt megoldva. Nagyjából ezzel egy időben született meg az együttműködés a MorphoLogic céggel (lásd később), a hazai piac legismertebb és gyakorlatilag egyedüli nyelviszoftver-kiadó cégével, melynek eredményeképpen a MorphoLogic szótárprogramját „összeházasították” az Akadémiai Kiadó felújított nagyszótárainak adatbázisával. Közös termékük az Akadémiai MobiMouse néven kapható off-line szótárcsalád.
E ponton rövid kitérőt kell tennünk: az elektronikus vagy on-line szótárak egyik alapproblémája a két szakterület különállása. A kiadók rendelkeznek a megfelelő adatbázissal, illetve az ahhoz szükséges kompetenciával (szótárszerkesztők, lexikográfusok munkája), ugyanakkor nincs kapacitásuk programozói teamet foglalkoztatni. Ha van is informatikai részlegük-munkatársuk, az ő munkája a meglévő adatbázis karbantartására terjed ki, szótárszoftver fejlesztésére nem. A nyelvi szoftverek készítői kitűnő programokat képesek fejleszteni, azonban nem tudják tartalommal megtölteni őket, hiszen önálló szótár kiadására nincs meg a kapacitásuk (többéves, akár évtizedes munkáról van szó), sem a szükséges szakértelmük. Mindkét fél féltve őrzi termékei tulajdonjogát, és szeretne üzletileg minél kedvezőbb pozícióba kerülni, valahogy saját berkein belül megoldani a hiányzó másik rész előállítását. Ezért nehéz a megegyezés, s ezért példaértékű, hogy a két cégnek – legalábbis egy termék erejéig – sikerült együttműködnie.
3. on-line megjelenés – az on-line szótárak felbukkanása és a CD-k frissítésének nehézkessége miatt a kiadó is az on-line szótár-üzemeltetés irányába lépett tovább: 2004-től legújabb szótáraihoz már nem CD-t kínál, hanem a szótáradatbázisához való internetes hozzáféréshez szükséges kódot. E célból létrehozta a kiadó hivatalos honlapjához kapcsolódó http://www.szotar.net weboldalt, amelyről a megvásárolt szótárak adatbázisai – a kód aktiválása után – elérhetőek, de ezenkívül még egyéb szolgáltatások is találhatóak rajta, pl. a szótár demóverziója. Az on-line szótár keresőfelülete megegyezik a CD-n találhatóval, folyamatos fejlesztés alatt áll. Ezzel a frissítés problémája megoldódott, hiszen a felhasználó automatikusan a folyamatosan frissülő adatbázishoz fér hozzá. A hozzáféréshez azonban továbbra is meg kell vásárolni valamelyik hagyományos, nyomtatott terméket. Ez a jelenlegi stádium.
4. kizárólagos on-line használat – a kiadó jövőbeni tervei között szerepel, hogy az on-line szótár használatát ne kösse más termék megvásárlásához (ez persze némileg merénylet saját maga ellen), hanem egyfajta előfizetéses rendszerben tegye hozzáférhetővé. Így, ha nem is ingyenesen, mint a többi on-line szótár esetében, de valószínűleg alacsonyabb áron juthatnak hozzá a felhasználók a szótárhoz, a szótár fizetéses voltát pedig a többi szótárhoz képesti magas minősége hivatott ellensúlyozni. Hogy a terv megvalósul-e, s ha igen, mikor és pontosan milyen formában, az még a jövő zenéje.
A fentiekből látható, hogy a kettős szorításban lévő Akadémiai Kiadó: meglévő termékeivel a lehető legnagyobb nyereségre szert tenni (nem olyan egyszerű manapság tudományos könyveket, szótárakat eladni), ugyanakkor lépést tartani a kor technikai kihívásaival, ez esetben az on-line megjelenéssel, ráadásul az ingyen elérhető konkurenciával szemben, igyekszik lépéseket tenni, azonban termékei védelme végett egyelőre biztosan nem nyit a közösségi alkalmazások irányába (a tankönyvekhez és on-line tananyagokhoz kapcsolódóan azonban már láthatóak némi elmozdulás), on-line szótára meglehetősen puritán, találatként azonban a nyomtatott szótárakban is olvasható teljes szócikkeket adja, minden kiegészítő információval együtt.
A megtett út nem volt zökkenőmentes, a kiadó számára ideális formát az adatbázis létrehozása, a felújítási munkálatok közben alakította ki, néha egy-egy kényszerű vargabetű megtétele után. Ennek érzékeltetésére egy példát szeretnék felhozni: ismeretes, hogy a hagyományos szótárak három formátumban (kis-, közép- és nagyszótár) készültek. Az adatbázis létrehozásakor két út lehetséges: 1. egyetlen adatbázist hozunk létre, s valamiféle „címkézéssel”, attribútumok létrehozásával jelöljük meg, mely elemek, mely szinten (melyik formátumban való kereséskor) jelenítendők meg. Ez esetben a legnagyobb szótárból egyszerű törléssel (meg nem jelenítéssel) megkaphatóak a kisebb formátumok; 2. több rész-adatbázist hozunk létre, a program a kiválasztott adatbázisban keres, ugyanahhoz a szóhoz (keresőkifejezéshez) így adott esetben több különböző ekvivalens (találat) tartozik attól függően, melyik szótárban keresünk. A kiadó először az 1. verzióval próbálkozott, ám a gyakorlat megmutatta, hogy nagyon nehézkes, szinte lehetetlen a szócikkek fent leírt „matrjoska”-kialakítása (vagy pedig egyszerűen túl költséges), és áttért a 2. verzióra.
Az adatbázis állandó karbantartás, javítás, fejlesztés alatt áll, ez jelenleg minimális mértékű tartalmi javítást foglal magában, sokkal inkább a keresőmotor funkcióinak bővítésére irányul.
Ugyan nem hagyományos kiadó, mégis ezen a helyen kell szólnunk az 1991-ben, a számítógépes nyelvészet kutatására, fejlesztésére és alkalmazására alakult, az Akadémiai Kiadó bemutatásakor már említett MorphoLogic cégről. A hazai piacon egyedülálló, de a nemzetközi piacon is elismert szótárszoftvereiről ismert cég hírnevét a professzionális keresőfelületű MoBiDic, majd a kattintás nélküli, az adott szó fordítását a kurzornak a szó fölé vitelével egy buborékban megjelenítő technológiával készült MoBiMouse szótárprogramoknak köszönheti, utóbbiért 1999-ben elnyerte az Európai Unió Információtechnológiai Díját, valamint 2004-ben az elmúlt évtized egyik leginnovatívabb IST-díjas technológiája díjat. A szoftverek a legismertebb kiadók (Akadémiai Kiadó, Grimm Kiadó) szótárainak digitális változatai, a keresési eredmények a szótárakban olvasható teljes szócikkek. A cég termékei CD-formátumban vásárolhatók meg (szoftver), és egy aktiváló kóddal kapcsolódnak a folyamatosan frissített, XML-alapú on-line adatbázishoz. A cég érdeklődése az utóbbi időben a fordítóprogramok, az on-line fordítás felé fordult.




