nem-latin-2 szovegek
Daniel Golden
GOLDEN at OSIRIS.ELTE.HU
1997. Jún. 3., K, 19:27:58 CEST
kedves lista,
a majusi gyarapodaslistaban nagy meglepetessel fedeztem fel a kovetkezo
tetelt:
URL:
gopher://mek.iif.hu:70/00/porta/szint/human/szepirod/modern/gyarfas/cseppek.hun
97/05/14 Gyarfas Endre: La Gutoj
a fajlnevben meg semmi rendkivuli, annal inkabb a cimben; a dokumentumba
valo belepes pedig vegleg megerosit: ez az eredeti mu eszperanto nyelvu
forditasa... legalabbis az kellene, hogy legyen
mivel a MEK gyujtesi politikaja elsorban a magyar nyelvu dokumentumokra
iranyul, s mivel a szinten elfogadott "idegen nyelvu, de magyar
vonzatkozasu" anyagok eddig gyakorlatilag az angolt jelentettek, most
elsoizben merul fel a nem-standard karaktereket tartalmazo szovegek
problemaja (kulonbozo specialis formatumokrol mar tobbszor esett szo; ez
azonban most kicsit mas)
a MEK altal elsosorban tamogatott ASCII-text formatum onmagaban meg nem
zarna ki pl. a fenti szoveg gyujtemenybe keruleset; van viszont egy
sulyosabb problema: mivel az eszperanto meg a magyarnal is 'kisebb'
nyelv ;-), meglehetosen specialis karaktereinek mar csak az ISO
8859-3, azaz a latin 3-as kodtablaban jutott hely...
ennek megfeleloen a MEK jelenlegi, a magyar karakterekhez szukseges
kodtablakat kezelo technikai feltetelei nem teszik lehetove egy eszperanto
nyelvu szovegnek ASCII-textkent valo tarolasat es megjeleniteset
nem tudom, milyen eredeti formatumban erkezhetett a szoveg
eszperanto-verzioja; konnyen lehet, hogy mar eleve hianyoztak a megfelelo
karakterek (eleg sok gepelesi hiba is van benne); mindenesetre a latin
2-si'te's biztosan eltuntette az utolso tuleloket is
mivel a csak az itt hianyzo diakritikus jelekben eltero
karaktereknek jelentesmegkulonbozteto szerepuk van, a szoveg
ebben a formaban alig olvashato
(termeszetesen az eszperanto halozati hasznaloi is
rakenyszerultek a "repulo-ekezetes" megoldas alkalmazasara:
pl. a dokumentum elso soraban talalhato _logejo_ helyesen _log^ejo_;
az elso esetben 'vonzasra szolgalo hely'-et [?!], a masodikban
egyszeruen 'lakas'-t jelent)
a teljesen ertheto modon es igen helyesen alapesetkent kezelt latin 2
hasznalata tehat veszelyt jelent az olyan nyelven irodott
ASCII-dokumentumokra nezve, melyek specialis karakterei csak egy masik
kodtablan talalhatoak meg (pl. a francia vagy a sved, amelyek a latin 1-ben
kaptak helyet; de magyar vonatkozasu torteneti anyag boven
elofordulhat to:ro:kul is, ami viszont szinten a latin 3-ba kerult, es
akkor meg nem szoltunk a latin 4-be szorult kisebb skandinav nyelvekrol)
a dolog ebbol a szempontbol tekintheto "az elektronikus
konyvtaros textologiai gondjai" (vo:. Kokas Karoly networkshop-eloadasa)
egy ujabb, eddig nem targyalt alfejezetenek is
persze az egesz remelhetoleg mar nem sokaig erdekes, hiszen jon a mindent
megvalto Unicode ;-)
de hatha ki lehet talalni valamit addig is...
(jobb hijan a fejlecben fel lehetne tuntetni, hogy milyen kodtablaju
karakterkeszlettel erdemes nezni az adott szoveget)
udv,
golden daniel
További információk a(z) Mek-l levelezőlistáról