MEK 2.0-s formatumok
Drotos Laszlo
kondrot at GOLD.UNI-MISKOLC.HU
2001. Júl. 14., Szo, 06:42:40 CEST
Megprobalom lassan lezarni a HTML ajanlassal kapcsolatos vitat.
Sajnos ma's iranyba ment el, mint amit szerettem volna, keve's
konkret, felhasznalhato otlet jott. Igyekszem ezeket beepiteni
es kiteszem az ajanlast a MEK-be az Irattar menu ala' a jovo
heten valamikor. Aztan majd kezdhetjuk ujra a vitat a Word
formatumrol szolo ajanlasrol. ;-)
Nehany elmaradt valasz:
Lang Attila D. irta:
>> Rendben van, de a szoban forgo HTML formatumnal nem lehet (nem
>> szabad) elvalasztast hasznalni. Akkor pedig ez a fenti szabaly es
>> ennek alesetei nem alkalmazhatok automatikusan.
> Ez is igaz. Tekintve a HTML speciális tulajdonságait, alighanem az
> lesz a célszerû, ha erre a formátumra egy külön ajánlást dolgozunk
> ki, amely figyelemmel van az idézõjelek, a kizárás, a behúzás, a
> bekezdések stb. HTML-beli sajátságaira.
Igen, pontosan ezt javasoltam kb. 3 hettel ezelott, amikor
elkuldtem a listara a HTML formatumrol szolo ajanlas elso
verziojat! Szukseg van a szep, altalanos elvekre, tavlati
tervekre, "maximalis" celkituzesekre, foglalkozni kell
a TEI-vel, XML-lel, UNICODE-dal, de aka'rmit csina'lunk,
akkor is meg kell hatarozni egy minel egyszerubb utmutatot
minden hasznalni kivant formatumra, ami alapjan ma'r aka'r
holnap el tudnak kezdeni dolgozni azok, akik dokumentumokat
visznek fel a MEK-be. A HTML ajanlas lassan osszeall (nehanyan
mar hasznaljuk is), es keszul majd a tobbi. Ettol fuggetlenul
en orommel veszek "maximalista" HTML, XML, RTF, PDF ajanlasokat
azok sza'ma'ra, akiknek van kedve, ideje, tudasa "tokeletes"
elektronikus szovegeket kesziteni.
>Mindazonáltal ha az derülne ki, hogy HTML-ben márpedig felsõ index
>nincsen, akkor meg fogom kérdezni, amit már megtettem korábban is,
>hogy miért pont szögletes zárójel.
>
>Hozzáteszem, ha HTML-ben alkalmazol lábjegyzeteket, a hivatkozások
>logice linkek lesznek, amik a vonatkozó szövegre mutatnak. Tehát
>azonnal ki lesznek emelve, kék szín, aláhúzás, hacsak nem
>változtatod meg explicite a hivatkozások küllemét
Van felso index a HTML-ben (<sup>), de onmagaban alkalmazva
csunya lesz, mert szettolja a sorokat. Hogy megmaradjon az
eredeti sortavolsag, ahhoz legalabb egy <font size=-2> kell
ele', amitol viszont olyan kicsi lesz az indexbe tett szam,
hogy alig eszreveheto es nehezen kattinthato. Ezert celszeru
valamilyen jelek koze zarni, es erre a celra tobbnyire
szogletes zarojelet hasznalnak a Weben. Tovabba az ajanlas
nem irja elo, hogy muszaj a labjegyzet-hivatkozasoknak
kattinthato linkeknek lenniuk (egy tudomanyos munel neha
tobb szaz labjegyzet van, ezek belinkelese nem biztos,
hogy mege'ri a vele jaro munkat). Ilyenkor a szovegben,
a hivatkozas helye't jelzo sorszam nem emelodik ki a link
szine miatt, vagyis megintcsak erdemes valahogy jelezni,
hogy ez egy labjegyzethivatkozas. (Tovabba ott vannak a
vakok specialis igenyei, akik a vizualisan kiemelt dolgokat
nem latjak.)
Zsadanyi Nagy Csaba irta:
>Peldaul: az utf-8 megfelelo szabvany ahhoz, hogy minden
>magyar es nem magyar irasjelet es betut egyertelmuen
>taroljon, az egyes karakterek kodjai kozismertek,
>awk/sed kereses/cserevel pedig egyszerre dokumentumok
>tomeget lehet konvertalni beloluk. Szerintem azert fontos,
>hogy a unicode-os html-tarolas mellett dontsunk, mert
>barmilyen txt vagy iso-nnnn-n szabvany redundans, egy
>jelet vagy jelsort tobb irasjelre is hasznal (lasd
>"macskakorom"), igy ezekbol az idealis allapot sokkal
>nehezebben allithato elo.
Ha minden magyar betut es irasjelet Unicode-ban tarolunk,
akkor valamikor konvertalni kell oket, mert a szoftverek
tobbsege me'g nincs felkeszitve a hasznalatara. A konverzio
tortenhet ugy, hogy ugyan csinalunk egy Unicode-os allomanyt,
de valojaban egy abbol keszult, lebutitott, Latin-2-es
HTML file-t teszunk fel a MEK-be. De ezzel ugyanoda
jutunk, az olvaso megiscsak egy egyszerusitett, nem
"tokeletes" szoveget lat. A masik lehetoseg, hogy ha a
felhasznalo ke'ri, akkor "ropteben" tortenik a konverzio,
mielott a szerver elkuldi a kivant dokumentumot. De ez
- ahogy korabban irtam - nagy meretu szovegeknel nagyon
lelassitja a letoltest, a Digitalis Irodalmi Akademia
is lemondott errol vegul.
Az ajanlas javasolja az Unicode hasznalatat, de csak a
nem magyar, specialis karakterekre, es ott is a decimalis
kodot az UTF-8 helyett. Egyebkent ha bevezetnenk az
Unicode kotelezo es altalanos hasznalatat a MEK-ben,
ez akkor is csak a HTML anyagoknal lenne megoldhato,
de a tobbi tamogatott formatumnal nem. Vagyis a MEK
allomanya me'g annyira sem lenne egyseges, mintha a
Latin-2 kodolas hasznalatat irjuk elo minden formatumnal.
Bakonyi Geza irta:
>> Az XML TEI az Attila altal megfogalmazott "szakmai kovetelmenyek"
>> b) esete're vonatkozik, amikor tudomanyos igenyu szoveges adatbazist
>> epit valaki SGML/XML alapokon.
> Azt hiszem ez tevedes. A szepirodalmi archivumok jelentos reszeben
> ma mar ezt alkalmazzak es a MEK eseteben sem az osszes tarolt
> anyagra kellene vonatkoztatni, hanem csak a MEK magjat kepezo
> irodalmi szovegekre.
A MEK-nek a fele a szepirodalom, a masik fele szakirodalom. Es
mindketto egyforman fontos es nepszeru. Ha a szepirodalmat TEI
XML formatumba tenne'nk hatalmas munkaval vagy sok penzzel
(egyik sincs egyebkent), akkor is ott marad a szakirodalom,
es ahhoz megiscsak kellenek "hazi" ajanlasok a HTML, Word,
PDF formatumokhoz. Egyebkent a legnepszerubb kulfoldi
internetes szepirodalmi szovegarchivumok nem XML/SGML-ben
vannak, hanem bizony egyszeru HTML-ben, vagy aka'r a
legprimitivebb ASCII text-ben (lasd Project Gutemberg).
Ezeket leindexelik es megtalaljak a keresok es az emberek
konnyen le tudjak oket tolteni, ki tudjak nyomtatni, at
tudjak szabni az igenyeiknek megfeleloen.
Laci
További információk a(z) Mek-l levelezőlistáról