[MEK-L] ooxml vs odt

moldovan at oszk.hu moldovan at oszk.hu
2007. Sze. 7., P, 14:29:27 CEST


Drótos Laci kollégám alaposabb informatikai ismeretekkel
rendelkezik nálam, én inkább munkaszervezés, egyéb oldalról
szólnék pár szót, a MEK osztályt vezetve az OSZK-ban.

> XML formátumból a MEK-en a TEI-t láttam, de akár az XHTML-t is lehet
> használni.

Az XML formátumot használni munka- és megőrzési formátumként,
már régen felvetődött a MEK munkatársai között, jópár éve
kezdett el ezen dolgozni egy volt kolléganőnk, Tapolcai Ági.
Több mindenre el is kezdtük használni az XML-t, de nem teljesen
azon az úton, ami felvetődött.

Laci részletesen leírta a MEK gyarapítási gyakorlatát, amely
alapvetően eltér a nagy, digitalizáló projektektől (pl. DIA,
a volt Neumann Ház). Utóbbiak egységes elvek, formátumok
alapján dolgoztak, rendeltek, így meg lehetett valósítani
egy egységes munkafolyamatot, ami a digitalizálás után
XML-t, abból konvertált HTML-t állított elő. Én egy segítőkész
kollégától szereztem is egy RTFtoXML konverziós eszközt,
idő-, energia-, ember hiányában nem tudtunk vele közelebbről
megismerkedni.

A MEK-be érkező anyagok azonban különböző formátumuak
és minőségűek. A tényleges technikai ellenőrzéssel,
szerkesztéssel, egységesítéssel, konvertálással igazából
2 munkatársam tud foglalkozni. Ezenkivül alkalmanként
(pl. szerzői kérésre) még digitalizálunk is néha 1-1
könyvet, bár azt már egy kétrétegű PDF-ben.

A beérkezett, főként Word anyagok egységes, XML konverziójára
egyszerűen nincs elegendő munkaerőnk.

Kaptunk egyszer olyan programot is, amely DocBook XML-ből
konvertál HTML-t, PDF-et, TXT-t, különböző kimeneti formátumokat.
Ezt sem igazán tudtuk rendszerbeállítani. Bizonyos anyagokhoz
jó lett volna, de pl. egy összetett, sokszáz HTML file-ból
álló dokumentum konverziójára alkalmatlan. És itt is itt volt
a hiány, inputként kellett volna egy szabványos XML.

Amivel el tudtunk indulni, hogy néhány esetben, amikor
volt rá forrásunk és mi rendeltünk digitalizálást, akkor
már XML-ben (is) kértük az anyagot. Ezek főként többrészes,
sok alfejezetből álló szakkönyvek, adott esetben többféle
mutatóval. Ezek HTML konverziójára már igen hatékony volt
egy XML-XSLT megoldás, bár ehhez is külső segítséget vettünk
igénybe. Ezeket HTML-ben szolgáltatjuk elsősorban, az XML-t
igazán más célra egyelőre nem használjuk, pl.
   http://mek.oszk.hu/02100/02152

Egy akadálymentes projekt keretében - Világhalló - viszont
elkezdtük az egyszerűbb, egyfile-ból álló anyagainkat is XML-be
konvertáltatni, jellemzően visszafelé, a már meglévő anyagainkból.

Igy összesen van vagy 570 dokumentumunk van meg XML formátumban
is, ez az állomány több mint 10%-a. Ezeket elvileg a felolvasó
Világhalló szervernek készítettük, de sajnos az a fejlesztés is
leállt. Felmerült, hogy mobiltelefonra tudják használni ezeket
az XML-eket.

Ha néha akad vhonnan forrásunk, azért egy külső kollégával,
aki már profi módon érti, 100-100 dokumentumunkat átkonvertáltatunk
XML-be (TEI), esetleg utána LIT-be. Ezzel igyekszünk segíteni
a hosszútávu megőrzést és az egyéb felhasználást. Erre azonban
kimondott könyvtári stratégia nincs, osztályszinten, egyéb forrásokból
igyekszem támogatni, amennyire lehet.

Sajnos az a tapasztalatom, hogy a digitális dokumentumok
hosszutávu megőrzésének problémája nálunk még alig-alig
tudatosodott, ezért sem igen léteznek ezt megvalósító
formátum-konverziós projektek. Látjuk, ismerjük nagyjából
a nagyságrenddel nagyobb küföldi projekteket, de itthon,
nálunk egyelőre ennyi telik az erőforrásainkból.

És amint Laci írta, inkább a tartalombővítésre igyekszünk
koncentrálni.

Még annyit, hogy mostanában egyre több digitalizált dokumentumot
képként kapunk v. állítunk elő, ezeket OCR-ezve, és a szöveget,
képet egy PDF-ben szolgáltatjuk. Korrektúrára, újraszerkesztésre
alig van forrás, ez jóval munka- és költségigényesebb folyamat.
Többek között ezért is állították le a Neumann Ház BHI projektjét
és legutóbbi híreim szerint a DIA programot is erre akarják
átállítani.

Bocs, mégis hosszú voltam, gyorsan gépelek :-)


Üdv

István




További információk a(z) Mek-l levelezőlistáról