[KATALIST] Kataloguscedulak->MARC

Peter Kiraly pkiraly at tesuji.eu
2007. Nov. 15., Cs, 11:23:47 CET


Üdv,

Kb. 8 éve az OSzK kéziratkatalógusában csináltam
ilyen kisérletet, aminek az volt a menete:

1) cédula -> szkennelés
2) szöveges fájlok és képi fájlok előállítása
3) "vizuális katalógus előállítása" (amiben a beszkennelt
  képek között lehet hatékonyan navigálni, mint a CatZoomban
  - csak annál azért jobban ;-)
4) emellé betettem a nyers szöveget
5) a nyers szöveget lehetett javítani (egy textarea mezőben)
6) a javított nyers szöveget egy script a "pont-pont-vesszőcskék"
  mentén értelmezte és felismerte a szerző, cím stb. elemeket
7) a felismert elemeket külön lehetett szerkeszteni
  (természetesen külön-külön input mezőben)
8) mentés

A kísérletről tartottam előadásokat az OSzK-ban és a
Networkshopon. Mindez 2000 körül történt. Mint látható, az
utolsó fázis (a MARC konverzió) kimaradt, de ez ma már nem
egy ördöngős feladat, mert számos programnyelven léteznek
MARC előállító-kezelő könyvtárak.

Az út már akkor járható volt, ma még inkább (hiszen javult
általában az OCR, és sokkal gyorsabb szkennerek vannak).

A buktatók:
* a katalóguscédulák különböző fizikai állapotban vannak,
ami befolyásolja a szkennelési fázist. Javaslat: szkennelési
profilok kikisérletezése cédulatípusokra és beállítása minden
egyes cédulánál (ezt régebben csak külső makrókkal lehetett
megcsinálni, mert az akkori Recognita nem volt scriptelhető,
és a cédulánkáénti profilváltás elég kínkeserves dolog -
a mai programokat nem ismerem).
* a katalóguscédulák különböző címleírási szokásokat tükröznek,
tehát az elválasztójel-elemző scriptet is cédulatípusokra
kell megcsinálni és a program felületén biztosítani kell,
a választási lehetőséget (kivéve természetesen homogén
cédulacsoportok esetén).

Király Péter
http://www.tesuji.eu

ps. (reklám, nem reklám: szivesen vállalnék ilyen feladatot
- legalább egy teszt erejéig - most is, ha ez érdekli, kérem
magánban jelezze). 





További információk a(z) Katalist levelezőlistáról