ABBYY FineReader a gyakorlatban

Lang Attila D. lad at RENTAHOST.NET
2001. Jún. 27., Sze, 23:17:03 CEST


  Elkészültem Botond-Bolics György Idegen bolygón született című
könyvével, amit rövidesen feltöltök.

  A szokásosan rövid közleményhez azonban ezúttal több is tartozik,
hiszen ez az első könyv, amit teljes egészében az ABBYY FineReaderrel
ismertettem föl, és most be kell számolnom tapasztalataimról.

  Nos, ezek nem olyan jók, mint a kísérletképpen egy részében ezzel
olvastatott Travers-kötet esetében, aminek megvan a magyarázata. A
könyvet 1961-ben adták ki, én körülbelül húsz éve birtokolom; amikor
hozzám került, már szemlátomást nem volt fiatal. Valaki a fürdőkádban
olvasta, a párától girbegurba lett a keményfedél, a címlapon több a
kopás, mint az olvasható rész, a kötés is meglazult. Nem vitt rá a
lélek, hogy megbolygassam állapotát, szétszedetlenül tettem a
szkennerbe, így viszont nem kaphatott teljesen egyenletes
megvilágítást. Maguk a betűk is sokhelyütt megkoptak már, illetve
kezdettől nem volt tökéletes a nyomás sem.
  Ezek után nem csoda, hogy az AFR nem produkálta azt a kristálytiszta
olvasást, amit a Travers jelentős részénél cselekedett, itt bizony
volt hiba bőségesen. Ráadásul a könyv tele van egyedi, kizárólag itt
megtalálható szavakkal, amiknél semmilyen szótári támogatásra nem
számíthatott; ezt az akadályt mindazonáltal elég jól vette,
Botond-Bolics leleményes szóalkotásainak túlnyomó része épségben
jutott át a programon. Előfordultak kisebb szótári bonyodalmak: Nik
Panto családi neve alanyesetben nem okozott fennakadást, de a
tárgyesetű Pantót már kijavította Pántot formára, mert ennek értelme
van.
  Nagyon sok volt a meghagyott elválasztás a szövegben, ez szemlátomást
gyengéje a programnak; a magam részéről habozás nélkül ezt a
gyengeséget választom a Recognita helyett, amelynek viszont az a
fogyatékossága, hogy szerfölött nehezen érti meg a bekezdésvégeket; a
keze alól kikerülő file-ban található Enterek és a könyvben levő
valóságos bekezdések közötti átfedés talán ha harminc százalék. Az AFR
jól veszi a bekezdéseket, nagyon ritkán felejti ki az Entert vagy
teszi be indokolatlanul; igaz, egy ízben olyan is előfordult, hogy egy
egyszavas bekezdést, ami tehát igen rövid kimenet volt, egybeírt mind
az előtte, mind az utána levő bekezdéssel, egybevonva a hármat. Itt
valószínűleg valami megzavarta a programot, általában az ilyen rövid
kimeneteket hibátlanul kezeli.
  A javítást előkészítő makrómat ezúttal úgy vettem használatba, hogy az
AFR által bizonytalannak talált betűk színjelzését meghagytam; ez
nagyon sokat segített, mindenkinek ajánlom a betűk színjeleztetését. A
Recognita a bizonytalan betűket egységesen egy hibakarakterrel jelzi,
az AFR viszont odateszi azt a karaktert, amit legvalószínűbbnek talál
-- roppant biztató módon ezeknek a karaktereknek jó 90%-a helyes. Nem
reménytelen a gyerök.
  Szövegfelismerés közben az ember semmi jelentőséget nem tulajdonít
annak, hogy az AFR pontosan körberajzolja a hasábot és azt tekinti
felismerendő területnek; javítás közben jön rá, hogy a Recognita ezt
nagyon sokszor nem teszi, hanem a felismerendőnek kijelölt terület
gyakorta kilóg a margóra, sőt bele a lapszélt környező fekete
területbe, illetve a könyvgerincnél levő fekete sávba. Ez azt
eredményezi, hogy a Recognita hajlamos karaktereket látni a margón
levő maszatokban, a lapszél egyenetlenségeiben, amik az AFR-nél
gyakorlatilag nincsenek; sok gondot nem okoznak ugyan, hisz minden
utánanézés nélkül dobhatja ki őket az ember, de az is idő.
  A könyvet annak idején nem a legjobb minőségű papírra nyomták, ez nem
is volt szokás akkoriban, így sok anyaghiba található a papírban. No
meg szennyeződés is került bele az évtizedek folyamán. Meglepő módon
az AFR jól veszi ezeket, pedig hát a fekete-fehér szkennelésnél ezek
markáns fekete pontokként jelentkeznek; volt olyan is, hogy
csodálkoztam az okosságán, mert a folt teljesen takarta egy-egy rövid
szó betűinek többségét, s a program mégis rájött, mi a szö. Nagy ötlet
volt az oroszoktól, hogy fölkészítették az áthúzott betűtípus
felismerésére; ilyen betűt, a Word strikethrough attribútumát soha nem
használta még ember a világon, de az anyaghiba nagyon sokszor éppen
úgy esik, hogy ezzel a tudásával ismeri fel a betűt.
  Vannak viszont gondjai a verzál ékezetes betűkkel. Sok mondatkezdésben
szerepel az Így és Úgy kötőszó, ezekből gyakran így és Ügy lesz; az
Újabb általában Üjabb vagy Ujabb, az Ön pedig ön formában kerül ki a
programból. Az Úgy--Ügy átalakulást magyarázhatja az, hogy a könyv
írásában elég incifincik az ékezetek, a többit viszont vagy a szótári
ellenőrzés, vagy a betűarányok összehasonlítása során ki kellett volna
szűrnie, de nem tette.

  Nem tartozik már az AFR képességeihez, inkább a könyvtárosoknak
mondom, hogy meglehetősen rugalmasan kezeltem a helyesírást ebben a
kötetben. 1961-ben mások voltak még a helyesírási szabályok,
Botond-Bolics (vagy a nyomda) eléggé nagyvonalúan kezelte főleg az
egybeírás-különírás szabályait, s tekintve, hogy a könyv nyomdai
szempontból kicsit már régies, műfajában pedig kimondottan antiknak
tekinthető (noha évtizedekkel öregebb sci-fiket érzünk ma is frissnek,
de azok más világlátásúak), én a magam részéről kevéssé bántottam a
kötet helyesírását. Leginkább az egybeírás-különírási problémáknál
megmaradtam az ő (sokszor következetlen) írásmódja mellett, a
kifelejtett vesszőket már inkább hajlottam betenni, a sokszor nem
szerencsésen használt magánhangzóformákat pedig legtöbbször
javítottam.
  A könyv két matematikai képletet is tartalmaz, amiről kérdést is
intéztem Hozzátok; megköszönve segítségteket, döntésemet arra
alapoztam, hogy én amatőr programozó is vagyok, s mint ilyennek,
legfőbb erényem a lustaság. Ezért nem jártam utána TeX-nek, Corelnek
és más szoftvercsomagoknak, sőt a Microsoft Equationt sem tettem föl,
hanem fogtam a Word mezőbeszúró parancsát és ezzel megcsináltam a
képleteket. Az eredmény nagyjából korrekt, egy eltérés ugyan van az
eredetihez képest, de szerintem nem értelemzavaró. (Ti. van egy t0
törve négyzetgyök stb. az első képletben, amit a Word úgy reprodukált,
hogy húzott egy törtvonalat, s alátette a gyökjelet, a kettő
szélessége persze megegyezik; az eredetiben a külön törtvonal
hiányzik, a t0 egyszerűen a gyökjel vízszintes vonala fölött trónol.)
Az ugyan elképzelhető, hogy más Word-változatok esetében a képlet
hibásan jelenik meg, de nagy gondot ez nem okozhat, hiszen a
reprintből az eredeti előcsalható. Végső esetben akár be lehet tenni
képként is, de ez engem nem izgatott, mert képet már milliót tettem
szövegbe, a mezőbeszúrásos módszert viszont most ismertem meg
Viszocsánszki Mihály útmutatásával, amit ezúton is megköszönök.

La'ng Attila D., iro <lad at rentahost.net> <http://lad.rentahost.net>
Milyen lenne egy miniszteri sztrajk? Ki venne azt eszre? (Farkashazy Tivadar)



További információk a(z) Mek-l levelezőlistáról