ABBY FineReader, tovabbi tapasztalatok

Lang Attila D. lad at RENTAHOST.NET
2001. Jún. 16., Szo, 19:12:14 CEST


  Először is egy hibajavítás, a sivalkodása szó után a könyvben
kettőspont áll, ezt helytelenül tudtam be hibának (csak a Recognita
esetén, pedig mindkettő ugyanúgy olvasta). A hibaarány tehát csak 7:0.

  Becsülöm a szoftverben, hogy nem terheli le a gépet annyira, mint a
Recognita, ami erőteljesen lassítja a többi taszk futását, nemigen
lehet rendesen dolgozni másik alkalmazásban, mialatt ő egy könyv
végigolvasásával van elfoglalva.
  A program nem macska ugyan (épp most tudtam meg Traverstől, hogy
_minden_ macska _mindent_ tud), de nagyon sokat tud. Tudja például úgy
bővíteni a szótárat, hogy az ember közli a szófajt is; ha beteszem a
szótárba, hogy ugrik és megmondom, hogy ez egy ige, automatikusan
megkapom az ugriks, ugriked, ugriking alakokat. Örüling? Mondjuk egy
nemzetközi programtól nem lehet elvárni, hogy minden nyelv nyelvtanát
tudja, az örménytől az izlandiig; viszont azért azt el tudtam volna
képzelni, ha már ilyesmi eszébe jutott a készítőknek, hogy az ember
megadhassa az alakokat saját maga, nem követelve ezt a programtól.
Megoldható lett volna. Azt pedig ezek után már csakugyan zokon veszem,
hogy a nyelvtannal édeskevés kapcsolatban levő nagybetűzést nem lehet
megadni más szótár esetén, csak az angolnál; itt biztosít szabályos,
tulajdonnévi és RöviDítéSes alakokat, más nyelveknél nem. Lúd ugyan,
de még nem kövér.

  Mérhetetlenül nagyra tudom értékelni a program azon tulajdonságát,
hogy helyesen ismeri fel a zónahatárokat, legalábbis a Travers
hátralevő részét újraolvastatva vele nem találtam ilyen hibát. A
Recognitának mindig szokása volt, hogy a kinyitva beszkennelt könyv
két oldalát véletlenszerű esetekben egynek látta, illetve szintén
véletlenszerű esetekben táblázatként értelmezte. Emiatt minden
szkennelést egy újrazónázási szakasznak kellett követnie, amit, mit
mondjak, untam. Arra az AFR is hajlamos, hogy a képek egyes részleteit
szövegként próbálja fölfogni, de ez lényegtelen, az így előálló
szemetet kidobja az ember. Néhányszor megesett, hogy az oldalpár két
felét helytelen sorrendben festette kékre a felismerési folyamatban,
de visszaellenőrizve ezeket jó sorrendben találtam, tehát a
Recognitától eltérően nem feltétlenül abban a sorredben olvas, amilyen
sorrendben tárol.
  Hajlamos az elválasztást megtartani, s persze a maszatokkal ő se tud
csodát tenni, ettől eltekintve viszont meghökkentően jól olvas. Néhány
oldalpáron végigmenve nem találtam más hibát, csak egypár tintapötty
mián elnézett ékezetet és a korábban tárgyalt metrikai hibákat; nem
szokása tehát, mint a Recognitának, hogy a vakítóan gyönyörű szép
betűket is időnként félreolvassa azon indoklással, hogy csak. (Később.
Azért megesik itt is, de összehasonlíthatatlanul gyakrabban. Olyat is
kaptam, hogy egy egész oldalon minden t belű l belűre vállozoll, az l
beiűk egy része pedig i-vé aiakull.)
  Kedves tőle, hogy a bekezdés végén álló gondolatjelet nem tekinti
elválasztásnak és vonja össze ezáltal a két oldalán álló két szót,
mint a Recognita, aminek vízszintes vonal, vízszintes vonal, egykutya.

  Roppant aranyos sajátsága a Language editor, ahol komoly
felkészültséggel lehet nyelveket definiálni. Jelzem, itt nem árt némi
átfésülés, a magyar nyelv ábécéjénél például feltünteti az aposztrófot
is, amely írásjel magyar szavakban egyáltalán nem található, kivéve
egy-két speciális esetet (ne adj' Isten); tekintettel az írásjel
kicsiségére és a nagy esélyre, hogy ennek vél látni valamilyen maszat,
jobb letiltani, mint engedélyezni. Az én wordös szkennermakróm ki is
dobja az összes aposztrófot. A szó elejéhez kapcsolódó írásjelek
között is szerepel az aposztróf, ami végképp tévedés, valamint a
bunkó, amely jelet viszont egyáltalán nem használjuk szavakhoz
kapcsolódva, csakis önálló alakban. Az önálló írásjelek listája külön
csoportot képez, amit szintén jó lesz rendbe tenni: szerepel benne a
!"%'(),-.:;? jelek mindegyike, amelyek nem állhatnak önállóan a
magyarban, továbbá a szögletes és kapcsos zárójel, a lúdláb, a nyitó
nyomdai idézőjel (de a záró nem, ahelyett konzekvensen a macskakörmöt
akarná használni), valamint a fokjel, amelyek szintén nem; ezenkívül
pedig gondolatjel gyanánt az elavult kvirtmínuszt akarná alkalmazni,
amit persze nem ismer fel a könyvekben talált félkvirtmínuszban.
  Recognition set alatt találjuk azt az egyetlen jelsort, ami a
Recognitában megadható; érdemes ezt is felülvizsgálni és a magyar
számára betenni a záró idézőjelet, a három pontot, a félkvirtmínuszt,
s akkor sokkal szebb lesz a világ.
  Érdekes következetlenségek vannak helyenként a programban. A
karaktertábla immár a Unicode-ot is kezeli, de teljesen kimaradtak
tartományok, mint például az arab, a grúz, a bővített görög, a
dévanagárit kivéve az összes indiai írás, és természetesen a
monstruózus CJK. Megvan viszont az örmény, amihez szótárat is
mellékelnek több nyelvjárásban, támogatott nyelv tehát, de a
karaktertáblában a Times New Roman fontot használja, amiben nincs
örmény, átállítani pedig nem lehet. A Unicode-tartományok mellett a
windowsos 12xx kódlapokkal is kiválaszthatjuk, mit szeretnénk, itt
megvan a szokásos társaságon felül a Windows Armenian kódlap, amely
bizonyára tartalmazza az örmény betűket, csak a font nem, valamint a
Windows Tatar kódlap, amely a jelenlegi felállásban nemigen látszik
tartalmazni a tatár betűket.
  Mindenesetre a cirillt immár tudja, ki kell itt igazítanom
Viszocsánszki Mihályt: csináltam egy cirill nyelvdefiníciót
próbaképpen és ráküldtem Traversre, igazi cirillbetűs file-om nem
lévén kéznél. Szépen fölismerte az n betűt p-nek, a tt kapcsolatot
i-nek, a k-t macedón lágy k-nak, az r-et g-nek, a b-t nagy lágyjelnek,
és figyelmeztetett, hogy ellenőrizzem a beállított nyelvet, mert
valami nincs rendjén. Tök igaza van. (Ugyanez a trükk egyébként az
örménnyel és a héberrel nem sikerült, csak számjegyeket és
kérdőjeleket kaptam, pedig hát az O betű elmegy szamehnek, a T meg
daletnek, de nem ette be.)

  Ismer igen modern formátumokat, úgymint PDF és HTML (érdekes, a
HTML-nél beállítható kódlapoknál megvannak a DOS-osak, az ISO 88xx
kódlapjai, a macesek és az elmaradhatatlan KOI8, viszont a
karaktertáblában csak a windowsos kódlapokat lehet megnézni), tud
menteni többféle Unicode-ban, Excelben, DBF-ben, CSV-ben, viszont
immár fogalma sincs arról a rengeteg antik szövegszerkesztőről, amiket
a Recognita még tud. Ez tehát lehet egy negatívum annak, aki valamiért
meg kellett maradjon egy régi szerkesztőnél. Édes dolog, hogy a teljes
lapot hajlandó úgy visszaadni, ahogy megkapta, képekkel, mindenestül,
de ez sokféleképpen variálható.

  Még azt kell kipróbálnom, tudja-e vezérelni ódon szkenneremet; ettől
függetlenül a lenyűg esete forog fönn.

La'ng Attila D., iro <lad at rentahost.net> <http://lad.rentahost.net>
Ha van kerdojel -- miert nincs valaszolojel?



További információk a(z) Mek-l levelezőlistáról