Helyesiras-ellenorzes

Lang Attila D. lad at RENTAHOST.NET
2001. Jún. 13., Sze, 16:02:41 CEST


  Valamikor régesrégen ellenőriztettem a mancsom alól kikerülő szöveget
a WordPerfecttel, később a Winworddel, de egy idő után felhagytam
vele, mert ágyú--veréb probléma állt fönn. Tekintve, hogy a szöveget
én csináltam, az ellenőrző nem sok hibát talált (gőgös pofa ki),
viszont nagyon sokáig tartott, mert állandóan fönnakadt mindenen. Ha
volt egy John a könyvben, akkor Johnnal, Johnnak, Johnhoz, Johntól,
Johnban, Johnra mind megállította a programot; ha volt tíz szereplő,
ami nem sok, akkor legalább száz ragozott alakkal lehetett számolni,
amiket a program nem ismer. A magyar neveket tudja ugyan, de már a
Tamásék döbbenet számára, nem beszélve a leg- képzőről, és minden
regényben szerepelnek speciális szavak; sci-fiben a hipertér vagy a
robotika, az Abigélben a diakonissza vagy a prefekta, a Bujdosóban a
rocsó, és persze mindegyiknek megvan az összes ragozása. Hiába lehet
megmondani neki, hogy vegye fel szótárába a ragozott alakokat, először
azoknak sorra kell kerülni, és amíg azt bámulom, hogy az az alak
helyes-e, addig se haladok. Ezenkívül ha a könyvben háromezerszer
szerepel az, hogy csomagolópapír-hajlamkibontakoztatás, akkor a
program háromezerszer néz utána és állapítja meg, hogy helyes, ez
pedig teljes öt másodpercig eltart -- megmértem...
  Egyszóval kitaláltam, hogy ne vesztegessük se a gép-, se az értékesebb
emberi időt arra, ami fölösleges. Egy szót csak egyszer ellenőrizzünk,
a gép csak egyszer nézze meg az összeset és az ember csak egyszer azt,
amit a gép nem ért. Ha a helyesírás-ellenőrző algoritmusok okosak
volnának, erre nem lenne szükség, de mivel nem alkalmasak többre, mint
hogy "a kuya ugat" típusú elemi hibákat kiszűrjék, legjobb, ha az
ehhez szükséges hűhavat minimalizáljuk.

  A módszer tehát az, hogy minden szó csak egyszer forduljon elő a
szövegben. Ehhez írtam két kis programot; aki kéri, elküldöm, de
megírhatja ki-ki magának szebben, ha akarja. Először Wordből kimentem
a szöveget sortörött textformátumban, aztán ráküldöm az első
programot,
amely
szavanként
külön
sorokba
tesz
mindent. Az eredményként kapott file-t a sort programmal
összerendeztetem (merthogy rendezőprogramot írni lusta voltam), majd
ráküldöm a másik programomat, ami kiszűri az ismétléseket.
Ilyeténképpen olyan file-t kapok, amiben minden szó csak egyszer
fordul elő és ugyanazon szó megtoldalékolkodott alakjai egymás alatt
sorakoznak; mérete pedig 30-40%-a az eredeti szöveg méretének.
Betöltöm hát őkelmét a Wordbe és meghelyesírás-ellenőriztetem. Ha
hibára lelek, átlépek a másik ablakban megnyitott eredeti szövegbe és
a hibás szó minden előfordulását kijavítom.

  A helyesírás-ellenőrző hagyományos használatakor mód van észrevenni
olyan hibákat, amiket maga a program nem lát, de szemünk igen, így?
például; !a-központozási... hibákat? és a
véletlenül becsúszott sortöréseket. Ez azonban azt az illúziót kelti
az emberben, hogy megkorrigálta a szöveget, holott nem tette. A
szólistás ellenőrzés valóban az, amit az eredeti angol kifejezés mond,
spellchecking, elütésvizsgálat, és nem több. Az a néhány központozási
hiba, amit a hagyományos módszerrel esetleg megtalálunk, ezzel pedig
esetleg nem, nem ér annyit, hogy abban a tévhitben leledezzünk, hogy
szövegünket kijavítottuk. Ezzel a módszerrel nem fogunk, de a
programból így is kihoztuk azt, amire képes volt.

La'ng Attila D., iro <lad at rentahost.net> <http://lad.rentahost.net>
PAKOSZTOS = Bucsuformula fizetovendegek eltavoztakor.



További információk a(z) Mek-l levelezőlistáról