[MEK-L] Ketretegu PDF-ek online olvasasa?
Moldován István
moldovan at mek.oszk.hu
2016. Feb. 4., Cs, 10:26:03 CET
Kedves Kollégák,
Szűk körben elkezdtünk beszélgetni egy problémám,
gondoltam, ez megér egy nyilvános gondolkodást is.
Úgyis régen volt ilyen a szakmai listánkon.
Egyre több jelzést kapunk azzal a problémával,
hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket
az olvasók nem tudják jól olvasni, megjeleníteni.
Ezek alkalmanként 30-40 megás PDF fájlok, amelyek
a szkennelt oldalképeket tartalmazzák.
Egy ideje a böngészőkbe PDF nézegetőt építettek
bele, amelyek azonban nem igazán bírnak ezekkel
a PDF monstrumokkal, inkább a szöveges PDF-ekre
lettek kitalálva. Az átlag olvasók persze a könyvek
címére, borítójára kattintanak helyből, így beleesnek
a böngészők PDF nézegető csapdájába. Kevesen ismerik,
hogy ilyenkor a jobb egérgombos menüből célszerű helyben
letölteni a fájlt és ott megnézni egy PDF nézegetővel
(pl. Sumatra).
Először az archive.org online olvasóját akartuk átvenni,
amely szabadon átvehető.
https://archive.org/details/sszeskltemnyeiv00petgoog
https://openlibrary.org/dev/docs/bookreader
Ehhez azonban a könyv képfájljai szükségesek, így a MEK
rendszerében növelni kellene a redundanciát, hamarabb
elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.
Fejlesztőnk felvetette, egy kis scripttel tegyünk minden
PDF fájlt automatikusan letölthetővé. Így viszont a karakteres
PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.
Az is felmerült, nem tudjuk egyelőre biztosan automatikusan
elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű
karakteres.
Szóba került a Google online olvasója, de az szintén nehezen
birkózik meg az ilyen képes PDF-ekkel.
Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható
képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen
http://view.samurajdata.se
A kép minőség rosszabb, kicsit lassú.
A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket
alkalmazza könyvek és folyóiratok digitalizálása esetén. A szolgáltatáskor
viszont máshol is felmerülhet ez a probléma. Az egyben letöltést
fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de
azért valami online lapozás, nézegetés is hasznos lenne.
Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.
Üdvözlettel
Moldován István
--
Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!
http://mek.oszk.hu/egyesulet/1szazalek.html
*****************************************************
Országos Széchényi Könyvtár
E-szolgáltatási Igazgatóság
E-könyvtári Szolgáltatások Osztály
1827 Budapest, Budavári Palota F épület, 315. sz.
Tel: (36)-1-224-3846
Mobil: (36)-20-400-8872
Fax: (36)-1-202-0804
E-mail: moldovan at mek.oszk.hu
URL: http://mek.oszk.hu
URL: http://epa.oszk.hu/
*****************************************************
---------- Forwarded message ----------
Date: Wed, 03 Feb 2016 18:17:03 +0100
From: Drotos Laszlo <mekdl at iif.hu>
To: Mek admin lista <mekadm-l at mek.oszk.hu>
Subject: Re: [Mekadm-l] PDF online nezegeto?
2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:
> Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF OCRes és
> melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a szokásos módon.
Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről megállapítani,
hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó megoldást
találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai metaadatok közt,
hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen egyértelmű
minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű OCR-es és
sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az előbbinek
a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat elő, hogy
ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek szkennelve,
az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a kiadótól.
Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a felhasználó
által kért PDF fájl milyen típusú.
A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe Reader
beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a
böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem a
böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja meg
a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy
mindenképpen töltsék le előbb a fájlt.
Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség azoknak,
akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs olyan,
ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet találtam,
magyar változata is van, de nagyon primitív (bár nyilván továbbfejleszthető):
http://view.samurajdata.se Ez azt csinálja, hogy mindenféle PDF-et oldalképekké
konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát megold, de nem
túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó nekünk.
Laci
_______________________________________________
Mekadm-l mailing list
Mekadm-l at mek.oszk.hu
http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l
További információk a(z) Mek-l levelezőlistáról