[MEK-L] Ketretegu PDF-ek online olvasasa?

Moldován István moldovan at mek.oszk.hu
2016. Feb. 4., Cs, 10:26:03 CET


Kedves Kollégák,

Szűk körben elkezdtünk beszélgetni egy problémám,
gondoltam, ez megér egy nyilvános gondolkodást is.
Úgyis régen volt ilyen a szakmai listánkon.

Egyre több jelzést kapunk azzal a problémával,
hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket
az olvasók nem tudják jól olvasni, megjeleníteni.
Ezek alkalmanként 30-40 megás PDF fájlok, amelyek
a szkennelt oldalképeket tartalmazzák.

Egy ideje a böngészőkbe PDF nézegetőt építettek
bele, amelyek azonban nem igazán bírnak ezekkel
a PDF monstrumokkal, inkább a szöveges PDF-ekre
lettek kitalálva. Az átlag olvasók persze a könyvek
címére, borítójára kattintanak helyből, így beleesnek
a böngészők PDF nézegető csapdájába. Kevesen ismerik,
hogy ilyenkor a jobb egérgombos menüből célszerű helyben
letölteni a fájlt és ott megnézni egy PDF nézegetővel
(pl. Sumatra).

Először az archive.org online olvasóját akartuk átvenni,
amely szabadon átvehető.
https://archive.org/details/sszeskltemnyeiv00petgoog
https://openlibrary.org/dev/docs/bookreader
Ehhez azonban a könyv képfájljai szükségesek, így a MEK
rendszerében növelni kellene a redundanciát, hamarabb
elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.

Fejlesztőnk felvetette, egy kis scripttel tegyünk minden
PDF fájlt automatikusan letölthetővé. Így viszont a karakteres
PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.

Az is felmerült, nem tudjuk egyelőre biztosan automatikusan
elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű
karakteres.

Szóba került a Google online olvasója, de az szintén nehezen
birkózik meg az ilyen képes PDF-ekkel.

Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható
képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen
   http://view.samurajdata.se 

A kép minőség rosszabb, kicsit lassú.

A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket
alkalmazza könyvek és folyóiratok digitalizálása esetén. A szolgáltatáskor
viszont máshol is felmerülhet ez a probléma. Az egyben letöltést
fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de 
azért valami online lapozás, nézegetés is hasznos lenne.

Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.


Üdvözlettel

Moldován István


-- 
Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!

      http://mek.oszk.hu/egyesulet/1szazalek.html

*****************************************************
Országos Széchényi Könyvtár
E-szolgáltatási Igazgatóság
E-könyvtári Szolgáltatások Osztály
1827 Budapest, Budavári Palota F épület, 315. sz.
Tel: (36)-1-224-3846
Mobil: (36)-20-400-8872
Fax: (36)-1-202-0804
E-mail: moldovan at mek.oszk.hu
URL: http://mek.oszk.hu
URL: http://epa.oszk.hu/
***************************************************** 
---------- Forwarded message ----------
Date: Wed, 03 Feb 2016 18:17:03 +0100
From: Drotos Laszlo <mekdl at iif.hu>
To: Mek admin lista <mekadm-l at mek.oszk.hu>
Subject: Re: [Mekadm-l] PDF online nezegeto?

2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:
> Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF OCRes és
> melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a szokásos módon.

Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről megállapítani,
hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó megoldást
találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai metaadatok közt,
hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen egyértelmű
minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű OCR-es és
sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az előbbinek
a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat elő, hogy
ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek szkennelve,
az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a kiadótól.
Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a felhasználó
által kért PDF fájl milyen típusú.

A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe Reader
beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a
böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem a
böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja meg
a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy
mindenképpen töltsék le előbb a fájlt.

Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség azoknak,
akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs olyan,
ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet találtam,
magyar változata is van, de nagyon primitív (bár nyilván továbbfejleszthető):
http://view.samurajdata.se  Ez azt csinálja, hogy mindenféle PDF-et oldalképekké
konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát megold, de nem
túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó nekünk.

Laci


_______________________________________________
Mekadm-l mailing list
Mekadm-l at mek.oszk.hu
http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l




További információk a(z) Mek-l levelezőlistáról