[MEK-L] Fwd: [Mekegyes] Ketretegu PDF-ek online olvasasa?
Szendi Attila
szendia at freemail.hu
2016. Feb. 5., P, 10:00:51 CET
Bocsánat ezt csak Istvánnak küldtem először. Most továbbítom a listára is.
---------- Továbbított üzenet ----------
Feladó: *Szendi Attila* <szendia at freemail.hu>
Dátum: 2016. február 4., csütörtök
Tárgy: [Mekegyes] Ketretegu PDF-ek online olvasasa?
Címzett: moldovan at mek.oszk.hu
Sokat foglalkoztam én is ezzel a kérdéskörrel vagy 2-3 éve.
Most úgy látom, hogy az archive.org technikája a legfelhasználóbarátabb. (A
könyv lapozás élménye, csak az aktuális oldal töltődik le, mobilon is
használható a felület, kereshető.) És nagyon jól testre szabható. Vannak jó
példák pl. biodiversitylibrary.org.
Növelni lehet a funkcionalitást azzal, hogy a képek alá kerül a kereshető,
vágólapozható szöveg html5-ös technikával. Ilyen pl. A Google pdf
nézegetője, amely Drive-ban levő pdf-eket jeleníti meg, de az Arcanum is
ezt a megjelenítési módot használja újabban. Azonban ez több memóriát
fogyaszt, gyanítom ezért nem fejlesztették ezt tovább. Információim szerint
a Monguz Kft. éppen az archive.org-os BookReader-t továbbfejlesztette ebben
az irányban.
A tárhelyet bizonyos nagy cégek úgy oldják meg, hogy olyan pc cluster alapú
tárolószerverekek alkalmaznak, amelyek hagyományos pc-s alkatrészekből
épülnek fel és olyan hibatűrő filerendszereket raknak rá, mint a Ceph.
Ezzel el lehet érni, hogy 30-50eFt/TB költséggel lehet számolni az iparági
átlag 1M Ft helyett. Beüzemeléséhez szakember kell, akiből nincs sok, de a
fenntartási költségeken bőven megtérül. Tavaly a Networkshop info szekciója
ettől volt hangos.
Úgy emlékszem a pdf-ből pedig egy kereséssel el lehet dönteni, hogy
kétrétegű vagy sem (uncompress pdftk, layer keresés).
De szerintem, ha a hosszútávú megőrzés formátumát nézem akkor az a
kép+szöveg együttese. A pdf-ekkel sokat lehet szenvedni: rejtett hibák,
10-20 év alatti inkompatbilitások. Persze szolgáltatási formátumként még
mindig jobb mint egy doc/docx.
Egyébként az archive.org még tett bele egy csavart: könyvenként zipben
tárolja a képeket és kérés esetén kicsomagolja. (Sőt még konvertálja is
jp2>jpg). Így a sok apró oldalképfájl nem terheli a rendszert.
Nekem egy valami nem tetszett benne, hogy az Abbyy OCR server xml fájlára
van optimalizálva. De úgy tudom az OSZK-nak van ilyen liszensze.
Az én kedvencem pdf ügyben a pdfhacks.com oldalon található
pdfportal/pdfskins volt. Pdf oldalanként lapozható. De ez pl. mobilon nem
használható. Érdemes ezt is megnézni.
Üdv:
Szendi Attila
Kedves Kollégák,
Szűk körben elkezdtünk beszélgetni egy problémám,
gondoltam, ez megér egy nyilvános gondolkodást is.
Úgyis régen volt ilyen a szakmai listánkon.
Egyre több jelzést kapunk azzal a problémával,
hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket
az olvasók nem tudják jól olvasni, megjeleníteni.
Ezek alkalmanként 30-40 megás PDF fájlok, amelyek
a szkennelt oldalképeket tartalmazzák.
Egy ideje a böngészőkbe PDF nézegetőt építettek
bele, amelyek azonban nem igazán bírnak ezekkel
a PDF monstrumokkal, inkább a szöveges PDF-ekre
lettek kitalálva. Az átlag olvasók persze a könyvek
címére, borítójára kattintanak helyből, így beleesnek
a böngészők PDF nézegető csapdájába. Kevesen ismerik,
hogy ilyenkor a jobb egérgombos menüből célszerű helyben
letölteni a fájlt és ott megnézni egy PDF nézegetővel
(pl. Sumatra).
Először az archive.org online olvasóját akartuk átvenni,
amely szabadon átvehető.
https://archive.org/details/sszeskltemnyeiv00petgoog
https://openlibrary.org/dev/docs/bookreader
Ehhez azonban a könyv képfájljai szükségesek, így a MEK
rendszerében növelni kellene a redundanciát, hamarabb
elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.
Fejlesztőnk felvetette, egy kis scripttel tegyünk minden
PDF fájlt automatikusan letölthetővé. Így viszont a karakteres
PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.
Az is felmerült, nem tudjuk egyelőre biztosan automatikusan
elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű
karakteres.
Szóba került a Google online olvasója, de az szintén nehezen
birkózik meg az ilyen képes PDF-ekkel.
Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható
képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen
http://view.samurajdata.se
A kép minőség rosszabb, kicsit lassú.
A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket
alkalmazza könyvek és folyóiratok digitalizálása esetén. A szolgáltatáskor
viszont máshol is felmerülhet ez a probléma. Az egyben letöltést
fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de azért valami
online lapozás, nézegetés is hasznos lenne.
Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.
Üdvözlettel
Moldován István
--
Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!
http://mek.oszk.hu/egyesulet/1szazalek.html
*****************************************************
Országos Széchényi Könyvtár
E-szolgáltatási Igazgatóság
E-könyvtári Szolgáltatások Osztály
1827 Budapest, Budavári Palota F épület, 315. sz.
Tel: (36)-1-224-3846
Mobil: (36)-20-400-8872
Fax: (36)-1-202-0804
E-mail: moldovan at mek.oszk.hu
<javascript:_e(%7B%7D,'cvml','moldovan at mek.oszk.hu');>
URL: http://mek.oszk.hu
URL: http://epa.oszk.hu/
***************************************************** ---------- Forwarded
message ----------
Date: Wed, 03 Feb 2016 18:17:03 +0100
From: Drotos Laszlo <mekdl at iif.hu
<javascript:_e(%7B%7D,'cvml','mekdl at iif.hu');>>
To: Mek admin lista <mekadm-l at mek.oszk.hu
<javascript:_e(%7B%7D,'cvml','mekadm-l at mek.oszk.hu');>>
Subject: Re: [Mekadm-l] PDF online nezegeto?
2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:
> Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF
> OCRes és
> melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a
> szokásos módon.
>
Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről
megállapítani,
hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó
megoldást
találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai metaadatok
közt,
hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen
egyértelmű
minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű
OCR-es és
sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az
előbbinek
a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat elő,
hogy
ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek
szkennelve,
az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a
kiadótól.
Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a
felhasználó
által kért PDF fájl milyen típusú.
A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe Reader
beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a
böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem a
böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja meg
a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy
mindenképpen töltsék le előbb a fájlt.
Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség
azoknak,
akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs
olyan,
ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet
találtam,
magyar változata is van, de nagyon primitív (bár nyilván
továbbfejleszthető):
http://view.samurajdata.se Ez azt csinálja, hogy mindenféle PDF-et
oldalképekké
konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát megold,
de nem
túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó
nekünk.
Laci
_______________________________________________
Mekadm-l mailing list
Mekadm-l at mek.oszk.hu <javascript:_e(%7B%7D,'cvml','Mekadm-l at mek.oszk.hu');>
http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l
_______________________________________________
Mekegyes mailing list
Mekegyes at listserv.niif.hu
<javascript:_e(%7B%7D,'cvml','Mekegyes at listserv.niif.hu');>
https://listserv.niif.hu/mailman/listinfo/mekegyes
--------- következő rész ---------
Egy csatolt HTML állomány át lett konvertálva...
URL: <https://listserv.niif.hu/pipermail/mek-l/attachments/20160205/3519e9ac/attachment.html>
További információk a(z) Mek-l levelezőlistáról