[MEK-L] [Mekegyes] Ketretegu PDF-ek online olvasasa?

Péter Király kirunews at gmail.com
2016. Feb. 4., Cs, 12:49:48 CET


A PDF-eket szét lehet szedni on-the-fly is, van két Java alapú PDF
könyvtár ami ezt tudja: iText és PdfBox. Mindkettő ki tudja szedni az
adott oldalhoz tartozó képet is. Nyilván ennek van némi extra
erőforrásigénye, de lehet rövid távra cache-be tenni (mivel nincs elég
háttértér ha jól értem tárolni az összes oldalt). Nem néztem meg a
Archive.org alkalmazását, de felteszem neki nem kell egyszerre az
össes képfájl, csak az az egy amivel éppen dolgozik.

kiru

Moldován István <moldovan at mek.oszk.hu> írta (2016. február 4. 10:26):
> Kedves Kollégák,
>
> Szűk körben elkezdtünk beszélgetni egy problémám,
> gondoltam, ez megér egy nyilvános gondolkodást is.
> Úgyis régen volt ilyen a szakmai listánkon.
>
> Egyre több jelzést kapunk azzal a problémával,
> hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket
> az olvasók nem tudják jól olvasni, megjeleníteni.
> Ezek alkalmanként 30-40 megás PDF fájlok, amelyek
> a szkennelt oldalképeket tartalmazzák.
>
> Egy ideje a böngészőkbe PDF nézegetőt építettek
> bele, amelyek azonban nem igazán bírnak ezekkel
> a PDF monstrumokkal, inkább a szöveges PDF-ekre
> lettek kitalálva. Az átlag olvasók persze a könyvek
> címére, borítójára kattintanak helyből, így beleesnek
> a böngészők PDF nézegető csapdájába. Kevesen ismerik,
> hogy ilyenkor a jobb egérgombos menüből célszerű helyben
> letölteni a fájlt és ott megnézni egy PDF nézegetővel
> (pl. Sumatra).
>
> Először az archive.org online olvasóját akartuk átvenni,
> amely szabadon átvehető.
> https://archive.org/details/sszeskltemnyeiv00petgoog
> https://openlibrary.org/dev/docs/bookreader
> Ehhez azonban a könyv képfájljai szükségesek, így a MEK
> rendszerében növelni kellene a redundanciát, hamarabb
> elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.
>
> Fejlesztőnk felvetette, egy kis scripttel tegyünk minden
> PDF fájlt automatikusan letölthetővé. Így viszont a karakteres
> PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.
>
> Az is felmerült, nem tudjuk egyelőre biztosan automatikusan
> elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű
> karakteres.
>
> Szóba került a Google online olvasója, de az szintén nehezen
> birkózik meg az ilyen képes PDF-ekkel.
>
> Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható
> képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen
>   http://view.samurajdata.se
> A kép minőség rosszabb, kicsit lassú.
>
> A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket
> alkalmazza könyvek és folyóiratok digitalizálása esetén. A szolgáltatáskor
> viszont máshol is felmerülhet ez a probléma. Az egyben letöltést
> fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de azért valami
> online lapozás, nézegetés is hasznos lenne.
>
> Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.
>
>
> Üdvözlettel
>
> Moldován István
>
>
> --
> Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!
>
>      http://mek.oszk.hu/egyesulet/1szazalek.html
>
> *****************************************************
> Országos Széchényi Könyvtár
> E-szolgáltatási Igazgatóság
> E-könyvtári Szolgáltatások Osztály
> 1827 Budapest, Budavári Palota F épület, 315. sz.
> Tel: (36)-1-224-3846
> Mobil: (36)-20-400-8872
> Fax: (36)-1-202-0804
> E-mail: moldovan at mek.oszk.hu
> URL: http://mek.oszk.hu
> URL: http://epa.oszk.hu/
> ***************************************************** ---------- Forwarded
> message ----------
> Date: Wed, 03 Feb 2016 18:17:03 +0100
> From: Drotos Laszlo <mekdl at iif.hu>
> To: Mek admin lista <mekadm-l at mek.oszk.hu>
> Subject: Re: [Mekadm-l] PDF online nezegeto?
>
> 2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:
>>
>> Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF
>> OCRes és
>> melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a
>> szokásos módon.
>
>
> Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről
> megállapítani,
> hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó
> megoldást
> találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai metaadatok
> közt,
> hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen
> egyértelmű
> minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű OCR-es
> és
> sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az
> előbbinek
> a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat elő,
> hogy
> ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek
> szkennelve,
> az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a
> kiadótól.
> Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a
> felhasználó
> által kért PDF fájl milyen típusú.
>
> A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe Reader
> beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a
> böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem a
> böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja meg
> a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy
> mindenképpen töltsék le előbb a fájlt.
>
> Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség
> azoknak,
> akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs
> olyan,
> ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet
> találtam,
> magyar változata is van, de nagyon primitív (bár nyilván
> továbbfejleszthető):
> http://view.samurajdata.se  Ez azt csinálja, hogy mindenféle PDF-et
> oldalképekké
> konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát megold,
> de nem
> túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó
> nekünk.
>
> Laci
>
>
> _______________________________________________
> Mekadm-l mailing list
> Mekadm-l at mek.oszk.hu
> http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l
>
>
> _______________________________________________
> Mekegyes mailing list
> Mekegyes at listserv.niif.hu
> https://listserv.niif.hu/mailman/listinfo/mekegyes



-- 
Péter Király
software developer
GWDG, Göttingen - Europeana - eXtensible Catalog - The Code4Lib Journal
http://linkedin.com/in/peterkiraly



További információk a(z) Mek-l levelezőlistáról