[MEK-L] [Mekegyes] Ketretegu PDF-ek online olvasasa?

Mészáros Atilla meszarosatilla at gmail.com
2016. Feb. 5., P, 09:00:15 CET


Más irányú megközelítés: esetleg méret szerint (pl. 3-5MB-os
határnál) dönthené el a MEK felülete, hogy letöltésre ajánlja vagy
böngészőben nyissa meg. Vastag kétrétegű pdf, ennél nagyobb helyet foglal.
Ami pedig szövegként készült, az jellemzően kisebb (kivéve ha sok kép).
Tudom, hogy nem tudományos, de egyszerű.

Péter Király <kirunews at gmail.com> ezt írta (időpont: 2016. febr. 4., Cs,
12:50):

> A PDF-eket szét lehet szedni on-the-fly is, van két Java alapú PDF
> könyvtár ami ezt tudja: iText és PdfBox. Mindkettő ki tudja szedni az
> adott oldalhoz tartozó képet is. Nyilván ennek van némi extra
> erőforrásigénye, de lehet rövid távra cache-be tenni (mivel nincs elég
> háttértér ha jól értem tárolni az összes oldalt). Nem néztem meg a
> Archive.org alkalmazását, de felteszem neki nem kell egyszerre az
> össes képfájl, csak az az egy amivel éppen dolgozik.
>
> kiru
>
> Moldován István <moldovan at mek.oszk.hu> írta (2016. február 4. 10:26):
> > Kedves Kollégák,
> >
> > Szűk körben elkezdtünk beszélgetni egy problémám,
> > gondoltam, ez megér egy nyilvános gondolkodást is.
> > Úgyis régen volt ilyen a szakmai listánkon.
> >
> > Egyre több jelzést kapunk azzal a problémával,
> > hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket
> > az olvasók nem tudják jól olvasni, megjeleníteni.
> > Ezek alkalmanként 30-40 megás PDF fájlok, amelyek
> > a szkennelt oldalképeket tartalmazzák.
> >
> > Egy ideje a böngészőkbe PDF nézegetőt építettek
> > bele, amelyek azonban nem igazán bírnak ezekkel
> > a PDF monstrumokkal, inkább a szöveges PDF-ekre
> > lettek kitalálva. Az átlag olvasók persze a könyvek
> > címére, borítójára kattintanak helyből, így beleesnek
> > a böngészők PDF nézegető csapdájába. Kevesen ismerik,
> > hogy ilyenkor a jobb egérgombos menüből célszerű helyben
> > letölteni a fájlt és ott megnézni egy PDF nézegetővel
> > (pl. Sumatra).
> >
> > Először az archive.org online olvasóját akartuk átvenni,
> > amely szabadon átvehető.
> > https://archive.org/details/sszeskltemnyeiv00petgoog
> > https://openlibrary.org/dev/docs/bookreader
> > Ehhez azonban a könyv képfájljai szükségesek, így a MEK
> > rendszerében növelni kellene a redundanciát, hamarabb
> > elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.
> >
> > Fejlesztőnk felvetette, egy kis scripttel tegyünk minden
> > PDF fájlt automatikusan letölthetővé. Így viszont a karakteres
> > PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.
> >
> > Az is felmerült, nem tudjuk egyelőre biztosan automatikusan
> > elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű
> > karakteres.
> >
> > Szóba került a Google online olvasója, de az szintén nehezen
> > birkózik meg az ilyen képes PDF-ekkel.
> >
> > Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható
> > képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen
> >   http://view.samurajdata.se
> > A kép minőség rosszabb, kicsit lassú.
> >
> > A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket
> > alkalmazza könyvek és folyóiratok digitalizálása esetén. A
> szolgáltatáskor
> > viszont máshol is felmerülhet ez a probléma. Az egyben letöltést
> > fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de azért
> valami
> > online lapozás, nézegetés is hasznos lenne.
> >
> > Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.
> >
> >
> > Üdvözlettel
> >
> > Moldován István
> >
> >
> > --
> > Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!
> >
> >      http://mek.oszk.hu/egyesulet/1szazalek.html
> >
> > *****************************************************
> > Országos Széchényi Könyvtár
> > E-szolgáltatási Igazgatóság
> > E-könyvtári Szolgáltatások Osztály
> > 1827 Budapest, Budavári Palota F épület, 315. sz.
> > Tel: (36)-1-224-3846
> > Mobil: (36)-20-400-8872
> > Fax: (36)-1-202-0804
> > E-mail: moldovan at mek.oszk.hu
> > URL: http://mek.oszk.hu
> > URL: http://epa.oszk.hu/
> > ***************************************************** ----------
> Forwarded
> > message ----------
> > Date: Wed, 03 Feb 2016 18:17:03 +0100
> > From: Drotos Laszlo <mekdl at iif.hu>
> > To: Mek admin lista <mekadm-l at mek.oszk.hu>
> > Subject: Re: [Mekadm-l] PDF online nezegeto?
> >
> > 2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:
> >>
> >> Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF
> >> OCRes és
> >> melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a
> >> szokásos módon.
> >
> >
> > Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről
> > megállapítani,
> > hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó
> > megoldást
> > találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai
> metaadatok
> > közt,
> > hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen
> > egyértelmű
> > minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű
> OCR-es
> > és
> > sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az
> > előbbinek
> > a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat
> elő,
> > hogy
> > ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek
> > szkennelve,
> > az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a
> > kiadótól.
> > Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a
> > felhasználó
> > által kért PDF fájl milyen típusú.
> >
> > A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe
> Reader
> > beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a
> > böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem
> a
> > böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja
> meg
> > a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy
> > mindenképpen töltsék le előbb a fájlt.
> >
> > Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség
> > azoknak,
> > akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs
> > olyan,
> > ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet
> > találtam,
> > magyar változata is van, de nagyon primitív (bár nyilván
> > továbbfejleszthető):
> > http://view.samurajdata.se  Ez azt csinálja, hogy mindenféle PDF-et
> > oldalképekké
> > konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát
> megold,
> > de nem
> > túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó
> > nekünk.
> >
> > Laci
> >
> >
> > _______________________________________________
> > Mekadm-l mailing list
> > Mekadm-l at mek.oszk.hu
> > http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l
> >
> >
> > _______________________________________________
> > Mekegyes mailing list
> > Mekegyes at listserv.niif.hu
> > https://listserv.niif.hu/mailman/listinfo/mekegyes
>
>
>
> --
> Péter Király
> software developer
> GWDG, Göttingen - Europeana - eXtensible Catalog - The Code4Lib Journal
> http://linkedin.com/in/peterkiraly
>
> _______________________________________________
> Mekegyes mailing list
> Mekegyes at listserv.niif.hu
> https://listserv.niif.hu/mailman/listinfo/mekegyes
>
--------- következő rész ---------
Egy csatolt HTML állomány át lett konvertálva...
URL: <https://listserv.niif.hu/pipermail/mek-l/attachments/20160205/fd4e292c/attachment.html>


További információk a(z) Mek-l levelezőlistáról