[MEK-L] [Mekegyes] Ketretegu PDF-ek online olvasasa?

2016. Feb. 5., P, 09:56:26 CET

Idézet Mészáros  Atilla <meszarosatilla at gmail.com>:

Az Attila nagyon meggondolandót mond. Mi ezt úgy oldottuk meg amúgy,  
hogy két ikont rakunk ki az újságokra (zöld és piros), a lapot vagy a  
számot külön letölteni. Ez nem igazán erre megoldás, viszont felhívja  
a méret dolgára  a figyelmet.

Egyébként pl. Forced PDF download vs allowing the user to view in  
browser first alatt találtam egypár dolgot a neten is...

Viszont, ha egy egész nagy felbontású Délmagyarország vagy más számot  
kér valaki nálunk, az én tapasztalatom szerint egész jó a böngészőben.  
Nekem nem volt velük gondom.

Szerintem az on-the-fly az érdekes, de lehet, a letöltések számát  
nézve, hogy elég nagy terhelést bír adni, nem? mondjuk ha valami  
"menő" kerül ki, akkor órák alatt akár több száz eltöltés is mehet, S  
ha ez egy három kötetes könyv három bazi nagy pdf-el, az röptében  
vágva, alakítva eléggé megnyomja a szervert a szokásos keresések  
mellett. (Egyébként a MEK szintjén a tárigénynek azért nem kellene  
gondnak lenni, hiszen már tucatnyi TB is segítene, nem? ami azért nem  
a világ... persze tudom, mi is csak pályázatból vettünk tárat eddig s  
nagyon redundáns is helyfaló...)

Károly

> Más irányú megközelítés: esetleg méret szerint (pl. 3-5MB-os
> határnál) dönthené el a MEK felülete, hogy letöltésre ajánlja vagy
> böngészőben nyissa meg. Vastag kétrétegű pdf, ennél nagyobb helyet foglal.
> Ami pedig szövegként készült, az jellemzően kisebb (kivéve ha sok kép).
> Tudom, hogy nem tudományos, de egyszerű.
>
> Péter Király <kirunews at gmail.com> ezt írta (időpont: 2016. febr. 4., Cs,
> 12:50):
>
>> A PDF-eket szét lehet szedni on-the-fly is, van két Java alapú PDF
>> könyvtár ami ezt tudja: iText és PdfBox. Mindkettő ki tudja szedni az
>> adott oldalhoz tartozó képet is. Nyilván ennek van némi extra
>> erőforrásigénye, de lehet rövid távra cache-be tenni (mivel nincs elég
>> háttértér ha jól értem tárolni az összes oldalt). Nem néztem meg a
>> Archive.org alkalmazását, de felteszem neki nem kell egyszerre az
>> össes képfájl, csak az az egy amivel éppen dolgozik.
>>
>> kiru
>>
>> Moldován István <moldovan at mek.oszk.hu> írta (2016. február 4. 10:26):
>> > Kedves Kollégák,
>> >
>> > Szűk körben elkezdtünk beszélgetni egy problémám,
>> > gondoltam, ez megér egy nyilvános gondolkodást is.
>> > Úgyis régen volt ilyen a szakmai listánkon.
>> >
>> > Egyre több jelzést kapunk azzal a problémával,
>> > hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket
>> > az olvasók nem tudják jól olvasni, megjeleníteni.
>> > Ezek alkalmanként 30-40 megás PDF fájlok, amelyek
>> > a szkennelt oldalképeket tartalmazzák.
>> >
>> > Egy ideje a böngészőkbe PDF nézegetőt építettek
>> > bele, amelyek azonban nem igazán bírnak ezekkel
>> > a PDF monstrumokkal, inkább a szöveges PDF-ekre
>> > lettek kitalálva. Az átlag olvasók persze a könyvek
>> > címére, borítójára kattintanak helyből, így beleesnek
>> > a böngészők PDF nézegető csapdájába. Kevesen ismerik,
>> > hogy ilyenkor a jobb egérgombos menüből célszerű helyben
>> > letölteni a fájlt és ott megnézni egy PDF nézegetővel
>> > (pl. Sumatra).
>> >
>> > Először az archive.org online olvasóját akartuk átvenni,
>> > amely szabadon átvehető.
>> > https://archive.org/details/sszeskltemnyeiv00petgoog
>> > https://openlibrary.org/dev/docs/bookreader
>> > Ehhez azonban a könyv képfájljai szükségesek, így a MEK
>> > rendszerében növelni kellene a redundanciát, hamarabb
>> > elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.
>> >
>> > Fejlesztőnk felvetette, egy kis scripttel tegyünk minden
>> > PDF fájlt automatikusan letölthetővé. Így viszont a karakteres
>> > PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.
>> >
>> > Az is felmerült, nem tudjuk egyelőre biztosan automatikusan
>> > elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű
>> > karakteres.
>> >
>> > Szóba került a Google online olvasója, de az szintén nehezen
>> > birkózik meg az ilyen képes PDF-ekkel.
>> >
>> > Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható
>> > képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen
>> >   http://view.samurajdata.se
>> > A kép minőség rosszabb, kicsit lassú.
>> >
>> > A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket
>> > alkalmazza könyvek és folyóiratok digitalizálása esetén. A
>> szolgáltatáskor
>> > viszont máshol is felmerülhet ez a probléma. Az egyben letöltést
>> > fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de azért
>> valami
>> > online lapozás, nézegetés is hasznos lenne.
>> >
>> > Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.
>> >
>> >
>> > Üdvözlettel
>> >
>> > Moldován István
>> >
>> >
>> > --
>> > Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!
>> >
>> >      http://mek.oszk.hu/egyesulet/1szazalek.html
>> >
>> > *****************************************************
>> > Országos Széchényi Könyvtár
>> > E-szolgáltatási Igazgatóság
>> > E-könyvtári Szolgáltatások Osztály
>> > 1827 Budapest, Budavári Palota F épület, 315. sz.
>> > Tel: (36)-1-224-3846
>> > Mobil: (36)-20-400-8872
>> > Fax: (36)-1-202-0804
>> > E-mail: moldovan at mek.oszk.hu
>> > URL: http://mek.oszk.hu
>> > URL: http://epa.oszk.hu/
>> > ***************************************************** ----------
>> Forwarded
>> > message ----------
>> > Date: Wed, 03 Feb 2016 18:17:03 +0100
>> > From: Drotos Laszlo <mekdl at iif.hu>
>> > To: Mek admin lista <mekadm-l at mek.oszk.hu>
>> > Subject: Re: [Mekadm-l] PDF online nezegeto?
>> >
>> > 2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:
>> >>
>> >> Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF
>> >> OCRes és
>> >> melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a
>> >> szokásos módon.
>> >
>> >
>> > Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről
>> > megállapítani,
>> > hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó
>> > megoldást
>> > találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai
>> metaadatok
>> > közt,
>> > hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen
>> > egyértelmű
>> > minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű
>> OCR-es
>> > és
>> > sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az
>> > előbbinek
>> > a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat
>> elő,
>> > hogy
>> > ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek
>> > szkennelve,
>> > az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a
>> > kiadótól.
>> > Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a
>> > felhasználó
>> > által kért PDF fájl milyen típusú.
>> >
>> > A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe
>> Reader
>> > beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a
>> > böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem
>> a
>> > böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja
>> meg
>> > a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy
>> > mindenképpen töltsék le előbb a fájlt.
>> >
>> > Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség
>> > azoknak,
>> > akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs
>> > olyan,
>> > ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet
>> > találtam,
>> > magyar változata is van, de nagyon primitív (bár nyilván
>> > továbbfejleszthető):
>> > http://view.samurajdata.se  Ez azt csinálja, hogy mindenféle PDF-et
>> > oldalképekké
>> > konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát
>> megold,
>> > de nem
>> > túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó
>> > nekünk.
>> >
>> > Laci
>> >
>> >
>> > _______________________________________________
>> > Mekadm-l mailing list
>> > Mekadm-l at mek.oszk.hu
>> > http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l
>> >
>> >
>> > _______________________________________________
>> > Mekegyes mailing list
>> > Mekegyes at listserv.niif.hu
>> > https://listserv.niif.hu/mailman/listinfo/mekegyes
>>
>>
>>
>> --
>> Péter Király
>> software developer
>> GWDG, Göttingen - Europeana - eXtensible Catalog - The Code4Lib Journal
>> http://linkedin.com/in/peterkiraly
>>
>> _______________________________________________
>> Mekegyes mailing list
>> Mekegyes at listserv.niif.hu
>> https://listserv.niif.hu/mailman/listinfo/mekegyes
>>
>

-- 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Dr.Kokas Károly
főig.h., c.doc. // dep.dir., hon.assoc.prof.
SZTE Klebelsberg Könyvtár/University of Szeged, Klebelsberg Library
H-6722 Szeged, Ady tér 10.
Tel.: +36 62 546-663 * Fax: +36 62 546-665
E-mail: kokas at ek.szte.hu
Weblap: http://www.bibl.u-szeged.hu/
"Imagination is more important than knowledge."
                                     Einstein

------------------------------------------------------
SZTE Klebelsberg Konyvtar - http://www.bibl.u-szeged.hu
This message was sent using IMP: http://horde.org/imp/