Bocsánat ezt csak Istvánnak küldtem először. Most továbbítom a listára is.<br><br>---------- Továbbított üzenet ----------<br>Feladó: <b>Szendi Attila</b> <<a href="mailto:szendia@freemail.hu">szendia@freemail.hu</a>><br>Dátum: 2016. február 4., csütörtök<br>Tárgy: [Mekegyes] Ketretegu PDF-ek online olvasasa?<br>Címzett: <a href="mailto:moldovan@mek.oszk.hu">moldovan@mek.oszk.hu</a><br><br><br><div dir="ltr">Sokat foglalkoztam én is ezzel a kérdéskörrel vagy 2-3 éve.</div><div dir="ltr"><br>
Most úgy látom, hogy az<a href="http://archive.org" target="_blank"> archive.org</a> technikája a legfelhasználóbarátabb. (A könyv lapozás élménye, csak az aktuális oldal töltődik le, mobilon is használható a felület, kereshető.) És nagyon jól testre szabható. Vannak jó példák pl. <a href="http://biodiversitylibrary.org">biodiversitylibrary.org</a>.</div><span>
</span><p dir="ltr">Növelni lehet a funkcionalitást azzal, hogy a képek alá kerül a kereshető, vágólapozható szöveg html5-ös technikával. Ilyen pl. A Google pdf nézegetője, amely Drive-ban levő pdf-eket jeleníti meg, de az Arcanum is ezt a megjelenítési módot használja újabban. Azonban ez több memóriát fogyaszt, gyanítom ezért nem fejlesztették ezt tovább. Információim szerint a Monguz Kft. éppen az archive.org-os BookReader-t továbbfejlesztette ebben az irányban.</p><span>
</span><p dir="ltr">A tárhelyet bizonyos nagy cégek úgy oldják meg, hogy olyan pc cluster alapú tárolószerverekek alkalmaznak, amelyek hagyományos pc-s alkatrészekből épülnek fel és olyan hibatűrő filerendszereket raknak rá, mint a Ceph. Ezzel el lehet érni, hogy 30-50eFt/TB költséggel lehet számolni az iparági átlag 1M Ft helyett. Beüzemeléséhez szakember kell, akiből nincs sok, de a fenntartási költségeken bőven megtérül. Tavaly a Networkshop info szekciója ettől volt hangos. </p><span>
</span><p dir="ltr">Úgy emlékszem a pdf-ből pedig egy kereséssel el lehet dönteni, hogy kétrétegű vagy sem (uncompress pdftk, layer keresés). </p><p dir="ltr">De szerintem, ha a hosszútávú megőrzés formátumát nézem akkor az a kép+szöveg együttese. A pdf-ekkel sokat lehet szenvedni: rejtett hibák, 10-20 év alatti inkompatbilitások. Persze szolgáltatási formátumként még mindig jobb mint egy doc/docx.<br>
</p><p dir="ltr">Egyébként az <a href="http://archive.org" target="_blank">archive.org</a> még tett bele egy csavart: könyvenként zipben tárolja a képeket és kérés esetén kicsomagolja. (Sőt még konvertálja is jp2>jpg). Így a sok apró oldalképfájl nem terheli a rendszert.</p><p dir="ltr">Nekem egy valami nem tetszett benne, hogy az Abbyy OCR server xml fájlára van optimalizálva. De úgy tudom az OSZK-nak van ilyen liszensze.</p><p dir="ltr">Az én kedvencem pdf ügyben a <a href="http://pdfhacks.com" target="_blank">pdfhacks.com</a> oldalon található pdfportal/pdfskins volt. Pdf oldalanként lapozható. De ez pl. mobilon nem használható. Érdemes ezt is megnézni.</p><p dir="ltr">Üdv:</p><p dir="ltr">Szendi Attila</p><p dir="ltr"><br></p><p dir="ltr"><br></p><p dir="ltr"><br></p><span>
</span><div style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Kedves Kollégák,<br>
<br>
Szűk körben elkezdtünk beszélgetni egy problémám,<br>
gondoltam, ez megér egy nyilvános gondolkodást is.<br>
Úgyis régen volt ilyen a szakmai listánkon.<br>
<br>
Egyre több jelzést kapunk azzal a problémával,<br>
hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket<br>
az olvasók nem tudják jól olvasni, megjeleníteni.<br>
Ezek alkalmanként 30-40 megás PDF fájlok, amelyek<br>
a szkennelt oldalképeket tartalmazzák.<br>
<br>
Egy ideje a böngészőkbe PDF nézegetőt építettek<br>
bele, amelyek azonban nem igazán bírnak ezekkel<br>
a PDF monstrumokkal, inkább a szöveges PDF-ekre<br>
lettek kitalálva. Az átlag olvasók persze a könyvek<br>
címére, borítójára kattintanak helyből, így beleesnek<br>
a böngészők PDF nézegető csapdájába. Kevesen ismerik,<br>
hogy ilyenkor a jobb egérgombos menüből célszerű helyben<br>
letölteni a fájlt és ott megnézni egy PDF nézegetővel<br>
(pl. Sumatra).<br>
<br>
Először az <a href="http://archive.org" rel="noreferrer" target="_blank">archive.org</a> online olvasóját akartuk átvenni,<br>
amely szabadon átvehető.<br>
<a href="https://archive.org/details/sszeskltemnyeiv00petgoog" rel="noreferrer" target="_blank">https://archive.org/details/sszeskltemnyeiv00petgoog</a><br>
<a href="https://openlibrary.org/dev/docs/bookreader" rel="noreferrer" target="_blank">https://openlibrary.org/dev/docs/bookreader</a><br>
Ehhez azonban a könyv képfájljai szükségesek, így a MEK<br>
rendszerében növelni kellene a redundanciát, hamarabb<br>
elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.<br>
<br>
Fejlesztőnk felvetette, egy kis scripttel tegyünk minden<br>
PDF fájlt automatikusan letölthetővé. Így viszont a karakteres<br>
PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.<br>
<br>
Az is felmerült, nem tudjuk egyelőre biztosan automatikusan<br>
elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű<br>
karakteres.<br>
<br>
Szóba került a Google online olvasója, de az szintén nehezen<br>
birkózik meg az ilyen képes PDF-ekkel.<br>
<br>
Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható<br>
képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen<br>
<a href="http://view.samurajdata.se" rel="noreferrer" target="_blank">http://view.samurajdata.se</a> <br>
A kép minőség rosszabb, kicsit lassú.<br>
<br>
A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket<br>
alkalmazza könyvek és folyóiratok digitalizálása esetén. A szolgáltatáskor<br>
viszont máshol is felmerülhet ez a probléma. Az egyben letöltést<br>
fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de azért valami online lapozás, nézegetés is hasznos lenne.<br>
<br>
Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.<br>
<br>
<br>
Üdvözlettel<br>
<br>
Moldován István<br>
<br>
<br>
-- <br>
Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!<br>
<br>
<a href="http://mek.oszk.hu/egyesulet/1szazalek.html" rel="noreferrer" target="_blank">http://mek.oszk.hu/egyesulet/1szazalek.html</a><br>
<br>
*****************************************************<br>
Országos Széchényi Könyvtár<br>
E-szolgáltatási Igazgatóság<br>
E-könyvtári Szolgáltatások Osztály<br>
1827 Budapest, Budavári Palota F épület, 315. sz.<br>
Tel: <a href="tel:%2836%29-1-224-3846" value="+13612243846" target="_blank">(36)-1-224-3846</a><br>
Mobil: (36)-20-400-8872<br>
Fax: <a href="tel:%2836%29-1-202-0804" value="+13612020804" target="_blank">(36)-1-202-0804</a><br>
E-mail: <a href="javascript:_e(%7B%7D,'cvml','moldovan@mek.oszk.hu');" target="_blank">moldovan@mek.oszk.hu</a><br>
URL: <a href="http://mek.oszk.hu" rel="noreferrer" target="_blank">http://mek.oszk.hu</a><br>
URL: <a href="http://epa.oszk.hu/" rel="noreferrer" target="_blank">http://epa.oszk.hu/</a><br>
***************************************************** ---------- Forwarded message ----------<br>
Date: Wed, 03 Feb 2016 18:17:03 +0100<br>
From: Drotos Laszlo <<a href="javascript:_e(%7B%7D,'cvml','mekdl@iif.hu');" target="_blank">mekdl@iif.hu</a>><br>
To: Mek admin lista <<a href="javascript:_e(%7B%7D,'cvml','mekadm-l@mek.oszk.hu');" target="_blank">mekadm-l@mek.oszk.hu</a>><br>
Subject: Re: [Mekadm-l] PDF online nezegeto?<br>
<br>
2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF OCRes és<br>
melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a szokásos módon.<br>
</blockquote>
<br>
Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről megállapítani,<br>
hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó megoldást<br>
találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai metaadatok közt,<br>
hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen egyértelmű<br>
minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű OCR-es és<br>
sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az előbbinek<br>
a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat elő, hogy<br>
ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek szkennelve,<br>
az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a kiadótól.<br>
Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a felhasználó<br>
által kért PDF fájl milyen típusú.<br>
<br>
A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe Reader<br>
beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a<br>
böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem a<br>
böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja meg<br>
a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy<br>
mindenképpen töltsék le előbb a fájlt.<br>
<br>
Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség azoknak,<br>
akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs olyan,<br>
ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet találtam,<br>
magyar változata is van, de nagyon primitív (bár nyilván továbbfejleszthető):<br>
<a href="http://view.samurajdata.se" rel="noreferrer" target="_blank">http://view.samurajdata.se</a> Ez azt csinálja, hogy mindenféle PDF-et oldalképekké<br>
konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát megold, de nem<br>
túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó nekünk.<br>
<br>
Laci<br>
<br>
<br>
_______________________________________________<br>
Mekadm-l mailing list<br>
<a href="javascript:_e(%7B%7D,'cvml','Mekadm-l@mek.oszk.hu');" target="_blank">Mekadm-l@mek.oszk.hu</a><br>
<a href="http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l" rel="noreferrer" target="_blank">http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l</a><br>
<br>
<br>
_______________________________________________<br>
Mekegyes mailing list<br>
<a href="javascript:_e(%7B%7D,'cvml','Mekegyes@listserv.niif.hu');" target="_blank">Mekegyes@listserv.niif.hu</a><br>
<a href="https://listserv.niif.hu/mailman/listinfo/mekegyes" rel="noreferrer" target="_blank">https://listserv.niif.hu/mailman/listinfo/mekegyes</a><br>
<br>
</div><span>
</span><br>