Bocsánat ezt csak Istvánnak küldtem először. Most továbbítom a listára is.<br><br>---------- Továbbított üzenet ----------<br>Feladó: <b>Szendi Attila</b> <<a href="mailto:szendia@freemail.hu">szendia@freemail.hu</a>><br>Dátum: 2016. február 4., csütörtök<br>Tárgy: [Mekegyes] Ketretegu PDF-ek online olvasasa?<br>Címzett: <a href="mailto:moldovan@mek.oszk.hu">moldovan@mek.oszk.hu</a><br><br><br><div dir="ltr">Sokat foglalkoztam én is ezzel a kérdéskörrel vagy 2-3 éve.</div><div dir="ltr"><br>

Most úgy látom, hogy az<a href="http://archive.org" target="_blank"> archive.org</a> technikája a legfelhasználóbarátabb. (A könyv lapozás élménye, csak az aktuális oldal töltődik le, mobilon is használható a felület, kereshető.) És nagyon jól testre szabható. Vannak jó példák pl. <a href="http://biodiversitylibrary.org">biodiversitylibrary.org</a>.</div><span>

</span><p dir="ltr">Növelni lehet a funkcionalitást azzal, hogy a képek alá kerül a kereshető, vágólapozható szöveg html5-ös technikával. Ilyen pl. A Google pdf nézegetője, amely Drive-ban levő pdf-eket jeleníti meg, de az Arcanum is ezt a megjelenítési módot használja újabban. Azonban ez több memóriát fogyaszt, gyanítom ezért nem fejlesztették ezt tovább. Információim szerint a Monguz Kft. éppen az archive.org-os BookReader-t továbbfejlesztette ebben az irányban.</p><span>

</span><p dir="ltr">A tárhelyet bizonyos nagy cégek úgy oldják meg, hogy olyan pc cluster alapú tárolószerverekek alkalmaznak, amelyek hagyományos pc-s alkatrészekből épülnek fel és olyan hibatűrő filerendszereket raknak rá, mint a Ceph. Ezzel el lehet érni, hogy 30-50eFt/TB költséggel lehet számolni az iparági átlag 1M Ft helyett. Beüzemeléséhez szakember kell, akiből nincs sok, de a fenntartási költségeken bőven megtérül. Tavaly a Networkshop info szekciója ettől volt hangos. </p><span>

</span><p dir="ltr">Úgy emlékszem a pdf-ből pedig egy kereséssel el lehet dönteni, hogy kétrétegű vagy sem (uncompress pdftk, layer keresés). </p><p dir="ltr">De szerintem, ha a hosszútávú megőrzés formátumát nézem akkor az a kép+szöveg együttese. A pdf-ekkel sokat lehet szenvedni: rejtett hibák, 10-20 év alatti inkompatbilitások. Persze szolgáltatási formátumként még mindig jobb mint egy doc/docx.<br>

</p><p dir="ltr">Egyébként az <a href="http://archive.org" target="_blank">archive.org</a> még tett bele egy csavart: könyvenként zipben tárolja a képeket és kérés esetén kicsomagolja. (Sőt még konvertálja is jp2>jpg). Így a sok apró oldalképfájl nem terheli a rendszert.</p><p dir="ltr">Nekem egy valami nem tetszett benne, hogy az Abbyy OCR server xml fájlára van optimalizálva. De úgy tudom az OSZK-nak van ilyen liszensze.</p><p dir="ltr">Az én kedvencem pdf ügyben a <a href="http://pdfhacks.com" target="_blank">pdfhacks.com</a> oldalon található pdfportal/pdfskins volt. Pdf oldalanként lapozható. De ez pl. mobilon nem használható. Érdemes ezt is megnézni.</p><p dir="ltr">Üdv:</p><p dir="ltr">Szendi Attila</p><p dir="ltr"><br></p><p dir="ltr"><br></p><p dir="ltr"><br></p><span>

</span><div style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Kedves Kollégák,<br>

<br>

Szűk körben elkezdtünk beszélgetni egy problémám,<br>

gondoltam, ez megér egy nyilvános gondolkodást is.<br>

Úgyis régen volt ilyen a szakmai listánkon.<br>

<br>

Egyre több jelzést kapunk azzal a problémával,<br>

hogy a MEK-be, EPA-ba felkerült kétrétegű PDF-eket<br>

az olvasók nem tudják jól olvasni, megjeleníteni.<br>

Ezek alkalmanként 30-40 megás PDF fájlok, amelyek<br>

a szkennelt oldalképeket tartalmazzák.<br>

<br>

Egy ideje a böngészőkbe PDF nézegetőt építettek<br>

bele, amelyek azonban nem igazán bírnak ezekkel<br>

a PDF monstrumokkal, inkább a szöveges PDF-ekre<br>

lettek kitalálva. Az átlag olvasók persze a könyvek<br>

címére, borítójára kattintanak helyből, így beleesnek<br>

a böngészők PDF nézegető csapdájába. Kevesen ismerik,<br>

hogy ilyenkor a jobb egérgombos menüből célszerű helyben<br>

letölteni a fájlt és ott megnézni egy PDF nézegetővel<br>

(pl. Sumatra).<br>

<br>

Először az <a href="http://archive.org" rel="noreferrer" target="_blank">archive.org</a> online olvasóját akartuk átvenni,<br>

amely szabadon átvehető.<br>

<a href="https://archive.org/details/sszeskltemnyeiv00petgoog" rel="noreferrer" target="_blank">https://archive.org/details/sszeskltemnyeiv00petgoog</a><br>

<a href="https://openlibrary.org/dev/docs/bookreader" rel="noreferrer" target="_blank">https://openlibrary.org/dev/docs/bookreader</a><br>

Ehhez azonban a könyv képfájljai szükségesek, így a MEK<br>

rendszerében növelni kellene a redundanciát, hamarabb<br>

elfogyna a tárhelyünk, visszamenőleg szinte megoldhatatlan.<br>

<br>

Fejlesztőnk felvetette, egy kis scripttel tegyünk minden<br>

PDF fájlt automatikusan letölthetővé. Így viszont a karakteres<br>

PDF fájlok kényelmesebb, böngészőben való olvashatósága vész el.<br>

<br>

Az is felmerült, nem tudjuk egyelőre biztosan automatikusan<br>

elkülöníteni, mely PDF kétrétegű, képes, mely csak egyszerű<br>

karakteres.<br>

<br>

Szóba került a Google online olvasója, de az szintén nehezen<br>

birkózik meg az ilyen képes PDF-ekkel.<br>

<br>

Drótos Laci talált egy ilyen alkalmazást, amelyik lapozgatható<br>

képpé konvertálja a képes PDF-eket, de ezzel is elégedetlen<br>

  <a href="http://view.samurajdata.se" rel="noreferrer" target="_blank">http://view.samurajdata.se</a> <br>

A kép minőség rosszabb, kicsit lassú.<br>

<br>

A könyvtári digitalizálás is egyre inkább a kétrétegű PDF-eket<br>

alkalmazza könyvek és folyóiratok digitalizálása esetén. A szolgáltatáskor<br>

viszont máshol is felmerülhet ez a probléma. Az egyben letöltést<br>

fontosnak gondoljuk, hogy így elvihető legyen a dokumentum, de azért valami online lapozás, nézegetés is hasznos lenne.<br>

<br>

Gondoltam hátha valakinek van jó ötlete, javaslata, tapasztalata.<br>

<br>

<br>

Üdvözlettel<br>

<br>

Moldován István<br>

<br>

<br>

-- <br>

Kérem, támogassa adója 1%-ával a MEK Egyesületet. Köszönöm!<br>

<br>

     <a href="http://mek.oszk.hu/egyesulet/1szazalek.html" rel="noreferrer" target="_blank">http://mek.oszk.hu/egyesulet/1szazalek.html</a><br>

<br>

*****************************************************<br>

Országos Széchényi Könyvtár<br>

E-szolgáltatási Igazgatóság<br>

E-könyvtári Szolgáltatások Osztály<br>

1827 Budapest, Budavári Palota F épület, 315. sz.<br>

Tel: <a href="tel:%2836%29-1-224-3846" value="+13612243846" target="_blank">(36)-1-224-3846</a><br>

Mobil: (36)-20-400-8872<br>

Fax: <a href="tel:%2836%29-1-202-0804" value="+13612020804" target="_blank">(36)-1-202-0804</a><br>

E-mail: <a href="javascript:_e(%7B%7D,'cvml','moldovan@mek.oszk.hu');" target="_blank">moldovan@mek.oszk.hu</a><br>

URL: <a href="http://mek.oszk.hu" rel="noreferrer" target="_blank">http://mek.oszk.hu</a><br>

URL: <a href="http://epa.oszk.hu/" rel="noreferrer" target="_blank">http://epa.oszk.hu/</a><br>

***************************************************** ---------- Forwarded message ----------<br>

Date: Wed, 03 Feb 2016 18:17:03 +0100<br>

From: Drotos Laszlo <<a href="javascript:_e(%7B%7D,'cvml','mekdl@iif.hu');" target="_blank">mekdl@iif.hu</a>><br>

To: Mek admin lista <<a href="javascript:_e(%7B%7D,'cvml','mekadm-l@mek.oszk.hu');" target="_blank">mekadm-l@mek.oszk.hu</a>><br>

Subject: Re: [Mekadm-l] PDF online nezegeto?<br>

<br>

2016.02.03. 9:14 keltezéssel, Gabor Vitez írta:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Azon gondolkozom hogy az EPA DB-ből nem lehet-e kiszedni hogy melyik PDF OCRes és<br>

melyik nem. Az OCReseket automatikusan mind így adni, a simákat meg a szokásos módon.<br>

</blockquote>

<br>

Próbáltam utánanézni az interneten, hogy hogyan lehet egy PDF-ről megállapítani,<br>

hogy csak szöveges, vagy van benne oldalkép réteg is, de nem sikerült jó megoldást<br>

találni. Ugyan a MEK-nél és az EPA-nál is felvesszük a technikai metaadatok közt,<br>

hogy ha OCR-s kétrétegű fájl(ok)ban van a kiadvány, de ez nem teljesen egyértelmű<br>

minden esetben, mert pl. a MEK-nél sokszor két változatban: kétrétegű OCR-es és<br>

sima szöveges PDF-ben is feltesszük ugyanazt a könyvet (igaz, ilyenkor az előbbinek<br>

a fájlnevében is benne van, hogy "ocr"), az EPA-nál pedig az fordulhat elő, hogy<br>

ugyanannak a kiadványnak régebbi számai kétrétegű OCR-es PDF-ként lettek szkennelve,<br>

az újabbak viszont sima szövegesek, mert azokat már digitálisan kapjuk a kiadótól.<br>

Így jobb lenne valami automatikus módszer annak eldöntésére, hogy a felhasználó<br>

által kért PDF fájl milyen típusú.<br>

<br>

A helyzetet még tovább bonyolítja, hogy sok felhasználónál az Adobe Reader<br>

beépült a böngészőbe (telepítésekor ez a default beállítás), így ők nem a<br>

böngésző saját PDF megjelenítőjével látják a megnyitott PDF fájlt, hanem a<br>

böngésző ablakán belül elindult Adobe Reader-rel, ami helyesen mutatja meg<br>

a kétrétegű PDF-eket is. Így őket fölöslegesen kényszerítenénk arra, hogy<br>

mindenképpen töltsék le előbb a fájlt.<br>

<br>

Úgyhogy jobb megoldás lenne egy opcionális online megjelenítő lehetőség azoknak,<br>

akiknél valamiért nem jól jelenik meg egy PDF fájl. De úgy látszik, nincs olyan,<br>

ami ingyenes és elboldogul ezekkel a kétrétegű fájlokkal. Még egy ilyet találtam,<br>

magyar változata is van, de nagyon primitív (bár nyilván továbbfejleszthető):<br>

<a href="http://view.samurajdata.se" rel="noreferrer" target="_blank">http://view.samurajdata.se</a>  Ez azt csinálja, hogy mindenféle PDF-et oldalképekké<br>

konvertál, amiket azután lapozgatni lehet, ami ugyan sok problémát megold, de nem<br>

túl szép az eredmény és a konvertálás miatt lassú is, úgyhogy ez sem jó nekünk.<br>

<br>

Laci<br>

<br>

<br>

_______________________________________________<br>

Mekadm-l mailing list<br>

<a href="javascript:_e(%7B%7D,'cvml','Mekadm-l@mek.oszk.hu');" target="_blank">Mekadm-l@mek.oszk.hu</a><br>

<a href="http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l" rel="noreferrer" target="_blank">http://mekosztaly.oszk.hu/cgi-bin/mailman/listinfo/mekadm-l</a><br>

<br>

<br>

_______________________________________________<br>

Mekegyes mailing list<br>

<a href="javascript:_e(%7B%7D,'cvml','Mekegyes@listserv.niif.hu');" target="_blank">Mekegyes@listserv.niif.hu</a><br>

<a href="https://listserv.niif.hu/mailman/listinfo/mekegyes" rel="noreferrer" target="_blank">https://listserv.niif.hu/mailman/listinfo/mekegyes</a><br>

<br>

</div><span>

</span><br>