Re:[KATALIST] Google-digitalizálás
Bánhegyi Zsolt
zsolt at VAX.MTAK.HU
2005. Jan. 13., Cs, 11:36:10 CET
Bacsa András 2005. január 8-i levelében igy fogalmaz:
>"digitalizáljunk minden könyvet" a köznép kezébe adott szép nagyra
>felfújt lufi! :-)
Felfújt lufinak talán még viccböl is erös nevezni egy tervet, amelyhez öt
óriásgyüjtemény, egytöl-egyig világszám, önként dalolva csatlakozik --
bár az is örök igazság, hogy még a nagyok is tévedhetnek-:) és nem baj,
ha 'van kéznél' némi egészséges szkepszis. Magából a tényböl annyit
azért levonhatunk, hogy bizonyára profitálnak a végtermékböl a
könyvtárak is. Gondoljuk meg, az egész, három hete, december 14-én
világgá kürtölt projekt nem futó szeszélyböl eredt. Könyvtömegek
digitalizálásának gondolata igazából még a Google gründolását is megelözi,
hiszen a két alapitó a Stanfordon épp egy miniatür könyvtárdigitalizálási
projekten dolgozott, amikor 1999 elején a keresömotor létrehozása vonta
el attól Page & Brin figyelmét. Idézzük pontosan, mit mondott a
sajtótájékoztatón Larry Page. "Még mielött elinditottuk volna a Google-t,
arról ábrándoztunk, hogy a hihetetlen tömegü információt, amelyet a
könyvtárosok oly szeretö gondossággal szerveznek, kereshetövé tegyük
online. Ma örömünkre szolgál a program meghirdetése, amelynek
keretében ezeknek a bámulatraméltó könyvtáraknak az állományait
digitalizáljuk és szolgáltatjuk minden Google-használó javára. A
könyvtárakkal való együttmüködésünk kibövitése a meglévö Google
Print programnak, amely lehetövé teszi, hogy a használó a könyvek
teljes szövegében rábukkanjon egy adott szövegrészre. A Google
küldetése a világinformáció organizálása és izgalmasnak találjuk, hogy
könyvtárakkal dolgozhatunk együtt ennek a küldetésnek a
beteljesitésében." Mindössze négymondatos nyilatkozat, s hemzseg
benne a 'könyvtár' és 'könyvtáros' pozitiv értelmü kontextusban. Valljuk
meg, nem igy beszél egy szadi könyvtárgyilkos technokrata, s nem is
hizelgés mondatja vele e szavakat.
A Google Print sem új program, ám a reklám szándékolt hiánya miatt
széles körben ismeretlen maradt. 2003 öszén indult és bár mai napig
béta verziónak van elkönyvelve, sikeres és jelentös programnak kell
tekinteni. A kiadókkal való széleskörü együttmüködés folytán -- ez a
program azóta is bövül újabb és újabb kiadók, többek között a
HarperCollins, a Houghton Mifflin, a Scholastic és a Random House
csatlakozásával -- a Google a kiadók által felajánlott könyveket teljes
terjedelemben beszkenneli és az adott könyv szerzöi jogi státuszát
figyelembe véve a halmazokban linket ad meg vagy a teljes szöveghez,
vagy csak szövegrészekhez, kivonatokhoz, metaadatokhoz. A Google
Print modellként szolgál arra, hogyan fog müködni a keresömotor a
könyvdigitalizálási anyagokkal való gazdagodás után.
http://print.google.com/googleprint/about.html
A Google digitalizálási projektje az öt könyvtár esetében a technológia
azonossága mellett más és más kondiciókat tartalmaz, az egyes
kétoldalú megállapodások eltérnek egymástól. Érdemes körülnézni a
partnerek háza táján a sajátosságok, idioszünkráziák felkutatására.
**Oxford**
Az Oxford Egyetem a Bodleiana gyüjteményével 'nevezett be'. Ez a
parádés intézmény még I. Erzsébet uralkodása idején, 1602-ben (!)
lett nyilvános könyvtár, gyüjteménye a British Library után a második
legjelentösebb a szigetországban - 400 éve (!) hivatalos
kötelespéldány-könyvtár. Ilyen paraméterek után az ember megnémul
és már szinte nincs is mit mondania: a szóban forgó projektben a
Bodleiana sajátossága, hogy csak 1900 elötti könyveket digitalizáltat.
http://www.admin.ox.ac.uk/po/041214a.shtml
**NYPL**
Paul LeClerc, a New York Public Library (NYPL) elnöke szerint a
Google-lal való együttmüködés kitágitja a gyüjtemény horizontját és
hozzáférhetöségét. A 89 fiókkönyvtárral rendelkező NYPL 50 milliós
állományából 20 millió a könyv. A NYPL sajátossága, hogy kizárólag
szabad hozzáférésü, copyright-mentes könyveket ad át digitalizálásra.
A program befejezésével a könyveket nemcsak a Google-tól, hanem
a NYPL-ból is el lehet majd érni. Ez módositás a Google Printhez
képest, s a könyvtári elérést van hivatott biztositani.
http://www.nypl.org/press/google.cfm
**Harvard**
A Harvard Egyetem partneri együttmüködéséröl, amely egyelöre
kisérleti, un. pilot-program, az egyetemi lapban olvashatunk. Elsö
fázisban mindössze 40 ezer könyvet szkennelnek - a külsö raktárból
(Harvard Depository - HD) szedik ki a müveket. Sydney Verba
könyvtárigazgató szerint nagy a valószinüsége, hogy a teszt után a
teljes állományra is sor kerül. A Harvardon a Widener Könyvtárban
ülő használó az OPAC-ban - http://holliscatalog.harvard.edu -
kikeresi a könyv raktári jelzetét - ha a könyv külső raktári, a HD-ban
van tárolva, akkor nem kell behozatni, hanem a digitalizált változattal
azonnali hozzáférést tudnak nyújtani.
http://www.thecrimson.com/article.aspx?ref=505139
**UMich**
A Michigan Egyetem Könyvtára az USA hatodik legnagyobb
gyüjteménye. Larry Page egyébként a közelben született és az
egyetem Ann Arborban levő campusán diplomázott - ez is
nyomhatott a latban a partnerek kiválasztásánál. (Az sem volt hátrány,
hogy az egyetem élenjáró a digitalizálásban és a Library of Congress
American Memory c. gyüjteménye mellett az UMich 9 ezer kötetes
Making of America c. online archivuma a legjelentösebb történelmi
forrásanyag.) Az UMich a teljes anyagát digitalizálni fogja, a munka
már szép csendben folyik hónapok óta. A 7 milliós állományt 6 év
alatt fogják digitalizálni. (Az egyetem jelenlegi saját digitalizálási
tempója mellett ez a munka kb. 1600 évig tartana.) A napi
mennyiség 3600 könyv, azaz 2,25 perc alatt készül el egy könyv
átlagban. A Google helybe hozta a technológiát és a szkennelési
müveletekben dolgozó munkaeröröl is gondoskodik. A
könyvtárosok készitik elö a könyveket és szabják meg a szkennelésre
kerülö könyvek sorrendjét. Az egyetem tárolni fog egy példányt a
szkennelt anyag minden egyes darabjából.
http://digbig.com/4ckjk
**Stanford**
A New York Times még tavaly februárban hirt adott egy
Stanford-Google közös, Project Ocean kódjelü tervröl. Ez már az
ismert program elöjátéka volt, a részleteket sikerült csaknem egy évig
titokban tartani. A Stanford saját ütemezésében - Andrew C.
Herkovic, osztályvezetö könyvtáros szerint - elöször a public domain
állományt, az 1923 elötti müveket, aztán az egész gyüjteményt fogják
beszkennelni. A Stanford már jó ideje dolgozik az egymillió dollárt
súroló árfekvésü robotgéppel, digitalizálási tevékenységet folytatnak rajta.
http://digbig.com/4ckjm
A Stanford Report fenti honlapjának jobb oldalán található az a link
'Stanford, Google collaboration will have far-reaching impact' cimmel,
amely videofilmen Herkovic kalauzolásával mutatja be a digitalizáló
robotgép müködését. A digitalizálási technológia bár számos, máshol
kifejlesztett elemet tartalmaz, összességében a Google saját fejlesztése.
A digitalizálás költségeiröl annyi közvetett forrásból elhangzott, hogy
10 dollárba kerül egy könyv, ám a Thomson-Gale elnöke, digitalizálási
szakember szerint ennél nagyobb fajlagos költséggel kell számolni.
Hogyan zajlik a munka? Ennek mozzanatait a Michigan példáján
mutatjuk be. A Google egy mühelyt állított fel a campuson. A munka
egyelöre manuális, de a nagyobb védelmet igénylö könyveket később is
manuálisan fogják szkennelni. (Ritka könyveket - pl. Gulliver elsö
kiadása -- egyáltalán nem szkennelnek.) A könyvtárosok a polcról a
világszerte elterjedt - mondhatni világhirü - könyvtári kocsira teszik a
könyveket, vonalkódolvasóval leolvassák a vonalkódot, amivel
úgymond 'kikölcsönzik' a könyveket és átszállitják az egyetemen
létesitett Google-mühelybe, ahol a szkennelés történik. Ez a
kölcsönzés időtartamban olyan, mint az éjszakai vagy hétvégi, mert
nagyon hamar visszakerülnek a polcra a kötetek. A vonalkódbeolvasás
úgy van beállitva, hogy egyúttal a könyv OPAC-ban szereplö rekordja
átkerül a Google-hoz, ahol a szkennelt szöveghez linkelik a bibliográfiai
tételt. A folyamat további részében történik az optikai
karakterfelismerés (OCR) és az indexelés.
Fontos! A müvek tulajdonjoga természetesen marad az egyetemé, és ez
azt is jelenti, hogy ahogy az amerikai jogban a 'first sale' elv alapján a
megvásárolt példányból a könyvtár szolgáltathat, ergo az 1923 utáni,
tehát javarészt szerzöi jogi védelem alatt álló müveket is teljes szöveggel,
korlátozás nélkül rendelkezésre tudnak bocsátani, helyi használatra.
A digitalizált anyag megjelenitése
A könyvön belüli keresés nem új. Az Amazonon például több százezer
könyv digitalizálása és indexelése révén könyvek belsejében szavakra
kereshetünk azoknál a találatoknál, ahol a kis ikon megjelenik (Search
Inside the Book). Elöhivhatók mintaoldalak, a boritó, a cimlap, a verzó,
a hátsó boritó és a tartalomjegyzék. Az amazon.com kereskedelmi
webhely, ahol új vagy használt könyv vásárlását ösztönzik a bibliográfiai
adatok és a mintaoldalak megmutatásával. A Google-ban ez a szempont
ha nem is elhanyagolható, mégis számos alternativa kerül felkinálásra. A
keresési kifejezésböl a halmaz tetején a Google "Book results" cimmel
külön halmazt készit, amennyiben a keresési kifejezés szerepelt az
indexelt könyvben. Ha a könyv szerzöi jogi védelem alatt áll, a keresési
eredmény oldalán mintaoldal látható, elö lehet hivni néhány oldalt, a
tartalomjegyzéket, kivonatokat, bibliográfiai adatokat. Itt is van vásárlási
lehetöség "Buy the book" -- link mutat az amazon.com-hoz, a Barnes
and Noble virtuális könyvesbolthoz és a Google saját áruházához, a
Froogle-hoz. Ráklikkelhetünk még a használt és forgalomban nem
kapható könyvek onilne áruházának, az Alibrisnek a honlapjára is.
Egészen eredeti a könyvtári lelöhelyhez mutató link. A "Find this in a
library" keresöablakába be kell irni az irányitószámot, amelynek alapján a
Google elöhozza, melyik közelben lévö könyvtárban van meg a keresett
könyv. A szabad, copyrighttal nem védett könyvek, kormánykiadványok
stb. teljes szöveggel olvashatók lesznek.
A digitalizálási projekt járulékos haszna lehet - amire elsöre nem nagyon
gondol az ember - a *megörzés* kérdése. A digitális fájlok megörzésének
történelmi súlyú megállapodása alapján 2002 nyarától az Elsevier a
Holland Királyi Könyvtárba helyezi el elektronikus anyagait megörzésre
(ld. az alábbi TMT-referátum erröl).
http://digbig.com/4ckjn
Ezzel összhangban az öt könyvtár és a Google abban állapodott meg,
hogy nem a kereskedelmi vállalat, jelen esetben a Google, Inc., hanem a
nagy könyvtárak gondoskodnak a fájlok megörzéséröl. A Michigannél az
eredeti fájlokat arany-CD-ROM-ra mentik - ezek olyan arannyal
'felturbózott' eszközök, amelyek türése állitólag többszáz év (erre szoktuk
mondani, majd meglátjuk-:). A Stanfordon mágnesszalagos mentést
javasolnak, mindenböl három példányt készitenek és megszervezik a
folyamatos frissitést és karbantartást. Az egész anyag volumene végül is
a petabájt-tartományba (1 petabájt=1000 terabájt) esik.
http://digbig.com/4ckjp
----------
Még némi ráadás:
Bacsa András január 10-i levelében ezt irja:
>ahogyan László írta, hogy a digitalizálást "amerikaiak ingyen megteszik",
>mert az nagy naivitás lenne. Hirtelen semmi olyan nem jut az eszembe,
>amit az amerikaiak ingyen, és önzetlenül tettek volna.
A projekt nem fogja kikerülni a nem angol nyelvü könyveket sem. Mivel
ismert, hogy a Google például kinai nyelven is szolgáltat, semmi gondot
nem jelent a digitalizálási munka számára a kanji vagy az arab karakterek
felismerése. Ezek szerint - minden ellenkezö hiresztelés ellenére - a
magyar nyelvü könyveket sem fogják félretenni - bár nem tudják rendesen
kimondani, hogy Egészségedre-). Kovács Ilona áldozatos kutatása szerint
a NYPL hungarika-anyaga mintegy 20 ezer kötetre tehetö. A többi részt
vevö könyvtárban is jelentös magyar nyelvü anyag lehet, durván 100
ezerre becsülöm. Tiszta haszon, ha ezt az anyagot - ingyen - digitalizálni
fogják. Megjegyzem: aránylag sok a hazai magyar könyv ezekben a
könyvtárakban. Mindegyikük sok évtized óta az MTA Könyvtárának
stabil cserepartnere: ennek a viszonynak is köszönhetö, hogy hungarikák
ezrei lapulnak az ottani polcokon.
Arról pedig, hogy 'Hirtelen semmi olyan nem jut az eszembe, amit az
amerikaiak ingyen, és önzetlenül tettek volna', nekem az jut eszembe,
hogy utoljára ilyet 1971-ben az ELTE angol tanszékének párttitkárnöjétöl
hallottam. Az amerikaiak ezen a téren - sem - szorulnak a védelmemre,
nem tudom hány generáció óta fogadják be többek között magyarok
százezreit, de ha ez Andrásnak piha, akkor még idézek egy könyvböl,
amiröl recenziót irtam (John Tomlinson: Globalization and Culture):
"...említést tesz arról a tényröl, hogy 80 millió amerikai minden héten öt
órát szán önkéntes segitömunkára, jótékonykodásra."
http://www.inco.hu/inco6/global/cikk3h.htm
Bánhegyi Zsolt
További információk a(z) Katalist levelezőlistáról