[KATALIST] egy gondolat az internet archiválásról
Király Péter
pkiraly at tesuji.eu
2009. Dec. 31., Cs, 12:01:19 CET
Dudás Anikó:
> (Persze, az is kérdés, hogy vajon az adatbázisokat hogyan
> is lehet internetarchiválni.)
Ha böngészéssel bejárható egy adatbázis (pontosabban egy adatbázisra épített
alkalmazás), akkor minden különösebb gond nélkül lehet archiválni is. Ha sok
szálon, kvázi egyszerre próbáljuk elérni és lementeni, akkor komoly
konzisztencia-problémák sem merülnek fel. A gond az, hogy általában az
adatbázis-alapú szájtok, és ez alól sajnos a könyvtári OPACok sem kivételek,
pusztán a keresés segítségével tárhatók fel, a böngészésre nagyon kevés
esetben
van lehetőség - pedig ennek a kereséssel egyforma jelentőssége van (lásd
a usability/accessibility elméletével foglalkozó írásokat, vagy magyarul,
könyvtáros
szemmel: Sütheő Péter immár 10 éves könyvét [Sütheő Péter: Hypertext:
Természetes
intelligencia az információtudományban. OSZK, Bp, 1999.]).
Még azokat a szájtokat is be lehet járni, ahol az űrlapokat úgy alakították
ki,
hogy bizonyos mezők esetében checkbox, rádió- vagy legördülőlista
tartalmazza
az adott mező teljes értékkészletét. A web archiválására használt leginkább
elterjedt eszköz, a nyílt forráskódú, parancssoron, webfelületen és Java
API-n
keresztül is használható Heritrix (http://crawler.archive.org/) erre
lehetőséget ad
- persze ehhez ismerni kell az adott űrlapok szerkezetét.
Király Péter
További információk a(z) Katalist levelezőlistáról