[KATALIST] egy gondolat az internet archiválásról

Király Péter pkiraly at tesuji.eu
2009. Dec. 31., Cs, 12:01:19 CET


Dudás Anikó:
> (Persze, az is kérdés, hogy vajon az adatbázisokat hogyan
> is lehet internetarchiválni.)

Ha böngészéssel bejárható egy adatbázis (pontosabban egy adatbázisra épített
alkalmazás), akkor minden különösebb gond nélkül lehet archiválni is. Ha sok
szálon, kvázi egyszerre próbáljuk elérni és lementeni, akkor komoly
konzisztencia-problémák sem merülnek fel. A gond az, hogy általában az
adatbázis-alapú szájtok, és ez alól sajnos a könyvtári OPACok sem kivételek,
pusztán a keresés segítségével tárhatók fel, a böngészésre nagyon kevés 
esetben
van lehetőség - pedig ennek a kereséssel egyforma jelentőssége van (lásd
a usability/accessibility elméletével foglalkozó írásokat, vagy magyarul, 
könyvtáros
szemmel: Sütheő Péter immár 10 éves könyvét [Sütheő Péter: Hypertext: 
Természetes
intelligencia az információtudományban. OSZK, Bp, 1999.]).

Még azokat a szájtokat is be lehet járni, ahol az űrlapokat úgy alakították 
ki,
hogy bizonyos mezők esetében checkbox, rádió-  vagy legördülőlista 
tartalmazza
az adott mező teljes értékkészletét. A web archiválására használt leginkább
elterjedt eszköz, a nyílt forráskódú, parancssoron, webfelületen és Java 
API-n
keresztül is használható Heritrix (http://crawler.archive.org/) erre 
lehetőséget ad
- persze ehhez ismerni kell az adott űrlapok szerkezetét.

Király Péter 





További információk a(z) Katalist levelezőlistáról