[KATALIST] Uj kereso tesztje a Project Gutenberghez
Peter Kiraly
pkiraly at tesuji.eu
2007. Aug. 23., Cs, 11:02:39 CEST
Tisztelt Lista,
tavaly beszámoltam arról, hogy a cégünk, a Tesuji készítette a Project
Gutenberg
Consortia Center (PGCC) 3 szájtjának a keresõmotorját. Az együttmûködés
most egy új fázisba lépett, immár a fõ Project Gutenberg szájt
keresõmotorját készítettük. Jelenleg a tesztelési fázis zajlik,
Greg Newby a Project Gutenberg Literary Archive Foundation igazgatója
küldte ki az alábbi levelet a Project Gutenberg Volunteer Discussion
nevû levelezõlistára, amelyben felkéri az önkénteseket, hogy
észrevételeikkel, javaslataikkal járuljanak hozzá a fejlesztéshez.
Amennyiben a Katalista kedves elõfizetõinek is lenne észrevételük,
kérem, hogy írják meg azokat személyesen nekem (pkiraly at tesuji.eu)
vagy a levélben szereplõ bármely címre.
A tesztoldal címe:
http://bookmine.tesuji.eu/gutenberg/
Egy kis technikai háttér:
A PG teljes katalógusa napi frissítéssel RDF formában zippelve felkerül
egy wiki-oldalra. Az RDF séma kihasználja az RDF számos elõnyét, így a
pontos típusmeghatározást és az értelmezési kereteket. Ahol lehet,
támaszkodik a Dublic Core definíciókra, illetve ISO és W3C szabványokra,
szabályokra, pl.
a DC-értelemben vett nyelv megadása az ISO639-2 szabány szerinti nyelvi
kódokkal van kódolva:
<dc:language>
<dcterms:ISO639-2>
<rdf:value>en</rdf:value>
</dcterms:ISO639-2>
</dc:language>
vagy a DC-értelemben vett létrehozás dátumát a W3C formátum-meghatározása
alapján kell értelmezni:
<dc:created>
<dcterms:W3CDTF>
<rdf:value>2007-07-25</rdf:value>
</dcterms:W3CDTF>
</dc:created>
A katalógusban különválasztották a mûleírást és az azokat hordozó fájlok
leírását.
mûleírás, nincs benne hivatkozás semmilyen fájlra:
<pgterms:etext rdf:ID="etext22143">
<dc:publisher>&pg;</dc:publisher>
<dc:title rdf:parseType="Literal">The Panama Canal Conflict between
Great Britain and the United States of America
A Study</dc:title>
<dc:creator rdf:parseType="Literal">Oppenheim, Lassa,
1858-1919</dc:creator>
<pgterms:friendlytitle rdf:parseType="Literal">The Panama Canal Conflict
between Great Britain an</pgterms:friendlytitle>
<dc:language><dcterms:ISO639-2><rdf:value>en</rdf:value></dcterms:ISO639-2></dc:language>
<dc:created><dcterms:W3CDTF><rdf:value>2007-07-25</rdf:value></dcterms:W3CDTF></dc:created>
<dc:rights rdf:resource="&lic;" />
</pgterms:etext>
fájlleírások, a vonatkozó mûvet az isFormatOf tag alapján lehet megtalálni
<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-8.txt">
<dc:format><dcterms:IMT><rdf:value>text/plain;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
<dcterms:extent>79225</dcterms:extent>
<dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
<dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>
<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-8.zip">
<dc:format><dcterms:IMT><rdf:value>text/plain;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
<dc:format><dcterms:IMT><rdf:value>application/zip</rdf:value></dcterms:IMT></dc:format>
<dcterms:extent>24883</dcterms:extent>
<dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
<dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>
<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-h/22143-h.htm">
<dc:format><dcterms:IMT><rdf:value>text/html;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
<dcterms:extent>85306</dcterms:extent>
<dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
<dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>
<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-h.zip">
<dc:format><dcterms:IMT><rdf:value>text/html;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
<dc:format><dcterms:IMT><rdf:value>application/zip</rdf:value></dcterms:IMT></dc:format>
<dcterms:extent>24977</dcterms:extent>
<dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
<dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>
<pgterms:file rdf:about="&f;2/2/1/4/22143/22143.txt">
<dc:format><dcterms:IMT><rdf:value>text/plain;
charset="us-ascii"</rdf:value></dcterms:IMT></dc:format>
<dcterms:extent>79225</dcterms:extent>
<dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
<dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>
<pgterms:file rdf:about="&f;2/2/1/4/22143/22143.zip">
<dc:format><dcterms:IMT><rdf:value>text/plain;
charset="us-ascii"</rdf:value></dcterms:IMT></dc:format>
<dc:format><dcterms:IMT><rdf:value>application/zip</rdf:value></dcterms:IMT></dc:format>
<dcterms:extent>24867</dcterms:extent>
<dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
<dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>
Egy mûhöz, mint látható sok fájl is tartozhat, a formátumot pedig
az IANA-féle MIME-típusokkal kódolják.
A szakozás alapvetõen a LoC Subject Headingjeit veszi alapul, de elõfordul
ettõl független tárgyszavazás is.
Magát a katalógust a http://www.gutenberg.org/feeds/catalog.rdf címen lehet
elérni, de érdemesebb a zippet letölteni, mert ez 60-70 MB és naponta
hosszabb! A keresõmotor feldolgozza a katalógus leíró rekordjait és
sorraveszi a hozzátartozó fájlokat. Egy hierarchia alapján meghatározza,
hogy az elérhetõ fájlok közül melyiket kell leindexelni. A találati lista
nem közvetlenül az adott fájlra mutat (A PGCC esetében ez történt), hanem
a PG kérésének megfelelõen a mûvek nyitóoldalára.
A keresés lehetõséget ad arra, hogy a teljes szövegben és a metaadatokban
egyszerre keressünk. Ahol véges értéklista van (pl. nyelvek, formátum),
ott checkboxokkal lehet szûkíteni a keresést. Lehet a fájlok létrehozása
és módosítása alapján is szûkíteni a keresést, akár intervallumokra is.
Akinek van kedve a mi keresõnket összevetheti a meglévõ alternatívákkal:
a PG meglévõ keresõjével, illetve Google és a Yahoo! keresõivel.
Az elõbbi viszonylag lassú és kevesebb opciót ad meg a felhasználó
rendelkezésére, az utóbbiak pedig az összes formátumot leindexelik,
valamint azokat a szövegeket is, melyek nem a könyvtár részei (pl.
a wiki oldalakat), és gyengén, vagy egyáltalán nem kezelik a metaadatokat.
(Legalábbis szerintünk ;-))
A legjobbakat!
Király Péter
http://bookmine.tesuji.eu/gutenberg/
--------------------------------------------------
http://lists.pglaf.org/private.cgi/gutvol-d/2007-August/006918.html
[gutvol-d] New search engine; feedback sought
Greg Newby gbnewby at pglaf.org
Sun Aug 19 19:11:02 PDT 2007
Gutenberg volunteers & other interested folks: Here's something
new to try. It's a search engine that includes fielded searches,
plus text, for the PG content. It enables searching the files
(as Google does), and parses the catalog for database-style
searches (like our Yahoo search). It's fresh.
Please email Anna Tothfalusi <atothfalusi at tesuji.eu>
with any feedback or questions.
The site:
http://bookmine.tesuji.eu/gutenberg/
The interface is sparse, but the "help" link shows syntax
examples..."Advanced search" offers some drop-downs. Ideas
for the interface, search functionality, etc. would be welcome.
I hope to make this one of the PG search options at gutenberg.org.
Thanks in advance for feedback & ideas. Please be sure to
Cc: Anna Tothfalusi <atothfalusi at tesuji.eu>
-- Greg
További információk a(z) Katalist levelezőlistáról