[KATALIST] Uj kereso tesztje a Project Gutenberghez

Peter Kiraly pkiraly at tesuji.eu
2007. Aug. 23., Cs, 11:02:39 CEST


Tisztelt Lista,

tavaly beszámoltam arról, hogy a cégünk, a Tesuji készítette a Project
Gutenberg
Consortia Center (PGCC) 3 szájtjának a keresõmotorját. Az együttmûködés
most egy új fázisba lépett, immár a fõ Project Gutenberg szájt
keresõmotorját készítettük. Jelenleg a tesztelési fázis zajlik,
Greg Newby a Project Gutenberg Literary Archive Foundation igazgatója
küldte ki az alábbi levelet a Project Gutenberg Volunteer Discussion
nevû levelezõlistára, amelyben felkéri az önkénteseket, hogy
észrevételeikkel, javaslataikkal járuljanak hozzá a fejlesztéshez.
Amennyiben a Katalista kedves elõfizetõinek is lenne észrevételük,
kérem, hogy írják meg azokat személyesen nekem (pkiraly at tesuji.eu)
vagy a levélben szereplõ bármely címre.

A tesztoldal címe:
http://bookmine.tesuji.eu/gutenberg/

Egy kis technikai háttér:
A PG teljes katalógusa napi frissítéssel RDF formában zippelve felkerül
egy wiki-oldalra. Az RDF séma kihasználja az RDF számos elõnyét, így a
pontos típusmeghatározást és az értelmezési kereteket. Ahol lehet,
támaszkodik a Dublic Core definíciókra, illetve ISO és W3C szabványokra,
szabályokra, pl.

a DC-értelemben vett nyelv megadása az ISO639-2 szabány szerinti nyelvi
kódokkal van kódolva:
  <dc:language>
   <dcterms:ISO639-2>
     <rdf:value>en</rdf:value>
   </dcterms:ISO639-2>
  </dc:language>

vagy a DC-értelemben vett létrehozás dátumát a W3C formátum-meghatározása
alapján kell értelmezni:
<dc:created>
  <dcterms:W3CDTF>
    <rdf:value>2007-07-25</rdf:value>
  </dcterms:W3CDTF>
</dc:created>

A katalógusban különválasztották a mûleírást és az azokat hordozó fájlok
leírását.

mûleírás, nincs benne hivatkozás semmilyen fájlra:
<pgterms:etext rdf:ID="etext22143">
  <dc:publisher>&pg;</dc:publisher>
  <dc:title rdf:parseType="Literal">The Panama Canal Conflict between
Great Britain and the United States of America
A Study</dc:title>
  <dc:creator rdf:parseType="Literal">Oppenheim, Lassa,
1858-1919</dc:creator>
  <pgterms:friendlytitle rdf:parseType="Literal">The Panama Canal Conflict
between Great Britain an</pgterms:friendlytitle>
  <dc:language><dcterms:ISO639-2><rdf:value>en</rdf:value></dcterms:ISO639-2></dc:language>
  <dc:created><dcterms:W3CDTF><rdf:value>2007-07-25</rdf:value></dcterms:W3CDTF></dc:created>
  <dc:rights rdf:resource="&lic;" />
</pgterms:etext>

fájlleírások, a vonatkozó mûvet az isFormatOf tag alapján lehet megtalálni
<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-8.txt">
  <dc:format><dcterms:IMT><rdf:value>text/plain;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
  <dcterms:extent>79225</dcterms:extent>
  <dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
  <dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>

<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-8.zip">
  <dc:format><dcterms:IMT><rdf:value>text/plain;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
  <dc:format><dcterms:IMT><rdf:value>application/zip</rdf:value></dcterms:IMT></dc:format>
  <dcterms:extent>24883</dcterms:extent>
  <dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
  <dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>

<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-h/22143-h.htm">
  <dc:format><dcterms:IMT><rdf:value>text/html;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
  <dcterms:extent>85306</dcterms:extent>
  <dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
  <dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>

<pgterms:file rdf:about="&f;2/2/1/4/22143/22143-h.zip">
  <dc:format><dcterms:IMT><rdf:value>text/html;
charset="iso-8859-1"</rdf:value></dcterms:IMT></dc:format>
  <dc:format><dcterms:IMT><rdf:value>application/zip</rdf:value></dcterms:IMT></dc:format>
  <dcterms:extent>24977</dcterms:extent>
  <dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
  <dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>

<pgterms:file rdf:about="&f;2/2/1/4/22143/22143.txt">
  <dc:format><dcterms:IMT><rdf:value>text/plain;
charset="us-ascii"</rdf:value></dcterms:IMT></dc:format>
  <dcterms:extent>79225</dcterms:extent>
  <dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
  <dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>

<pgterms:file rdf:about="&f;2/2/1/4/22143/22143.zip">
  <dc:format><dcterms:IMT><rdf:value>text/plain;
charset="us-ascii"</rdf:value></dcterms:IMT></dc:format>
  <dc:format><dcterms:IMT><rdf:value>application/zip</rdf:value></dcterms:IMT></dc:format>
  <dcterms:extent>24867</dcterms:extent>
  <dcterms:modified><dcterms:W3CDTF><rdf:value>2007-07-26</rdf:value></dcterms:W3CDTF></dcterms:modified>
  <dcterms:isFormatOf rdf:resource="#etext22143" />
</pgterms:file>

Egy mûhöz, mint látható sok fájl is tartozhat, a formátumot pedig
az IANA-féle MIME-típusokkal kódolják.
A szakozás alapvetõen a LoC Subject Headingjeit veszi alapul, de elõfordul
ettõl független tárgyszavazás is.
Magát a katalógust a http://www.gutenberg.org/feeds/catalog.rdf címen lehet
elérni, de érdemesebb a zippet letölteni, mert ez 60-70 MB és naponta
hosszabb! A keresõmotor feldolgozza a katalógus leíró rekordjait és
sorraveszi a hozzátartozó fájlokat. Egy hierarchia alapján meghatározza,
hogy az elérhetõ fájlok közül melyiket kell leindexelni. A találati lista
nem közvetlenül az adott fájlra mutat (A PGCC esetében ez történt), hanem
a PG kérésének megfelelõen a mûvek nyitóoldalára.
A keresés lehetõséget ad arra, hogy a teljes szövegben és a metaadatokban
egyszerre keressünk. Ahol véges értéklista van (pl. nyelvek, formátum),
ott checkboxokkal lehet szûkíteni a keresést. Lehet a fájlok létrehozása
és módosítása alapján is szûkíteni a keresést, akár intervallumokra is.

Akinek van kedve a mi keresõnket összevetheti a meglévõ alternatívákkal:
a PG meglévõ keresõjével, illetve Google és a Yahoo! keresõivel.
Az elõbbi viszonylag lassú és kevesebb opciót ad meg a felhasználó
rendelkezésére, az utóbbiak pedig az összes formátumot leindexelik,
valamint azokat a szövegeket is, melyek nem a könyvtár részei (pl.
a wiki oldalakat), és gyengén, vagy egyáltalán nem kezelik a metaadatokat.
(Legalábbis szerintünk ;-))

A legjobbakat!

Király Péter
http://bookmine.tesuji.eu/gutenberg/

--------------------------------------------------
http://lists.pglaf.org/private.cgi/gutvol-d/2007-August/006918.html

[gutvol-d] New search engine; feedback sought
Greg Newby gbnewby at pglaf.org
Sun Aug 19 19:11:02 PDT 2007

Gutenberg volunteers & other interested folks:  Here's something
new to try.  It's a search engine that includes fielded searches,
plus text, for the PG content.  It enables searching the files
(as Google does), and parses the catalog for database-style
searches (like our Yahoo search).  It's fresh.

Please email Anna Tothfalusi <atothfalusi at tesuji.eu>
with any feedback or questions.

The site:

  http://bookmine.tesuji.eu/gutenberg/

The interface is sparse, but the "help" link shows syntax
examples..."Advanced search" offers some drop-downs.  Ideas
for the interface, search functionality, etc. would be welcome.
I hope to make this one of the PG search options at gutenberg.org.

Thanks in advance for feedback & ideas.  Please be sure to
Cc: Anna Tothfalusi <atothfalusi at tesuji.eu>

  -- Greg






További információk a(z) Katalist levelezőlistáról