lathatatlan web
Bakonyi Geza
bakonyi at BIBL.U-SZEGED.HU
2001. Dec. 19., Sze, 15:20:51 CET
Abban a szerencseben volt reszem, hogy reszt vehettem az idei Online
konferencian. Itt eleg sok szo esett a Web kereshetosegerol, a
lathatatlan Webrol (azaz azokrol az oldalakrol, amelyeket az internet
keresok nem latnak). Egy kis karacsonyi ajandekkent a lista
olvasoinak osszeszedtem a legfontosabb otleteket (bar biztos vagyok benne,
hogy sokan ismerik ezeket a trukkoket, tippeket - ok ki is egeszithetik
az alabbi gyujtemenyt).
Talan hoz egy kis szellemi feludulest a sok vita, menedzsment es tsai utan.
--------------------------------
1. Melysegeben nem minden oldalt gyujtenek be a bongeszo motorok:
pl. amennyiben egy dinamikus oldalrol van szo, akkor csak az URL-ben
talalhato ?-ig terjed ki a figyelmuk, ami utana van, az lathatatlan marad
szamukra.
2. A begyujtes gyakorisaga ugyancsak problemat jelenthet a friss anyagok
kereseseben: max. havonta indexelik a weblapokat, de a gyakoribb begyujtes
es az indexeles kozott akar 9 nap is eltelhet, igy a koztes idoben keletkezett
anyagok ugyancsak lathatatlanok maradnak.
3. Celzott keresok (targeted crawler) hasznalata igencsak ajanlott:
lawcrawler: http://www.lawcrawlKer.com
psychcrawle: http://www.psychcrawler.com
4. Directory (subect gateway) oldalak keresoit is celszeru igenybe
venni, mert akkor csak mar magaban a gyujtemenyben keresunk (tipikusan a
Yahoo! esete)
5. Az ugynevezett SITE SPECIFIC TOOLS hasznalata is sokszor segithet
rajtunk, ekkor csak az adott site-on keresunk. (Nehany bongeszon ez is
hasznalhato opcio, pl. Google.)
http://search.abcnews.go.com/index.html
6. Elobbi ponthoz egy kiegeszites: celszeru modszer lehet, ha
megprobaljuk kitalalni az URL-t. Pl. ha ingatlanrol szeretnenk
tajekozodni, akkor valoszinu, hogy talalunk olyan site-ot mint a
www.ingatlanpiac.hu. Ebben segithetnek minket a kereso motorok "halado
kereses" (advanced search) feluletei is. Pl. a Google eseteben talalunk
olyan lehetoseget, amely egy adott oldalhoz hasonlo egyeb oldalakat
keresi meg.
(7. zarojelben jegyzem meg, hogy itt alkalmunk van arra is, hogy az egy
oldalra mutato linkeket is lekeressuk: "Find pages that link to the
page". De pl. az Altavista eseteben is megtehetjuk ezt, ha azt irjuk be,
hogy link:hostname.)
8. Sajnos a domainre keresesnel tudnunk kell az egesz URL-t, a bongeszok
jelentos resze nem elegszik meg a toredekkel. Viszont a Google eseteben
az elobb (6. pont) emlegetett opcio lehetoseget ad arra, hogy ha nem is a
host cimeben, de az URL cim tovabbi reszeben (page) keressunk.
Probaljataok ki pl. a games-szel. Mas bongeszoknel is alkalmazhato ez a
trukk akar parancsmodban is. Az Altavista kereso mezojebe irjuk be azt,
hogy related:games es nezzuk meg az eredmenyt!
9. A kereso motor nem tudhatja, hogy en mit akarok azaz hogy amikor pl.
egy cartridge-ra keresek, akkor megis milyenre. Ezert soha ne remeljunk
sokat az egyszavas kereso kifejezesektol: hasznaljuk a kontext kereses
modszeret. Lehetoleg kijelento modban, azaz ne azt irjuk be, hogy Kicsoda
Magyarorszag jelenlegi miniszterelnoke, hanem azt, hogy Magyarorszag
jelenlegi miniszterelnoke - s ha szerencsenk van a kereso befejezi az
allitast.
10. S az utolso tipp: olvassuk Chris Sherman szosszenetit az Interneten :))
bg
További információk a(z) Katalist levelezőlistáról