Hakukoneiden tekemät suuret määrät hakuja

Mikäli www-liittymänne on käytettävissä internet-verkon puolelta kenelle tahansa, on normaalia, että erilaiset hakukoneet alkavat käymään myös www-liittymän sivuja lävitse.

Hakukoneiden hallintaan www-liittymän mukana tulee perus ns. robots.txt tiedosto. Tämän tiedoston avulla on mahdollista antaa "pyyntöjä" hakukoneille siitä miten haluat palvelinta indeksoitavan. Tähän liittyy erillinen artikkeli.

Joskus hakukoneiden hakumäärät ovat sellaisia, että ne haittaavat normaalia käyttöä vaikka ne yleensä kyllä käyvät sivuja lävitse paikallista aikaa öisin.

Hakunopeuteen voidaan vaikuttaa robots.txt tiedostossa seuraavalla direktiivillä:

crawl-delay: 5

Kyseinen komento kertoo hakurobotille, että se pyytää korkeintaan 5 sekunnin välein pyyntöjä. Aika määritellään sekunteina. Tällöin hakuja ei suoriteta esim. joka sekunti, joka voi hitaammassa tietokannassa jo aiheuttaa kuormitusta sekä www-liittymälle että SQL Server palvelimelle.

Voit lukea lisää robots.txt tiedostosta esimerkiksi täältä: http://www.robotstxt.org/

Google

Google on poikkeus sinänsä, koska se ei noudata kyseistä Crawl-delay komentoa. Googlen hakuja voidaan hallinta Googlen oman webmaster tools -palvelun avulla.

Palvelun löydät osoitteesta: https://www.google.com/webmasters/

Tarvitset Google-tilin palvelun käyttöön. Jokainen sivusto on erikseen lisättävä tuohon palveluun, jonka jälkeen "Site Configuration" kohdassa pystyy säätämään haluttua indeksointinopeutta.

Webmasters työkalujen ohjeistus löytyy Googlen palvelusta.

Bad bots

Robots.txt -tiedosto auttaa vain, mikäli hakukone oikeasti haluaa noudattaa tiedoston ohjeita. Tällöin jokin tietty hakurobotti voi aiheuttaa ylimääräistä liikennettä vaikka kuinka haluaisit sen estää. Tällöin rajoituksia on tehtävä jollakin muulla tavalla.

PrettyLibServerissä on filter-ominaisuus, jolla voidaan estää tietyn "browser agent" tekstin sisältämiä hakurobotteja tekemästä hakuja.