Paieškos robotų ir skaitytuvų valdymas

Iš IV pagalba klientams.
Peršokti į: navigacija, paiešką

Paieškos, indeksavimo robotai (dar žinomi kaip bot, crawler, spider, web wanderer) yra programos, kurios automatiškai naršo interneto svetaines. Paieškos varikliai, pvz. google, šias programas naudoja turinio nuskaitymui, kuris vėliau naudojamas vykdant paiešką ar atliekant kitus veiksmus. Svetainės savininkas gali sukurti failą /robots.txt, kuriame būtų pateiktos instrukcijos (Robots Exclusion Protocol) būtent šiems lankytojams.

Kaip veikia robots.txt ir kam jis naudojamas

Failas robots.txt turi būti patalpintas šakniniame svetainės kataloge, kad būtų pasiekiamas adresu DOMENAS/robots.txt (pvz. www.mano-svetaine.lt/robots.txt ) . Jis leidžia reguliuoti arba riboti paieškos robotų užklausas. Robotas, prieš apsilankydamas Jūsų svetainėje, atsisiunčia šį failą ir jei jame aprašytos indeksavimo taisyklės - jų laikosi. Dažniausiai naudojama:

  • Norint neleisti indeksuoti svetainės ar jos dalies (visiems arba tik specifiniams robotams);
  • Norint sulėtinti svetainės indeksavimą, pvz. sulaukiant labai daug užklausų, kurios pradeda trikdyti svetainės darbą;
  • Norint robotui pateikti svetainės žemėlapį (sitemap.xml);


robots.txt failo turinys

Faile dažniausiai naudojamos dvi arba trys instrukcijos, kuriose įrašomas roboto pavadinimas ir jo taisyklės, pvz.:

  • Visiems robotams galima pasiekti visas svetainės dalis (taip pat veikia jei robots.txt yra tuščias arba jo visai nėra):
User-agent: *
Disallow:
  • Visiems robotams draudžiama indeksuoti svetainę:
User-agent: *
Disallow: /
  • Vienam robotui draudžiama indeksuoti svetainę, visiems kitiems leidžiama. Atkreipkite dėmesį, kad įvedant kelias instrukcijas, jos atskiriamos vienu tarpeliu:
User-agent: robotas
Disallow: /

User-agent: *
Disallow:
  • Vieno konkretaus roboto užklausos sulėtinamos iki 1 užklausos kas 10 sekundžių:
User-agent: robotas
Crawl-delay: 10
  • Visiems robotams draužiama kreiptis tik į du katalogus:
User-agent: *
Disallow: /temp/
Disallow: /include/
  • Visiems robotams draudžiama kreiptis į vieną failą:
User-agent: *
Disallow: /katalogas/failas.htm

Pavyzdinis robots.txt failas

  • Laiko tarpo tarp užklausų prailginimas. Naudinga tuomet, kai robotas generuoja daugybę užklausų, kurios įtakoja svetainės greitaveiką. robots.txt galėtų atrodyti taip:
#padidiname laiko tarpa tarp msn uzklausu
User-agent: msnbot 
Crawl-delay: 10

#kiti robotai veikia iprastai
User-agent: * 
Disallow:

Tokių problemų yra kilę su msnbot, yandexBot, baiduspider robotais.

  • Blokuoti visus robotus, kad neindeksuotų vienos svetainės dalies:
#blokuojame svetaines dali /forum/
User-agent: *
Disallow: /forum/

#visa kita galima indeksuoti normaliai
User-agent: * 
Disallow:

Svarbu: Atkreipkite dėmesį, kad įvedant kelias instrukcijas, jos atskiriamos vienu tarpeliu

Svarbūs pastebėjimai, naudojant robots.txt

  • Robotai gali ignoruoti /robots.txt failą. Tai ypač būdinga žalingiems robotams, kurie ieško saugumo spragų, atvirų komentarų laukelių, renka el. pašto adresus.
  • Failas robots.txt yra matomas viešai, tad jo nenaudokite siekiant paslėpti kažkokią informacija, t.y. kiti lankytojai matys kokią svetainės dalį bandote paslėpti.


Kita

  • Robots.txt galima panaudoti svetainės žemėlapio ar žemėlapių ( sitemap.xml ) pateikimui, įrašius:
Sitemap: http://www.mano-svetaine.lt/sitemap.xml
Sitemap: http://www.mano-svetaine.lt/naujienos/archyvas.xml
  • Oficialią robots.txt svetainę galite rasti adresu: robotstxt.org.