Roboty sieciowe, przeszukując strony i serwisy www, podążają za linkami wgłąb do katalogów. Prostą metodą kierowywania robotami na swoich stronach WWW jest używanie popularnych meta tagów. Co zrobić jednak, jeśli chcemy by konkretny robot NIE wchodził do konkretnego katalogu naszego serwisu ? Możesz to określić poprzez umieszczenie w głównym katalogu swojego serwisu pliku o nazwie robots, który jest plikiem tekstowym bez tagów HTML, korzystającym z specjalnego protokołu The Robots Exclusion Protocol.
Dzięki poleceniom zawartym w pliku robots.txt możesz zabronić wchodzenia do witryny wszystkim robotom lub tylko niektórym i poinformować je, że nie mogą wchodzić do danej witryny lub jej niektórych katalogów, lub żeby nie czytały niektórych dokumentów w tych katalogach.
Po co jednak zabraniać robotom indeksowania stron naszego serwisu ? Przecież dobra indeksacja zapewnia wyższą pozycję w wyszukiwarkach. No tak, ale…
Jak więc to się robi ?
Po pierwsze plik robots.txt jest plikiem, który jako pierwszy jest poszukiwany przez roboty w twoim głównym katalogu serwisu i tam też należy go umieścić. W żadnym innym pobocznym katalogu: adres tego pliku musi być jednoznaczny: www.twojadomena.pl/robots.txt Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:
Rekord składa się z pól Nazwa: Wartość
Pole User-agent oznacza jakich programów dany rekord dotyczy.
Pola Disallow to prefiksy urli, których ściągać nie wolno.
Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.
Najczęściej plik robots.txt jest definiowany w następujący sposób:
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Taka konstrukcja polecenia oznacza, że wszystkie roboty mogą indexować katalog serwisu z wyłączeniem katalogów cgi-bin i private. Poniżej inne proste przykłady:
»» roboty mogą wszystko i wszędzie:
User-agent: * Disallow:
»» roboty nie mogą nic i nigdzie:
User-agent: * Disallow: /
»» robot Ask Jeeves nie może nic i nigdzie:
User-agent: askjeeves Disallow: /
»» robot Google nie może wchodzić do katalogów tmp i photo oraz czytać plik codec.html:
User-agent: googlebot Disallow: /tmp/ Disallow: /photo/ Disallow: /codec.html
»» robot MSN może wszystko i wszędzie, robot Inktomi (HotBot} nie może wchodzić do katalogu tmp a pozostałe roboty do katalogu photo:
User-agent: msnbot Disallow: User-agent: slurp Disallow: /tmp/ User-agent: * Disallow: /photo/
Na koniec uwaga ogólna: nazwy robotów się zmieniają, często również podają się za przeglądarkę WWW. Najlepiej jest więc “nie wpuszczać” NIKOGO do poufnego katalogu swojego serwisu.
Źródło: robotstxt.org, searchengineworld.com, wikipedia.org