Wednesday, September 8, 2010 7:24

ROBOTS.TXT-The Robots Exclusion Protocol

Napisane przez fibbia dn. wtorek, Wrzesień 27, 2005, 11:32
Ten wpis zamieszczono w kategorii Seo i ma 0 komentarzy jak na razie .

Roboty sieciowe, przeszukując strony i serwisy www, podążają za linkami wgłąb do katalogów. Prostą metodą kierowywania robotami na swoich stronach WWW jest używanie popularnych meta tagów. Co zrobić jednak, jeśli chcemy by konkretny robot NIE wchodził do konkretnego katalogu naszego serwisu ? Możesz to określić poprzez umieszczenie w głównym katalogu swojego serwisu pliku o nazwie robots, który jest plikiem tekstowym bez tagów HTML, korzystającym z specjalnego protokołu The Robots Exclusion Protocol.
Dzięki poleceniom zawartym w pliku robots.txt możesz zabronić wchodzenia do witryny wszystkim robotom lub tylko niektórym i poinformować je, że nie mogą wchodzić do danej witryny lub jej niektórych katalogów, lub żeby nie czytały niektórych dokumentów w tych katalogach.
Po co jednak zabraniać robotom indeksowania stron naszego serwisu ? Przecież dobra indeksacja zapewnia wyższą pozycję w wyszukiwarkach. No tak, ale…

  • czy nie masz czasami u siebie w katalogu niedokończonej strony dla swojego klienta ?
  • czy nie masz stron opartych na iframe i zależy Ci by tylko strona główna była indexowana ?
  • czy twoje statystyki mają być publicznie znane ?
  • no i wreszcie, czy nie masz na serwerze jakiś prywatnych plików, choćby zdjęć z twojego ostatniego pobytu w saunie ? :)

Jak więc to się robi ?
Po pierwsze plik robots.txt jest plikiem, który jako pierwszy jest poszukiwany przez roboty w twoim głównym katalogu serwisu i tam też należy go umieścić. W żadnym innym pobocznym katalogu: adres tego pliku musi być jednoznaczny: www.twojadomena.pl/robots.txt Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:

  • komentarzy zaczętych od #
  • rekordów oddzielonych pustymi liniami

Rekord składa się z pól Nazwa: Wartość

  • jednego pola User-agent
  • pól Disallow

Pole User-agent oznacza jakich programów dany rekord dotyczy.
Pola Disallow to prefiksy urli, których ściągać nie wolno.
Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów. Najczęściej plik robots.txt jest definiowany w następujący sposób:

 User-agent: *
Disallow: /cgi-bin/
Disallow: /private/

Taka konstrukcja polecenia oznacza, że wszystkie roboty mogą indexować katalog serwisu z wyłączeniem katalogów cgi-bin i private. Poniżej inne proste przykłady:
»» roboty mogą wszystko i wszędzie:

 User-agent: *  Disallow:

»» roboty nie mogą nic i nigdzie:

 User-agent: * Disallow: /

»» robot Ask Jeeves nie może nic i nigdzie:

 User-agent: askjeeves Disallow: /

»» robot Google nie może wchodzić do katalogów tmp i photo oraz czytać plik codec.html:

 User-agent: googlebot Disallow: /tmp/ Disallow: /photo/ Disallow: /codec.html

»» robot MSN może wszystko i wszędzie, robot Inktomi (HotBot} nie może wchodzić do katalogu tmp a pozostałe roboty do katalogu photo:

 User-agent: msnbot Disallow: User-agent: slurp Disallow: /tmp/ User-agent: * Disallow: /photo/

Na koniec uwaga ogólna: nazwy robotów się zmieniają, często również podają się za przeglądarkę WWW. Najlepiej jest więc “nie wpuszczać” NIKOGO do poufnego katalogu swojego serwisu.

Źródło: robotstxt.org, searchengineworld.com, wikipedia.org

Zobacz podobne wpisy:

Oceń ten wpis:
1 Star2 Stars3 Stars4 Stars5 Stars (1 głosów, średnia: 5,00 z 5)
Loading ... Loading ...
Popularność: 738 wyświetleń
Możesz zostawić odpowiedź , albo ślad z swojej strony WWW. .

Brak komentarzy w “ROBOTS.TXT-The Robots Exclusion Protocol”

Tutaj możesz skomentować ten wpis