Co to jest robots.txt?
Robots.txt jest plikiem tekstowym, w którym ujmuje się wytyczne dla robotów. Zawarte w dokumencie formuły mogą zezwalać robotom na dostęp lub go blokować. Poza tym, plik może być skierowany zarówno do jednego wybranego robota, jak i do wszystkich robotów.
Jak tworzy się plik robots.txt?
Plik robots.txt jest plikiem tekstowym. Jego treść kieruje się do robotów crawlujących. Natomiast celem sporządzenia dokumentu ma być uniknięcie marnowania czasu na indeksowanie zasobów, które nie mają być indeksowane. Plik zamieszcza się w katalogu głównym. Należy tworzyć go z pomocą kodowania UTF-8, wyłączenie ze znakami z kodu ASCII. Poza tym, dokument powinien zawsze występować pod nazwą robots.txt – jeden plik dla poszczególnej domeny.
Po co stosuje się plik robots.txt?
Roboty nie zawsze stosują się do wytycznych pliku robots.txt. Mimo to dokument warto stosować choćby po to, aby mieć choć częściową kontrolę nad ich działaniami. Dzięki wydanym dyrektywom można zyskać przede wszystkim blokadę dla tych części strony, na które roboty nie powinny zaglądać oraz zachęcić je do odwiedzania podstron wskazanych do indeksowania z punktu widzenia pozycjonowania.
Blokowanie stron za pomocą pliku robots.txt może:
- zwiększyć bezpieczeństwo witryny,
- zabezpieczyć witrynę przed zjawiskiem duplicate content,
- pozwolić na zmniejszenie zużycia transferu,
- umożliwić zabezpieczenie zawartości strony przed kopiowaniem,
- pozwolić na optymalizację crawl budgetu.
Podstawowe dyrektywy robots.txt
W pliku tekstowym robots.txt stosuje się przede wszystkim dyrektywy typu:
- user-agent,
- allow,
- disallow.
Pierwsza pozwala zaadresować dyrektywę do konkretnego bota, a dwie kolejne mówią mu, gdzie ma dostęp, a gdzie nie jest mile widziany. Co ważne, w pierwszej kolejności warto ujmować dyrektywy zezwalające, a w dalszej blokujące. Poza tym, ścieżki plików, których dotyczy dana komenda, zawsze powinny być wypełnione jakimkolwiek znakiem, ponieważ brak wypełnienia powoduje zignorowanie pola. W pliku można ujmować też bardziej niestandardowe dyrektywy, jak chociażby crawl-delay, czyli zapis który służy opóźnieniu pracy robotów (nakazuje pobieranie nowych plików nie częściej niż co X sekund).