Robots.txt - to plik w formacie tekstowym, który należy umieścić w katalogu domowym hostowanej witryny internetowej. Katalog domowy to miejsce na serwerze WWW, gdzie znajdują się wszystkie pliki i podkatalogi składające się na Twój serwis internetowy. Plik robots.txt spełnia funkcję podobną jak lampy sygnalizacyjne na skrzyżowaniu - wskazuje robotom wyszukiwarek internetowych mapę strony (mapa serwisu internetowego) oraz zabrania im indeksowania podkatalogów. Niektóre podkatalogi mogą zawierać pliki z treściami (np. fotografie, filmy) które nie powinny być indeksowane przez wyszukiwarki. To Ty decydujesz o tym, które treści chcesz udostępniać robotowi. Możesz to uczynić poprzez odpowiedni wpis w pliku robots.txt.
Każdy serwis internetowy powinien posiadać plik robots.txt, zwłaszcza, że jego obecność wpływa korzystnie na pozycjonowanie strony w wyszukiwarce Google.
Musisz jednak być świadom/a, że robot wyszukiwarki nie musi respektować poleceń zawartych w pliku robots.txt i może odwiedzić podkatalogi (podstrony serwisu). Jeśli naprawdę chcesz je zabezpieczyć - możesz do tego celu wykorzystać inne sposoby, np. plik .htaccess na serwerach Apache.
Przykład zawartości pliku robots.txt - znak # oznacza komentarz:
#####################################################
# Pierwsza zasada SEO - przygotuj mapę serwisu (sitemap.xml lub sitemap.xml.gz)
# Wskaż robotom gdzie ją mogą znaleźć, aby zrobiły jej kopię dla wyszukiwarki
Sitemap: http://www.adsecur.com/sitemap.xml
# Wpis wskazuje, że chodzi o wszystkie roboty (User-agent) odwiedzające serwis
# Znak * oznacza wszystkie roboty
User-agent: *
# Wpis wskazuje że w/w roboty nie powinny indeksować poniższych katalogów
Disallow: /Zakazane
Disallow: /SEOTajniki
# Wpis wskazuje że robot Google ma dostęp do wszystkich podkatalogów serwisu
User-agent: googlebot
Allow: /
# Wpis wskazuje że robot określonej wyszukiwarki nie powinien mieć dostępu
# do wszystkich podkatalogów serwisu, przestrzegaj tej zasady SEO
User-agent: robot-z-marsa
Disallow: /
# Wpis wskazuje że robot Google-Image nie powinien mieć dostępu
# do plików graficznych - nie powinien ich indeksować
User-agent: googlebot-image
Disallow: /*.png$
# Wpis wskazuje że roboty nie powinien mieć dostępu do numeru sesji (sklepy)
# nie powinien indeksować stron z określonym końcem adresu (numer sesji)
User-agent: *
Disallow: /*?vmcchk=1
#####################################################
Matt Cutts z Google dokładnie tłumaczy, więcej na jego blogu.
{youtube}CJMFYpYQZ0c{/youtube}
Jak zrobić plik robots.txt dla robotów wyszukiwarki Google, Bing, Yahoo?
Podejrzyj sobie i skopiuj do edytora tekstu, takiego jak notepad++ -> uniwersalny wzór robots.txt, pamiętaj, że Twoja strona ma pewnie inne katalogi, do których chcesz zabronić dostępu. Zamień w pliku nazwę domeny example.com na nazwę Twojej domeny.
Jeśli nie masz pewności czy firma, która zrobiła dla Ciebie stronę internetową, przygotowała plik robots.txt, możesz to sprawdzić, wpisując za nazwą swojej domeny: /robots.txt
Jeśli zobaczysz błąd (Not Found -The requested URL /robots.txt was not found on this server.) to znaczy, że tego pliku nie ma (nie jest widoczny dla robotów), mało tego, oznacza to, że Twoja strona nie ma zaimplementowanej obsługi błędu 404.
Jeśli nie wiesz, czy firma, która zrobiła dla Ciebie stronę internetową, przygotowała ten plik, możesz to łatwo sprawdzić, wpisując za nazwą swojej domeny: /sitemap.xml
Jeśli nie zobaczysz mapy strony, to znaczy, że jej nie ma.
Plik robots.txt możesz utworzyć za pomocą dowolnego programu - edytora tekstu - np. notatnika Windows (notepad.exe). Polecamy jeden z lepszych programów z rodziny open source - notepad++. Robots.txt ma wpływ na widoczność stron internetowych w wyszukiwarce Google - robot internetowy widzi otwarte drzwi do Twojego serwisu (wpis Allow: /).
Wpada do niego i szuka pliku sitemap.xml, jeśli go nie znajdzie, sam buszuje po serwisie.