Robots.txt - SEO
Nach Übereinkunft mit dem Robots Exclusion Standard liest ein Robot beim Besuchen einer Webseite zuerst die Datei robots.txt im Root-Directory.
In dieser Datei wird festgelegt ob und wie die Webseite von einem Webcrawler besucht werden darf. Jeder Webseitenbetreiber hat so die Möglichkeit ausgesuchte Bereiche seiner Webpräsenz (/cgi-bin/, /stats/, /config/, usw.) für bestimmte Suchmaschinen oder Robots zu sperren. Eine sinnvolle Anwendung wäre das Aussperren des Webarchiv-Bots um zu verhindern das nicht-aktuelle Dokumente auf unbegrenzte Zeit archiviert werden. Das Protokoll wurde 1994 von einer unabhängigen Grupperiung entwickelt und ist inzwischen allgemein anerkannt und kann quasi als Standard betrachtet werden. Webcrawler die sich an dieses Protokoll halten werden als "freundliche" Webcrawler bezeichnet. Aggressive Webcrawler wie Emailsammler oder Gästebuchspammer sparen sich das downloaden der robots.txt und halten sich daher nicht an dieses Protokoll.
# Folgende Webcrawler sind komplett ausgeschlossen
User-agent: ia_archiver
Disallow: /
# Google verbieten das Gästebuch zu indexieren
User-agent: Googlebot
Disallow: /guestbook
# Allen Robots verbieten die folgenden Verzeichnisse und Dateien zu besuchen
User-agent: *
Disallow: /temp
Disallow: /privat/freundin/fotos.html
