Leider gibt es keine allgemeingültige Festlegung für die Datei robots.txt, sodass es Unterschiede bei den verschiedenen Suchmaschinen gibt. Will man also für eine bestimmte Suchmaschine bestimmte Anweisungen festlegen, schaut man am besten auf der Homepage dieses Bots nach.
Sollen in dieser Datei Anweisungen sein, die für mehrere oder alle Suchmaschinenbots gelten sollen, befolgt man meines Erachtens am besten die Anleitung zum Erstellen der Datei robots.txt der führenden Suchmaschine Google.de.
Blockieren oder Entfernen von Seiten mithilfe einer "robots.txt"-Datei • Webmaster-Tools-Hilfe • www.google.com
Trotzdem nachfolgende mehr oder weniger allgemeingültige Anleitung, Die Datei robots.txt wird ins Wurzel-, Root- bzw. Stamm-Verzeichnis abgelegt. Das ist das, wo bspw. die Datei index.html oder index.php liegt. URLs werden relativ zu diesem Verzeichnis angegeben. Hier ein Beispiel einer robots.txt.
# leitet gemäß UNIX-Standard einen Kommentar ein. Diese Zeile ist bedeutungslos für den Bot und kann weggelassen werden.
User-agent: * bedeutet hier, dass nachfolgende Angaben für alle Suchmaschinenbots gelten.
Sollen in dieser Datei Anweisungen sein, die für mehrere oder alle Suchmaschinenbots gelten sollen, befolgt man meines Erachtens am besten die Anleitung zum Erstellen der Datei robots.txt der führenden Suchmaschine Google.de.
Blockieren oder Entfernen von Seiten mithilfe einer "robots.txt"-Datei • Webmaster-Tools-Hilfe • www.google.com
Trotzdem nachfolgende mehr oder weniger allgemeingültige Anleitung, Die Datei robots.txt wird ins Wurzel-, Root- bzw. Stamm-Verzeichnis abgelegt. Das ist das, wo bspw. die Datei index.html oder index.php liegt. URLs werden relativ zu diesem Verzeichnis angegeben. Hier ein Beispiel einer robots.txt.
# robots.txt zu http://www.beispiel.de/ User-agent: * Disallow: /help Disallow: /help/ Disallow: /help.htm$ Disallow: /privat*/ Disallow: /*? User-agent: aaa Disallow: /*.gif$ Disallow: *? Crawl-delay: 10 Disallow: *?$ User-agent: bbb Disallow: User-agent: ccc Disallow: / |
# leitet gemäß UNIX-Standard einen Kommentar ein. Diese Zeile ist bedeutungslos für den Bot und kann weggelassen werden.
User-agent: * bedeutet hier, dass nachfolgende Angaben für alle Suchmaschinenbots gelten.
Allerdings nicht ausnahmslos, denn die nachfolgenden drei Absätze regeln, welche Regeln für die Bots aaa, bbb und ccc gelten.
Disallow: /help weist alle Suchmaschinenbots an, alle mit help beginnenden URLs nicht zu indexieren. Disallow: /help/ verbietet das Spidern des gesamten Inhalts des Ordners help. Erlaubt wäre aber bspw. help.html.
Disallow: /privat*/ verbietet den Inhalt aller Ordner, die mit privat beginnen; die Datei privat.html wäre aber erlaubt. Disallow: /help.htm$ Verbietet das Crawlen der Datei help.htm; die Datei help.html ist aber erlaubt.
ACHTUNG! Bei der Anweisung einer Suchmaschine zum Erstellen einer robots.txt geht hervor, dass anstatt dem Wildcard * dieses Symbol ~ verwendet werden muss. Dies gilt auch für alle nachfolgenden Beschreibungen.
Allow: /*? Erlaubt erst mal grundsätzlich alle URLs, in denen ein Fragezeichen ist. Aber Disallow: /*? verbietet von diesen URLs diejenigen, die mit einem Fragezeichen enden. Dies gilt so für den Googlebot. Grundsätzlich ist aber die Angabe Allow bei anderen Bots nicht zulässig.
Disallow: /*.gif$ verbietet für den Bot aaa alle URLs, die mit der Datei .gif enden, um dadurch die Indexierung von Gif-Bildern zu verbieten. Disallow: *? erlaubt für diesen Bot nur URLs, die ein Fragezeichen enthalten. Crawl-delay: 10 zwingt diesen Bot dazu, nach keder Indexierung einer Seite eine Pause zu machen.
Disallow: *?$ erlaubt nur URLs, die mit einem Fragezeichen enden. Disallow: ohne Angabe erlaubt dem Bot bbb das ausnahmslose Indexieren aller Seiten. Disallow: / verbietet dem Bot ccc ausnahmslos das Indexieren sämtlicher Seiten. Verbote kann man auch über META-Tags direkt im Head-Bereich von Webseiten erteilen.
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Verbietet das Indexieren der gesamten Seite und aller externen Links dieser Seite.
<META NAME="ROBOTS" CONTENT="NOINDEX"> Verbietet das Indexieren einer Webseite. Die externen Links dieser Seite dürfen aber indexiert werden, ohne dass dabei die Seite selbst im Index erscheint.
<META NAME="ROBOTS" CONTENT="NOFOLLOW"> Verbietet das Indexieren aller externen Links dieser Seite.
Disallow: /help weist alle Suchmaschinenbots an, alle mit help beginnenden URLs nicht zu indexieren. Disallow: /help/ verbietet das Spidern des gesamten Inhalts des Ordners help. Erlaubt wäre aber bspw. help.html.
Disallow: /privat*/ verbietet den Inhalt aller Ordner, die mit privat beginnen; die Datei privat.html wäre aber erlaubt. Disallow: /help.htm$ Verbietet das Crawlen der Datei help.htm; die Datei help.html ist aber erlaubt.
ACHTUNG! Bei der Anweisung einer Suchmaschine zum Erstellen einer robots.txt geht hervor, dass anstatt dem Wildcard * dieses Symbol ~ verwendet werden muss. Dies gilt auch für alle nachfolgenden Beschreibungen.
Allow: /*? Erlaubt erst mal grundsätzlich alle URLs, in denen ein Fragezeichen ist. Aber Disallow: /*? verbietet von diesen URLs diejenigen, die mit einem Fragezeichen enden. Dies gilt so für den Googlebot. Grundsätzlich ist aber die Angabe Allow bei anderen Bots nicht zulässig.
Disallow: /*.gif$ verbietet für den Bot aaa alle URLs, die mit der Datei .gif enden, um dadurch die Indexierung von Gif-Bildern zu verbieten. Disallow: *? erlaubt für diesen Bot nur URLs, die ein Fragezeichen enthalten. Crawl-delay: 10 zwingt diesen Bot dazu, nach keder Indexierung einer Seite eine Pause zu machen.
Disallow: *?$ erlaubt nur URLs, die mit einem Fragezeichen enden. Disallow: ohne Angabe erlaubt dem Bot bbb das ausnahmslose Indexieren aller Seiten. Disallow: / verbietet dem Bot ccc ausnahmslos das Indexieren sämtlicher Seiten. Verbote kann man auch über META-Tags direkt im Head-Bereich von Webseiten erteilen.
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Verbietet das Indexieren der gesamten Seite und aller externen Links dieser Seite.
<META NAME="ROBOTS" CONTENT="NOINDEX"> Verbietet das Indexieren einer Webseite. Die externen Links dieser Seite dürfen aber indexiert werden, ohne dass dabei die Seite selbst im Index erscheint.
<META NAME="ROBOTS" CONTENT="NOFOLLOW"> Verbietet das Indexieren aller externen Links dieser Seite.