Mit der Datei robots.txt und/oder mit META-Tags Webseiten für Bots sperren und gegebenenfalls weitere Anweisungen erteilen.

Beitrag 1565 von UFO-Peter » 30.11.2010, 10:51

Mit der Datei robots.txt und/oder mit META-Tags Webseiten für Bots sperren und gegebenenfalls weitere Anweisungen erteilen.

Leider gibt es keine allgemeingültige Festlegung für die Datei robots.txt, sodass es Unterschiede bei den verschiedenen Suchmaschinen gibt. Will man also für eine bestimmte Suchmaschine bestimmte Anweisungen festlegen, schaut man am besten auf der Homepage dieses Bots nach.

Sollen in dieser Datei Anweisungen sein, die für mehrere oder alle Suchmaschinenbots gelten sollen, befolgt man meines Erachtens am besten die Anleitung zum Erstellen der Datei robots.txt der führenden Suchmaschine Google.de.

Blockieren oder Entfernen von Seiten mithilfe einer "robots.txt"-Datei • Webmaster-Tools-Hilfe • www.google.com

Trotzdem nachfolgende mehr oder weniger allgemeingültige Anleitung, Die Datei robots.txt wird ins Wurzel-, Root- bzw. Stamm-Verzeichnis abgelegt. Das ist das, wo bspw. die Datei index.html oder index.php liegt. URLs werden relativ zu diesem Verzeichnis angegeben. Hier ein Beispiel einer robots.txt.

# robots.txt zu http://www.beispiel.de/

User-agent: *
Disallow: /help
Disallow: /help/
Disallow: /help.htm$
Disallow: /privat*/
Disallow: /*?

User-agent: aaa
Disallow: /*.gif$
Disallow: *?
Crawl-delay: 10
Disallow: *?$

User-agent: bbb
Disallow:

User-agent: ccc
Disallow: /

# leitet gemäß UNIX-Standard einen Kommentar ein. Diese Zeile ist bedeutungslos für den Bot und kann weggelassen werden.

User-agent: * bedeutet hier, dass nachfolgende Angaben für alle Suchmaschinenbots gelten.
Allerdings nicht ausnahmslos, denn die nachfolgenden drei Absätze regeln, welche Regeln für die Bots aaa, bbb und ccc gelten.

Disallow: /help weist alle Suchmaschinenbots an, alle mit help beginnenden URLs nicht zu indexieren. Disallow: /help/ verbietet das Spidern des gesamten Inhalts des Ordners help. Erlaubt wäre aber bspw. help.html.

Disallow: /privat*/ verbietet den Inhalt aller Ordner, die mit privat beginnen; die Datei privat.html wäre aber erlaubt. Disallow: /help.htm$ Verbietet das Crawlen der Datei help.htm; die Datei help.html ist aber erlaubt.

ACHTUNG! Bei der Anweisung einer Suchmaschine zum Erstellen einer robots.txt geht hervor, dass anstatt dem Wildcard * dieses Symbol ~ verwendet werden muss. Dies gilt auch für alle nachfolgenden Beschreibungen.

Allow: /*? Erlaubt erst mal grundsätzlich alle URLs, in denen ein Fragezeichen ist. Aber Disallow: /*? verbietet von diesen URLs diejenigen, die mit einem Fragezeichen enden. Dies gilt so für den Googlebot. Grundsätzlich ist aber die Angabe Allow bei anderen Bots nicht zulässig.

Disallow: /*.gif$ verbietet für den Bot aaa alle URLs, die mit der Datei .gif enden, um dadurch die Indexierung von Gif-Bildern zu verbieten. Disallow: *? erlaubt für diesen Bot nur URLs, die ein Fragezeichen enthalten. Crawl-delay: 10 zwingt diesen Bot dazu, nach keder Indexierung einer Seite eine Pause zu machen.

Disallow: *?$ erlaubt nur URLs, die mit einem Fragezeichen enden. Disallow: ohne Angabe erlaubt dem Bot bbb das ausnahmslose Indexieren aller Seiten. Disallow: / verbietet dem Bot ccc ausnahmslos das Indexieren sämtlicher Seiten. Verbote kann man auch über META-Tags direkt im Head-Bereich von Webseiten erteilen.

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Verbietet das Indexieren der gesamten Seite und aller externen Links dieser Seite.

<META NAME="ROBOTS" CONTENT="NOINDEX"> Verbietet das Indexieren einer Webseite. Die externen Links dieser Seite dürfen aber indexiert werden, ohne dass dabei die Seite selbst im Index erscheint.

<META NAME="ROBOTS" CONTENT="NOFOLLOW"> Verbietet das Indexieren aller externen Links dieser Seite.

Liebe Leser! Wenn Sie die Schildbürgerstreiche der Politik(er) schon lange satt haben, unter­stützen Sie bitte dieses Forum, indem Sie es auf anderen Seiten verlinken, oder nur aufs 'Welt­rettungs­forum' aufmerk­sam machen!
 
Falls Sie aber meinen, dass ein Staat gemäß Grund­gesetz schon dann demo­kratisch ist, wenn das Wahlvolk alle vier Jahre wählen gehen darf, wer die Dikta­toren sein sollen. Lügenpresse? Lügen­medien? Fall­bei­spiele!
 
Oder es in Ordnung wäre, dass im Gegensatz zur ehe­ma­ligen DDR, Menschen so wenig ver­dienen, dass es nicht zum Leben reicht und vieler­orts unver­schuld­ete Ob­dach­losig­keit herrscht; während dem­gegen­über einige wenige Multi­million­äre in uner­mess­lichem Reich­tum schwelgen.
 
Oder, wenn Sie meinen, dass AfD und PEGIDA rechts­radikal wären, weil beide gegen das Gut­menschen­tum sind, das alle Flücht­linge inte­grieren will ein­schließ­lich Deutsch­lern­pflicht; obwohl sie doch in einem Lager mit Wohn­con­tainern viel besser auf­ge­hoben wären.
 
Oder, wenn Sie abstreiten, dass auch Deutschland den Flüchtlingsstrom mit verursachte, indem die deutsche Regierung verantwortlich dafür war, dass Deutschland 2014 nur noch die Hälfte an den UNHCR zahlte, wodurch eine Hungersnot in den Flüchtlingslagern ausgelöst wurde.
 
Oder, wenn Sie die BRD für einen Rechts­staat halten, obwohl Richter und An­wälte durch per­ma­nente Rechts­beugung vor­ein­ge­nom­men um den Er­halt ihrer Arbeits­plätze be­müht sind; und mich deswegen Richter Rüdiger Richel rechtskräftig dazu verurteilte, Kinder zu ermorden. Wir brauchen eine un­vor­ein­ge­nom­me­ne Justiz anstatt eine unab­hängige Justiz. Genauso brauchen wir un­ab­häng­ige Lehrer anstatt ein (staat­lich ge­steu­er­tes) Bildungs­system.
 
Oder, wenn Sie glauben, dass die Kirche mit ihrer geistes­kranken Wahn­vor­stellung recht hat; dass einst Gott seinen (angeb­lich) einzigen Sohn sandte, damit dieser als Opfer­lamm brutal er­mordet wird zwecks Sünden­ver­gebung. Juden unschuldig an der Kreuzigung Jesu.
 
Oder, wenn Sie allen Ernstes meinen, dass soge­nannte "Lesben" und "Schwule" sexuell so orien­tiert sind, dass unbe­dingt die Ge­nital­ien nicht zu­ein­an­der passen dürfen; oder, dass der Terror­an­schlag in Paris nichts mit dem Islam zu tun hat.
 
Oder die sexuelle Neigung zu 'vor­puber­tärem' Kind ab­artig sei, obwohl manche Mädchen fast schon im Klein­kind­alter ge­schlechts­reif sind und trotzdem zur Prüderie gezwungen werden; Sie aber demgegenüber Zwangs­be­berg­steigung, Zwangs­artistik und Zwangs­leistungs­be­sportung von Kindern OK finden; brauchen Sie dieses Forum natürlich nicht unter­stützen.