PROFESSIONELLES WEBDESIGN

by Werbeagentur Schulz-Design e.K. Hannover Laatzen

SEO Hinweise robots.txt

Traffic Tipps Suchmaschinen

Tipps und Erklärungen zur robots.txt - Datei

Die Datei robots.txt wird von den vielen Spidern/Crawlern der wichtigen Suchmaschinen wie Google, Yahoo, MSN usw. genutzt um Regeln/Anweisungen vom Webmaster (also Ihnen) für die Indizierung Ihrer Seite zu erhalten. Fast alle Suchmaschinen-Robots halten sich an die Regeln in der robots.txt und suchen zuerst nach dieser Datei, bevor Sie mit dem Indexieren Ihrer Seiten beginnen. Ab und zu hört man aber, dass sich die Suchmaschinen auch über diese Regeln hinwegsetzten und trotzdem die Seiten oder Dateien spidern. Meiner Meinung nach ist da aber nicht der Spider dran schuld, sondern der Webmaster, der einfach einen Syntax-Fehler mit in die robots.txt eingebaut hat.

 

Was nützt mir die robots.txt

Es kann vorkommen, dass Sie auf Ihrem Server oder Webspace einige Dateien liegen haben, die nicht unbedingt für Jedermann einsehbar sein sollen oder ganz einfach nicht in diverse Suchmaschinen aufgenommen werden sollen. Beispielsweise sind damit noch nicht freigegeben Seiten, oder Weiterentwicklungen, irgendwelche Programme oder Skripte gemeint, die evtl. sogar nur für einen bestimmten Kundenkreis/Userkreis zugänglich sein sollen. Oder aber, in einem Ihrer Verzeichnisse befinden sich LOG-Files. Diese spidern zu lasse wäre Sinnlos und unnötig. Mit diversen Einträgen in die robots.txt können Sie dies alles steuern. Sozusagen eine Fernsteuerung der Spider/Crawler.

 

Der Aufbau einer robots.txt

Die robots.txt muss im Hauptverzeichnis der Domain abgelegt werden und, wie der Name es schon sagt, ist eine einfache *.txt-Datei. Pro Domain darf nur eine robots.txt hinterlegt sein. Eine Ausnahme ist, wenn Sie Inhalte sowohl über http als auch https anbieten. Dann benötigen Sie getrennte Versionen der Datei robots.txt für jedes der Protokolle (Beispiel siehe ganz unten auf dieser Seite!). In der robots.txt können mehrere Regeln/Anweisungen aufeinander folgen. Die Regeln bestehen immer aus zwei Teilen. Der erste Teil bestimmt, für wen (für welchen Spider/Crawler) diese Regel gilt. Hierbei kann man für jeden Robot oder Spider einzeln, sofern man den Spider-Namen kennt, eine Regeln hinterlegen oder aber die nachfolgende Regel für alle Robots, Spider und Crawler anlegen. Es gibt mittlerweile unendlich viele Suchmaschinen und sonstige Angebote im Internet und somit gibt es auch eine Menge Robots. Eine aktuelle Liste findet man unter Robots.txt-Liste. Das einfachste ist, dass Sie einmal in Ihre LOG-Files schauen. Denn dort tauchen die Namen der Robots, Sider oder Crawler auf, um zu wissen, welcher Robot denn so auf Ihren Seiten rumlungert.

Jede Zeile muss mit dem Wort "User-agent" und einem Doppelpunkt beginnen. Im Anschluss daran folgt dann der Robot-Name.

Beispiel:
User-agent: Googlebot


Wollen Sie eine globale Regel für alle Robots anlegen, schreiben Sie einfach einen Stern ("*") nach dem Wort "User-agent:".

Beispiel:
User-agent: *


Hinter der Angabe des Robots-Namen folgt nun die eigentliche Regel, nämlich die Auflistung der Ordner und Dateien, die nicht aufgenommen oder aufgenommen werden sollen. Dabei muss jeder Ordner, jede Datei in einer eigenen Zeile angegeben werden, angefangen mit Disallow oder Allow, dann folgt wieder ein Doppelpunkt und die Angabe der Datei oder des Ordners.

Beispiel:
Disallow: /ordner1/
Disallow: /ordner2/unterordner/
Disallow: /webseite.html
Allow: /ordner3/
# Alle gif-Bilder sperren
Disallow: /*.gif$


Achten Sie darauf, dass Sie den Pfad ohne Domain angeben und immer mit einem Slash ("/") beginnen. Ein kompletter Eintrag, der dem Googlebot erlaubt alles zu indizieren, würde dann z.B. so aussehen:

Beispiel:
User-agent: Googlebot
Allow: /


Wollen Sie einen Robot für Ihre komplette Domain aussperren, müssen Sie folgendes angeben:

Beispiel:
User-agent: Slurp
Disallow: /


Dieses Beispiel zeigt, wie Sie den Robot von Inktomi/Hotbot aussperren. Das ist zum Beispiel dann sinnvoll, wenn ein Robot ständig wiederkommt und Ihren Traffic unverhältnismäßig hoch belastet. Im Gegenzug kann man auch alle Verzeichnisse freigeben, dazu muss man einfach nichts angeben:

Beispiel:
User-Agent: Slurp
Disallow:


Zusätzlich zu den Suchmaschinen-Spidern gibt es noch spezielle Spider, die nach Email-Adressen suchen, um Beispielsweise SPAM zu verschicken. Wenn Sie verhindern wollen, dass solche Adressen-Sammler (E-Mail-Spider/Crawler) Ihre Adressen ausspionieren, müssen Sie als Robot-Namen z.B. den EmailCollector angeben. Allerdings halten sich viele Robots, Spider oder Crawler nicht daran. Deswegen erscheint es aus meiner Sicht als nicht wirklich nützlich.

Beispiel:
User-agent: EmailCollector
Disallow: /

User-Agent: Googlebot
Allow: /


INFO:

Wie Sie oberhalb sehen, müssen mehrere Regeln durch eine Leerzeile getrennt werden!


Zum Schluss noch ein Beispiel, wie Sie allen Spidern erlauben Ihre Seiten unter dem Protokoll http zu spidern aber unter dem Protokoll https die Finger davon zu lassen.

Für Ihr http-Protokoll (http://IhrServer.de/robots.txt):
User-agent: *
Allow: /

Für Ihr https-Protokoll (https://IhrServer.de/robots.txt):
User-agent: *
Disallow: /

Quelle: www.seo-ranking-tools.de

Robots.txt - Dateien werden von Webdesign Hannover Laatzen standardmäßig mit erstellt

 

zurück

 

dmoz DMOZ ist das umfangreichste von Menschen editierte Internet-Verzeichnis. Es wird von einer passionierten, globalen Gemeinschaft freiwilliger Editoren betreut. Früher war es auch als Open Directory Project (ODP) bekannt. Google Suchmaschine bing Suchmaschine YAHOO! Suchmaschine Suche T-Online web.de Suche Mister Wong Alexa