← HTTP-Statuscodes - Servercodes im Überblick Pagespeed Optimierung - Ladezeit der Webseite verbessern →

Robots.txt Crawleranweisungen – SEO Suchmaschinen Befehle

von Steffen Rust | März 17, 2021 | Onlinemarketing, SEO | 0 Kommentare

Mit der robots.txtHinter dem Begriff Robots.text versteckt sich eine Datei. Diese Datei speichert man im Hauptverzeichnis der Domain. Hier findet der Crawler der Suchmaschine deine Robots.txt Datei und kann sie auslesen. Er erfährt so, welche Verzeichnisse und Dateien er crawlen soll und welche ggf. gesperrt sind. D Mehr kannst du dem CrawlerEin Crawler ist ein automatisiertes Computerprogramm, welches Webseiten und deren Informationen durchsucht. Suchmaschinen-Anbieter verwenden Crawler um aus den Informationen von Milliarden an Webseiten einen Index aufzubauen. Aus diesem Index werden dann die Suchergebnisse gespeist. Mehr Information Mehr der Suchmaschine diverse Anweisungen geben. Daher ist es unglaublich wichtig für deine SEO, sich mit den Befehlen auszukennen. Wenn hier die falsche Anweisung steht, dann wird deine WebseiteEine Webseite ist eine Seite im World Wide Web. Diese kann aus einer Einzelseite (Onepager) oder mehreren Unterseiten bestehen. Als Synonym kennt man auch die Begriffe Internetseite, Webpage, Website, Webpräsenz, Webauftritt, Internetpräsenz, Homepage oder einfach nur Seite. Eine Webseite liegt in niemals in der Suche der Suchmaschinen erscheinen. In diesem Beitrag zeige ich dir, was die robots.txt-Datei zu bedeuten hat. Welche Funktionen sie bietet und welche Anweisungen du geben kannst. Dazu musst du nicht programmieren können!

Was ist die robots.txt?
Wozu brauche ich eine robots.txt?
Unterschied zwischen Meta-Anweisungen und robots.txt
Robots.txt erstellen – Wie richte ich eine robots.txt ein?
Robots.txt Beispiel
Anweisungen und Eigenschaften der Robots.txt
Robots.txt und Meta-Tags für Google
Robots.txt prüfen
Fazit zur robots.txt

Table of Contents

Was ist die robots.txt?

Die robots.txt ist eine Textdatei, welche Anweisungen für die Suchmaschine bereithält. Das kann beispielsweise die Anweisung sein, dass die Suchmaschine deine Webseite ignorieren soll. Oder aber nicht auf bestimmte Verzeichnisse zugreifen darf. Aber es gibt noch viel mehr Anweisungen, welche ich dir später alle ganz genau erklären werde.

Das Robots-Exclusion-Standard-Protokoll regelt, wie die meisten Suchmaschinen auf die Anweisungen einer robots.txt-Datei reagieren bzw. wie man das Verhalten der Suchmaschine für die jeweilige DomainEine Domain ist im Grunde der Name eines Teilbereichs im Internet, also zum Beispiel einer Webseite. Es ist ein alphanumerischer Code, also eine Zusammensetzung von Buchstaben, der möglichst logisch ist, um die Findung für den Menschen leichter zu machen. Über den Namen, also die Domain, lassen s beeinflussen kann. Auch ohne RFC (Request for Comments) ist dieses Protokoll der gegebene Standard.

Wozu brauche ich eine robots.txt?

Die robots.txt ist zwingend notwendig, damit der Robot der Suchmaschine versteht, was er mit deiner Webseite machen soll. Wenn dir das egal ist, dann kannst du sie natürlich weglassen. Aber ich habe noch keinen Webseitenbetreiber getroffen, dem egal wäre, ob seine Webseite in der Suche erscheint oder nicht. Damit deine Webseite nach deinen Wünschen behandelt wird, brauchst du eine robots.txt.

Achtung: Wichtig für dich ist, dass die Anweisungen in der robots.txt nicht verhindern, dass eine Suchmaschine sich nach deinen Wünschen richtet. Die großen Suchmaschinen wie Google halten sich an diese Anweisungen, aber es gibt auch eine Vielzahl an Programmen und Suchcrawlern, welche diese Anweisungen ignorieren. Also wenn du sicherstellen möchtest, dass kein Programm oder Mensch auf eine bestimmte Seite deiner Webseite oder vielleicht auch die gesamte Webseite zugreift, dann reicht die robots.txt hierfür nicht aus. Hier solltest du besser deinen Webserver entsprechend konfigurieren und die Seite mit einem Passwort schützen.

Unterschied zwischen Meta-Anweisungen und robots.txt

Es ist durchaus möglich, auch ohne robots.txt der Suchmaschine Anweisungen zu geben. Dies geschieht auf der jeweiligen HTML-Datei in den Meta-Tags. Aber die Macht solcher Meta-Tags sind auf die jeweilige Seite beschränkt und inkludieren keine Bilder. Also wenn du erreichen möchtest, dass eine gesamte Webseite, bestimmte Teile von ihr oder auch Bilder Anweisungen für die Suchmaschine enthalten, dann brauchst du eine robots.txt. Übrigens ist die beste Vorgehensweise, beides bereitzustellen. Also eine robots.txt und die Meta-Tags.

Denn wenn die Suchmaschine über einen LinkEin Link ist eine Verknüpfung zu einer anderen Webseite oder zu einem anderen Ort im Internet. Ein Link kann in Text oder auf einem Bild auf einer Webseite verwendet werden, um eine Verbindung zu einer anderen Webseite herzustellen. Mehr einer externen Webseite zu dir gelangt und hier keine weiteren Anweisungen in den Meta-Tags vorliegen, dann kann es passieren, dass die Anweisungen der robots.txt ignoriert werden. Ein weiterer Grund: Da das RFC fehlt, kann es passieren, dass unterschiedliche Suchmaschinen auch unterschiedlich mit den Anweisungen umgehen. Die Syntax von den Robotern zur robots.txt ist nicht zwangsläufig einheitlich. Auch hier schaffen Meta-Tags Abhilfe.

Robots.txt erstellen – Wie richte ich eine robots.txt ein?

Pro Domain oder Subdomain darf es nur eine robots.txt geben. Diese Textdatei wird im Wurzel-Verzeichnis (Root) deiner Webseite bereitgestellt. Die Datei wäre demnach bei der Domain irgendeinewebseite.de unter folgender Adresse erreichbar: https://www.irgendeinewebseite.de/robots.txt. So stellst du sicher, dass jeder Crawler die Datei auch wirklich findet. Um die Datei ablegen zu können, brauchst du Server-Zugriff auf die Dateien deiner Webseite. Der FTP-Zugriff kann beispielsweise mit dem kostenlosen Programm FileZilla erfolgen.

Achtung: Wenn du einen Webspace-Baukasten nutzt, dann kann es passieren, dass du hierauf keinen Zugriff hast und folglich auch keine robots.txt hinterlegen bzw. diese bearbeiten kannst.

Da es sich bei der robots.txt lediglich um eine Textdatei handelt, brauchst du kein spezielles oder kostenpflichtiges Tool zum Erstellen der Datei. Gib in der Windowssuche einfach „Editor“ ein und öffne den Texteditor. Hier kannst du deine Datei schreiben, speichern und hochladen. Was du in die Datei reinschreibst, zeige ich dir im Folgenden.

Robots.txt Beispiel

Fangen wir mit einem leichten Beispiel an und sehen uns dann weitere Möglichkeiten an:


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Hier sehen wir eine typische robots.txt einer WordPress-Webseite.

Der Begriff „User-Agent“ zeigt, für wen die Anweisung gilt. Das Sternchen ist ein Asterisk und es handelt sich hierbei um einen Platzhalter, welcher für alle Robots steht. Wenn die Anweisung für einen speziellen Robot gelten soll, dann muss dieser als User-Agent definiert werden.

Die Zeile „Disallow“ sagt aus, worauf die Robots nicht zugreifen dürfen. Hierbei handelt es sich um das VerzeichnisEin Verzeichnis kann auch als Register, Katalog, Ordner oder Auflistung bezeichnet werden. Hier werden Informationen in einer Liste mit einer definierten Sortierung aufgeführt. Die typische Standardsortierung ist alphabetisch. Bereits im Mittelalter wurden Verzeichnisse in der Verwaltung genutzt. A „/wp-admin“, also um den Adminstrationsbereich. Wobei im Anschluss mit „Allow“ ein erlaubter Bereich dieses Administrationsbereiches definiert wird, nämlich „/admin-ajax.php“.


# Beispiel für Anweisungen an mehrere Robots
User-agent: *
Disallow: /videos/

User-agent: irgendeinrobot
Allow: /fotos/public
Disallow: /fotos/

Hier haben wir eine robots.txt, in der mehrere Anweisungen stehen. Die Anweisungen an die unterschiedlichen Robots sind durch eine Leerzeile getrennt. Zum einen ist das Verzeichnis „/videos“ für alle Robots gesperrt. Das Verzeichnis „/fotos“ ist für einen bestimmten Robot gesperrt, aber es wurde eine Ausnahme für das Unterverzeichnis „/fotos/public“ eingetragen. Das bedeutet der Robot „irgendeinrobot“ darf auf das Verzeichnis „fotos“ nicht zugreifen und die Inhalte indexieren, aber das Unterverzeichnis von „fotos“ nämlich „fotos/public“ ist für ihn freigegeben. Mit der Raute wird lediglich ein Kommentar gesetzt, dieses wird vom Robot ignoriert.

Anweisungen und Eigenschaften der Robots.txt

User-Agent, welcher Robot soll angesprochen werden?

Wie im Beispiel aufgeführt zeigt der User-Agent an, für welche Robots die Anweisung gilt. Hier sind die wichtigsten Bots:

Googlebot
Googlebot-Image
Googlebot-news
Adsbot-Google
Mediapartners-Google
Googlebot-Mobile
Bingbot
msnbot
adidxbot
Scooter
FAST-WebCrawler
ia_archiver

Durch den Asterisk * können auch einfach alle Bots angesprochen werden.

Disallow, was soll verboten werden?

Durch Disallow können Verzeichnisse gesperrt werden. Disallow wird direkt nach dem jeweiligen User-Agent definiert. Achte unbedingt darauf, dass dazwischen keine Leerzeile kommt. Ansonsten funktioniert die Anweisung nicht. Alle Inhalte von einem gesperrten Pfad werden nicht indiziert. Doppelte Anweisungen sind überflüssig, aber führen nicht zu einem Fehler. Beispiel:


# Beispiel für doppelte Sperrung

Disallow: /videos/
Disallow: /videos/festivalvideos
Disallow: /videos/hochzeitsvideos

Im Grunde sind die Verzeichnisse „festivalvideos“ und „hochzeitsvideos“ bereits durch die erste Anweisung gesperrt. Daher sind sie unnötig. Vorsicht ist hierbei mit Platzhaltern geboten, da sie nicht von jedem Suchmaschinen-Robot erkannt werden:


# Beispiel für Platzhalter

*
*.*

Allow, was ist erlaubt?

Welche Ausnahmen gibt es von den Verboten? Die Anweisung Allow ist erst später hinzugekommen. Es gibt sie seit 1996. Mit Allow kann die Sperrung von einem Verzeichnis für einen Teilbereich aufgehoben werden. Es ist nicht notwendig, ein Verzeichnis mit Allow freizugeben, wenn es keine Sperrung hierzu gibt, weil alle Inhalte ohnehin auf Allow stehen, bis sie gesperrt werden.

Übrigens arbeitet der Bot die robots.txt der Reihe nach ab, das bedeutet, dass eine Aufhebung der Sperrung vor der Sperrung angegeben werden sollte, weil sie ansonsten wirkungslos ist. Das kann von Suchmaschine zu Suchmaschine unterschiedlich sein. Bei Google ist bekannt, dass die Reihenfolge nicht wichtig ist, da der Googlebot erst alle Allow-Einträge durchgeht und dann erst die Disallow-Anweisungen. Wenn du sicherstellen möchtest, dass die Syntax bei allen Suchmaschinen zum richtigen Ergebnis führt, dann solltest du erst Allow eintragen und dann Disallow.

Platzhalter

Ein Platzhalter wird auch als Wildcard bezeichnet. Hierbei unterscheidet man zwischen dem Asterik und dem Dollar-Zeichen:


# * ist eine Variable für beliebig viele Zeichen
*

# $ ist ein Platzhalter am Zeilenende
$

# Beispiele:

Beispiel
User-agent: * # alle bots
Disallow: /fot*/ # alle Unterverzeichnisse, die mit "fot" beginnen, beispielsweise "/fotos/" und "/fotozubehör/"
Disallow: /*ide*/ # alle Unterverzeichnisse, die "ide" enthalten, wie beispielsweise "/videos/"
Disallow: /*.png$ # alle Dateien, die auf ".png" enden

Sitemap in der Robots.txt

Eine Sitemap hilft der Suchmaschine, alle Seiten deiner Webseite zu crawlen. Warum du eine Sitemap haben solltest, liest du in meinem Beitrag Sitemap. Du kannst Bots in der robots.txt darauf hinweisen, wo deine Sitemap zu finden ist. Da momentan Google die wichtigste Suchmaschine ist und du auch die Sitemap in der Search Console eintragen kannst (siehe Anleitung Search Console), ist es nicht zwingend erforderlich, diese nochmal in der robots.txt einzutragen, aber schaden kann es auch nicht.

Für kleinere Webseiten, welche eine solide Seitenstruktur aufweisen, ist auch eine Sitemap an sich nicht unbedingt erforderlich. Als Faustregel kannst du dir merken, wenn du eine kleine Webseite hast und der Benutzer innerhalb von vier Klicks jeden deiner Inhalte erreichen kann, dann kann das auch die Suchmaschine. Doch sehen wir uns kurz an, wie die Sitemap korrekt in der robots.txt angegeben wird:


# URL für die Sitemap in der robots.txt anzeigen

Sitemap: https://www.irgendeinewebseite.de/sitemap.xml

Der Pfad der Sitemap kann unterschiedlich aussehen. Es ist auch

https://www.irgendeinewebseite.de/sitemap_index.xml

oder eine andere Adresse denkbar. Mehr dazu in der erwähnten Anleitung.

Robots.txt und Meta-Tags für Google

Wie Anfangs beschrieben ist der beste Weg, bestimmte Inhalte nicht nur in der robots.txt für die Indizierung zu sperren, sondern auch in den Meta-Tags. Da für die SuchmaschinenoptimierungSEO ist die Abkürzung für Search Engine Optimization. Auf Deutsch übersetzt bedeutet das Suchmaschinenoptimierung. SEO ist eine Möglichkeit, um die Sichtbarkeit in den Suchmaschinen zu verbessern. Hierbei werden unterschiedliche Optimierungen durchgeführt, welche man in Onpage-SEO und Offpage-S Mehr Google der wichtigste Regelgeber ist, kannst du dich bei deinen technischen Bemühungen auch voll und ganz auf diese Suchmaschine konzentrieren.

Google empfiehlt die Seiten sowohl in der robots.txt-Datei zu sperren, als auch in den Meta-Tags. Sobald die Suchmaschine über eine externe Verlinkung kommt, kann es passieren, dass die robots.txt ignoriert wird. Deshalb bindest du auf der jeweiligen zu sperrenden Seite folgenden Code ein:


# Meta Tags um die Indexierung einer Seite zu vermeiden
<meta name="robots" content="noindex">

Wenn du möchtest, dass deine Seite nicht im Google IndexIndex bedeutet aus dem lateinischen übersetzt so viel wie „Verzeichnis“. Es kann sich zum einen hierbei um ein Register handeln, welches man auch als Stichwortverzeichnis kennt, zum anderen aber auch wie beispielsweise bei Suchmaschinen um ein Datenbankverzeichnis, welches über Suchanfragen ab Mehr erscheint, dann setzt du den „noindex“-Metatag, aber gestattest den Zugriff auf die jeweilige Seite. Also mache nicht den Fehler, den Zugriff in der robots.txt zu verbieten. Am besten, du stellst eine nicht zu indexierende Seite auf „noindex“ und „follow“. So sagst du Google, dass die Seite durchsucht werden kann, aber nicht indexiert werden soll:

Robots noindexDas Meta-Tag "noindex" teilt der Suchmaschine mit, dass eine bestimmte URL oder Webseite nicht indexiert werden darf. Hieran halten sich die großen Suchmaschinen-Anbieter. Dadurch können Webseitenbetreiber bestimmen, welche Webseiten nicht in den Index der Suchmaschine geraten dürfen. Zusätzlich follow

Solltest du beispielsweise eine PDF-Datei aussperren wollen, dann ist das auf den ersten Blick schwer möglich, da es sich hierbei nicht um ein HTML-Element handelt. In diesem Fall kannst du mit dem X-Robots-Tag arbeiten.

Robots.txt prüfen

Deine robots.txt kannst du nicht nur aufrufen und überprüfen, sondern die Anweisungen auch durch Google prüfen lassen. Das geht ganz einfach in der Search Console. Den Link und eine Anleitung erhältst du hier bei Google.

Fazit zur robots.txt

Die robots.txt-Datei ist ein mächtiges Werkzeug, dass bei falscher Handhabung fatale Auswirkungen haben kann. Wenn du mehr über das Thema Crawling und Indexierung wissen möchtest, dann folge dem Link. Solltest du Fragen haben, dann hinterlasse einen Kommentar.

5/5 - (4 votes)

0 Kommentare

Einen Kommentar abschicken Antwort abbrechen

Google Ads – Effektives Management saisonaler Schwankungen

von Steffen Rust | 28. Januar 2024 | Onlinemarketing, SEA | 0 Kommentieren

Hey du, in deinem Business wirst du zwangsläufig mit Schwankungen in den Verkaufszahlen konfrontiert, und das liegt einfach mitunter an der Saisonalität. Mal steigen die Verkäufe, mal gehen sie in den Keller. Das zu managen, kann manuell verdammt knifflig sein. Zum...