Heute sehen wir uns an, wie Suchmaschinen eigentlich funktionieren. Dabei werden wir lernen, was es mit CrawlingDas Crawling wird vom Crawler betrieben. Es beschreibt das Durchsuchen von Webseiten nach Informationen. Durch das Sammeln dieser Informationen können Suchmaschinen-Anbieter einen Index aufbauen, auf dem ihre Suchmaschine aufbaut. Der Index hält die passenden Suchergebnisse bereit, welche dann jed und der IndexierungUnter der Indexierung versteht man das Aufnehmen von Informationen in einen Index. In diesem Index können dann die Inhalte nach spezifischen Merkmalen aufbereitet werden. Beispielsweise der Zuordnung von Schlagworten. Der Index beschleunigt das Auffinden von Inhalten, ähnlich einem Bücherindex. A Mehr auf sich hat. Um deine WebseiteEine Webseite ist eine Seite im World Wide Web. Diese kann aus einer Einzelseite (Onepager) oder mehreren Unterseiten bestehen. Als Synonym kennt man auch die Begriffe Internetseite, Webpage, Website, Webpräsenz, Webauftritt, Internetpräsenz, Homepage oder einfach nur Seite. Eine Webseite liegt in für Google und auch alle anderen Suchanbieter zu optimieren, ist es entscheidend zu verstehen, wie die Suchmaschine arbeitet.
Inhalte
Crawling durch Milliarden Webseiten
Das Crawling wird von einem CrawlerEin Crawler ist ein automatisiertes Computerprogramm, welches Webseiten und deren Informationen durchsucht. Suchmaschinen-Anbieter verwenden Crawler um aus den Informationen von Milliarden an Webseiten einen Index aufzubauen. Aus diesem Index werden dann die Suchergebnisse gespeist. Mehr Information Mehr betrieben. Doch was ist eigentlich ein Crawler? Crawler werden von Suchmaschinen verwendet um das Internet nach Informationen zu durchsuchen, diese zu speichern, woraus sich ein IndexIndex bedeutet aus dem lateinischen übersetzt so viel wie „Verzeichnis“. Es kann sich zum einen hierbei um ein Register handeln, welches man auch als Stichwortverzeichnis kennt, zum anderen aber auch wie beispielsweise bei Suchmaschinen um ein Datenbankverzeichnis, welches über Suchanfragen ab Mehr ergibt. Aus diesem Index werden dann die Suchergebnisse gebildet. Crawler betreiben das Crawling automatisiert und können nach vielen unterschiedlichen Informationen und Dokumenten suchen, wie beispielsweise Bildern, Texten, E-Mailadressen, Preisen und vielem mehr. Crawler ist eigentlich eine Kurzform vom Namen Webcrawler, man kann sie auch Spider, Searchbot, Suchcrawler, Bot oder Robot nennen. Der wohl berühmteste Crawler ist der Googlebot.
Wenn der Crawler auf der zu durchsuchenden Webseite einen LinkEin Link ist eine Verknüpfung zu einer anderen Webseite oder zu einem anderen Ort im Internet. Ein Link kann in Text oder auf einem Bild auf einer Webseite verwendet werden, um eine Verbindung zu einer anderen Webseite herzustellen. Mehr entdeckt, dann folgt er diesem Link (sofern ihm das Folgen nicht untersagt wird). So wächst der Index immer weiter an. Der Crawler startet also den nächsten Durchlauf immer mit den Informationen aus dem letzten Durchlauf. Das Programm überprüft hierbei unter anderem, ob neue Webseiten dazu gekommen sind, ob es an bestehenden Webseiten Änderungen gab und ob Links veraltet sind. Übrigens ist genau festgelegt, welche Webseiten zu welchem Zeitpunkt und in welchem Intervall untersucht werden. Dabei ist es auch wichtig, dass die Verzweigung der Webseite nicht zu tiefgehend ist, da das Crawling nur bis zu einer festgelegten Menge an Unterseiten crawlen wird.
Indexierung – Die Suchanfrage kommt rein
Jetzt wird es spannend, naja, so spannend auch nicht 🙂 Ein Internetnutzer gibt seine Suchanfrage bei Google ein. Google beginnt jetzt nicht Milliarden an Webseiten nach diesem KeywordIm Onlinemarketing ist ein Keyword ein Schlüsselwort, welches aus einem oder mehreren Wörtern bestehen kann. Dieses Keyword ist gleichermaßen ein Suchbegriff, welcher in der Suchmaschine gesucht wird und optimiert werden soll. Hierbei gibt es unterschiedliche Formen von Keywords:
• Shortta Mehr zu durchsuchen. Das würde viel zu lange dauern, wahrscheinlich würde der Nutzer noch in einigen Wochen auf sein Suchergebnis warten. Nein, es wird der Index, den die Suchmaschine hat, nach bestimmten Filterkriterien durchsucht. Im Grunde ist dieser schon vorsortiert.
Das Ganze muss man sich so vorstellen, dass die Suchmaschine ein Restaurant ist und der Suchende ein hungriger Gast. Der Gast bestellt jetzt etwas zu essen, sprich die Suchanfrage geht zum Kellner und dann in die Küche. Damit der Gast nicht mehrere Stunden warten muss, hat das Restaurant vieles an Essen bereits vorbereitet und seine Küche ist mit allem Zubehör und Mitarbeitern schon bestens ausgestattet. Es würde keinen Sinn machen, dass der Kellner jetzt auf den Großmarkt rennt und die Zutaten einkauft, um dann die Kartoffeln zu schälen und das Essen zu kochen. Genauso macht es die Suchmaschine, sie weiß schon vorher, zu welchem Keyword sie welches Suchergebnis ausgeben wird. Wenn das Keyword noch nie eingegeben wurde, dann wird ein verwandtes Ergebnis ausgegeben.
Die Keywords kann man sich wie das Stichwort-Verzeichnis von einem Lexikon vorstellen. Hinten stehen die Keywords und wenn man das Keyword ausfindig gemacht hat, dann kann man gleich zur richtigen Seite blättern. Beim Indexieren einer Webseite fügt Google alle Wörter einer Webseite diesem Stichwort-Verzeichnis (Index) hinzu.
Hier ein Video von Google, wo der Vorgang von Matt Cutts noch deutlicher erklärt wird:
Google Search ConsoleDie Google Search Console ist ein Werkzeug für Webmaster, bereitgestellt von Google selbst, um die Performance und Optimierungsmaßnahmen deiner Webseite zu überwachen. Du kannst zum Beispiel die Indexierung deiner Seiten prüfen und ggf. beantragen, Problem-behaftete URLs finden und vieles mehr. Mehr
Damit du als Webseitenbetreiber das Crawling des Googlebots nicht dem Zufall überlassen musst, hat Google dir ein mächtiges Tool an die Hand gegeben: Die Search Console, früher auch als Webmaster-Tool bezeichnet.
In der Search Console können wir das Crawling einer Webseite beantragen. Das kann für neue oder auch für bereits vorhandene URLs erfolgen. Übrigens kann man auch das Crawlen einer Webseite untersagen. Hierbei wird mit einer Datei die „robtos.txt“ genannt wird, dass ein Crawling nicht erwünscht ist. Google wird sich an diese Anweisung halten. Man sollte hierbei drauf achten, dass man (sofern eine Indexierung unerwünscht ist) die Seite auch auf „noindex“ setzt, da es ansonsten unter Umständen vorkommen kann, dass die Webseite zwar nicht gecrawlt wird, aber trotzdem indexiert. Unter Umständen kommt auch das Canonical TagDas Canonical Tag oder die kanonische URL hilft dabei, die eigene Webseite nicht durch doppelte Inhalte zu belasten. Grundsätzlich sollte jede URL einer Webseite einzigartige Inhalte bieten, da sich ansonsten der Wert der Webseite verschlechtert oder sogar seitens der Suchmaschine abgestraft werden zum Einsatz.
Übrigens ist Google beim Crawlen und Indexieren vollkommen unabhängig und man kann nicht durch eine Zahlung erreichen, dass Google die eigene Webseite bevorzugt. Das ist gut, denn so hat jeder Mitspieler die gleichen Chancen.
Nachdem die Webseite gecrawlt wurde, kommt sie in den Index. Wenn sie relevant ist, dann wird sie bei der nächsten Suchanfrage ausgeliefert. Gerade bei neuen Webseiten ist häufig zu beobachten, dass die Suchmaschine an einigen „Testern“ die Webseite in der Suchmaschine nach oben schiebt, wenn sie positive Signale erhält, dann kann man mit einem relativ hohen Anfangsranking rechnen. Bleiben diese Signale aus, dann rankt die Seite schlecht oder gar nicht, zumindest nicht im messbaren Bereich.
Der Suchindex von Google umfasst laut eigener Aussage mehrere Milliarden Webseiten und hat eine Speichergröße von über 100.000.000 Gigabyte groß. Das bedeutet, das Crawling benötigt riesige Ressourcen an Servern, um zu speichern und auszuliefern.
Wer noch mehr dazu wissen möchte, findet hier einen Link zu Erklärung von Google.
Bedeutung von Crawling und Indexierung für SEOSEO ist die Abkürzung für Search Engine Optimization. Auf Deutsch übersetzt bedeutet das Suchmaschinenoptimierung. SEO ist eine Möglichkeit, um die Sichtbarkeit in den Suchmaschinen zu verbessern. Hierbei werden unterschiedliche Optimierungen durchgeführt, welche man in Onpage-SEO und Offpage-S Mehr
Die Suchmaschinen legen bei Webseiten ein Maximum an Ressourcen fest, welche verwendet werden dürfen. Auch die Crawltiefe ist vorher fest definiert. Bei dem Maximum der Ressourcen spricht man vom Crawl-Budget. Als Webseitenbetreiber solltest du drauf achten, dass du dein CrawlbudgetDas Crawl Budget beschreibt die Anzahl an URLs, welche Google maximal crawlt. Jede Webseite hat ein bestimmtes Crawlbudget, welches je nach Qualität und Autorität der Webseite höher oder niedriger ausfallen kann. Je höher der PageRank einer Webseite ist, desto mehr Crawlbudget wird für die Webs nicht verschwendest und deine Webseite nicht zu tief verschachtelst, weil der Bot diesen Seiten ansonsten nicht mehr folgt.
Wenn du eine große Webseite mit vielen URLs betreibst, dann musst du dir die Frage stellen, ob wirklich alle URLs wichtig sind und indexiert werden müssen. Du kannst die Wichtigkeit einzelner URLs erhöhen, indem du andere deindexierst (noindexDas Meta-Tag "noindex" teilt der Suchmaschine mit, dass eine bestimmte URL oder Webseite nicht indexiert werden darf. Hieran halten sich die großen Suchmaschinen-Anbieter. Dadurch können Webseitenbetreiber bestimmen, welche Webseiten nicht in den Index der Suchmaschine geraten dürfen. Zusätzlich). Das kann den entscheidenden Vorteil im SEO bringen.
Suchmaschinen crawlen bevorzugt Webseiten, die beliebt sind. Das Crawl-Budget erhöht sich durch TrafficAllgemein meint man mit Traffic ( z. Dt. Verkehr) Datenverkehr jeglicher Art. Im Onlinemarketing ist dabei die Besucherzahl einer Website gemeint. Somit bedeuten mehr Zugriffe auf eine Seite auch mehr Traffic. Für das Marketing ist er ausgesprochen wichtig, da er eines der Ranking-Kriterien von Goo Mehr, eingehenden Links und positive Interaktionssignale der Nutzer (Aufenthaltsdauer und AbsprungrateIm Online-Marketing bezeichnet man den Absprung eines Nutzers, wenn er nur eine Seite besucht hat und dann die Webseite verlässt. Die Absprungrate ist also der prozentuale Anteil der Seitenaufrufe, welche die einzigen Seitenaufrufe der Sitzung waren. Im Gegensatz dazu beschreibt der Begriff Ausstie).
Ist meine Webseite indexiert?
Ob eine Webseite indexiert ist, lässt sich auch ohne teure SEO-Tools herausfinden. Hierfür gibt es grundlegend zwei Möglichkeiten:
Site-Abfrage
Im Suchfeld von Google kann man einen Google-Hack durchführen und die eigen URLDie Abkürzung URL steht für "Uniform Resource Locator" und wird in der Regel als Webadresse oder Internetadresse bezeichnet. Durch Eingabe der URL kannst du auf Inhalte im Internet zugreifen. Durch diese Adresse ist dein Computer in der Lage, mit dem Server einer Webseite zu kommunizieren. Dieser zusammen mit dem Präfix „site:“ eingeben. In unserem Beispiel würde das so aussehen: „site:steffen-rust.de“. Nun erscheinen alle indexierten Seiten. Wenn man eine bestimmte URL prüfen möchte, dann kann man die URL eingeben: „site:https://www.lmn1.de/kontakt/“.
Search Console
Wenn du deine Webseite in der Search Console angemeldet hast, dann kannst du dort im Suchfeld entweder einzelne URLs prüfen, oder im Abdeckungsbericht alle Informationen zur Indexierung sehen. Die Strafe hierfür kann auch ein Ausschluss aus dem Index sein.
Entfernung aus dem Index
Übrigens gibt es keine Garantien, dass die eigene Webseite dauerhaft im Index bleibt. Wenn die Suchmaschine keinen Zugriff mehr auf die Inhalte hat oder es die Seite nicht mehr gibt, dann wird sie aus dem Index genommen. Ein weiterer Grund kann sein, dass du gegen die Webmaster Guidelines von Google verstoßen hast.
Crawling Statistiken
Übrigens crawlt Google deine Webseite nicht heimlich im Dunkeln, sondern es gibt hierzu einen Bericht, der sich Crawling-Statistiken nennt. Hier findet man die Aktivität des Googlebot für die letzten 90 Tage. Um diese Informationen nutzen zu können, muss die eigene Webseite bestätigt sein.
Wenn man am Anfang noch eine relativ geringe Crawling-Frequenz sieht, dann muss man sich hierüber keine Sorgen machen. Je größer der Umfang der eigenen Webseite wird, desto häufiger wird der Web-Crawler zu Besuch sein.
Crawling Frequenz zu niedrig
Wenn du das Gefühl hast, dass die Crawling-Frequenz deiner Webseite nicht normal ist, dann kann es hierfür unterschiedliche Gründe geben:
- Crawler durch robots.txtHinter dem Begriff Robots.text versteckt sich eine Datei. Diese Datei speichert man im Hauptverzeichnis der Domain. Hier findet der Crawler der Suchmaschine deine Robots.txt Datei und kann sie auslesen. Er erfährt so, welche Verzeichnisse und Dateien er crawlen soll und welche ggf. gesperrt sind. D Mehr blockiert
- HTMLHTML (HyperText Markup Language) ist eine Programmier- bzw. Formatierungssprache, mit der Webseiten erstellt werden. Es ist eine Auszeichnungssprache, die dazu verwendet wird, mithilfe von diversen HTML-Tags den Inhalt einer Webseite zu strukturieren und zu formatieren. HTML ist die Grundlage fast a Mehr fehlerhaft – Webseite kann nicht geparst werden
- Webseite besteht nur aus Bildern
- Webseite zu langsam
- Server-Fehlermeldungen
- keine regelmäßige Aktualisierung der Webseite
- schlechte Qualität der Webseite
Übrigens kann man mit dem URL-Prüftool sich ansehen, wie Google eine Webseite sieht. Hier findest du dazu weitere Informationen von Google. Hier findest du auch Informationen, was du tun kannst, wenn deine Webseite zu oft gecrawlt wird.
Crawler oder ScraperDen Scraper sollte man nicht mit der Maschine dem Schürfzug verwechseln. Scraper sammeln in der Regel automatisiert Daten beispielsweise von Webseiten. Man bezeichnet sie auch als Webscraper oder Datascraper. Beim Web Scraping spricht man auch vom Screen Scraping. Hierbei wird der angezeigte Inhalt Mehr?
Neben dem klassischen Crawler gibt es noch den Scraper. Er kann ein wenig mehr als der Crawler. Scraping wird als Black-Hat-Technik gesehen, wobei Inhalte anderer Webseiten kopiert werden, um diese 1:1 oder abgewandelt auf einer anderen Webseite wieder zu platzieren. Es gibt einige schwarze Schafe, die ihren Webseiten-Content fast ausschließlich über diese Technik produzieren und pflegen.
Fazit zum Crawling
Jetzt weißt du alles, was man zum Crawling und der Indexierung wissen muss. Du weißt, wie man dieses Wissen für die Suchmaschinenoptimierung richtig nutzt. Wenn du Schwierigkeiten dabei hast oder Hilfe mit deiner Webseite brauchst, dann bin ich gerne für dich da. Nimm einfach Kontakt zu mir auf! Wenn dir mein Beitrag gefallen hat, dann freue ich mich über eine gute Bewertung. Übrigens findest du noch mehr Infos und praktische Beispiele in meinen Online-Kursen, schau doch mal rein.
0 Kommentare