Definition „Crawler“
Crawler sind Programme, die das Internet automatisiert und nach festgelegten Arbeitsschritten durchsuchen und auf dieser Grundlage einen vordefinierten Katalog erstellen. Crawler werden teilweise auch Robots, Bots oder Spider genannt. Google selbst crawlt beispielsweise die Inhalte (fast) aller Webseiten – bei manchen häufiger am Tag, bei manchen weniger häufig.
Vom Crawling zur Google-Suchergebnisliste
Die Arbeit von Crawlern bildet die Grundlage für die Erstellung von Ergebnislisten durch Suchmaschinen. Pro Tag durchsuchen Crawler riesige Mengen an Websites und kopieren die dabei gesammelten Daten in eine Datenbank. Auf diese Weise entsteht ein Index aller Wörter, die auf der Webseite vorkommen, sowie von ihrer jeweiligen Position.
Die Algorithmen der Suchmaschinen bestimmen dabei, wie oft eine Seite in welchem Ausmaß gecrawlt wird. Grundsätzlich lässt sich jedoch konstatieren: Je bekannter bzw. interessanter eine Webseite für die Suchmaschine erscheint (wie z. B. aktuelle, auflagenstarke Tageszeitungen), desto häufiger wird sie von den Suchmaschinen-Crawlern besucht und umso mehr Unterseiten der Domain werden in den Index aufgenommen.
Sobald nun ein Nutzer eine Suchanfrage startet, durchsucht die Suchmaschine den Index nach übereinstimmenden Einträgen und zeigt sie in Form einer gewichteten Ergebnisliste an.
Für Crawler nicht-lesbare Elemente
Nicht alle Elemente einer Webseite können von den Crawlern problemlos gelesen werden. Damit ein Crawler auf eine Seite optimal zugreifen kann, sollten bestimmte Programmiertechniken vermieden werden.
So können etwa
- Flash Seiten,
- JavaScript-Dateien oder
- Links mit Session IDs in der URL
Probleme bereiten, weil sie von Crawlern meistens nicht berücksichtigt werden. Gleichzeitig ist es sinnvoll, die URLs möglichst einfach zu halten.
Sperren von Crawlern: Wie und wann ist es sinnvoll?
Üblicherweise ist es das Ziel, die eigene Webseite möglichst regelmäßig von vielen Suchmaschinen erfassen zu lassen. Es gibt allerdings Gründe, wie etwa die Überlastung des eigenen Servers durch zu viele Crawler-Zugriffe, die eine Sperrung oder zumindest Steuerung entsprechender Programme sinnvoll erscheinen lassen. Das Sperren des Crawling-Prozesses hat zur Folge, dass keine Daten über die gesperrte Webseite in den Index der Suchmaschinen aufgenommen werden.
Die Steuerung von Crawlern hingegen definiert, welche Seiten des Webauftritts in welcher Form verarbeitet werden. Der Zugriff eines Crawlers kann dabei etwa durch die Erstellung einer einfachen Textdatei namens robots.txt im Stammverzeichnis der Domain verhindert werden. Voraussetzung dafür ist, dass der Name des Crawlers über die Logfiles des Servers ermittelt und zur robots.txt Datei hinzugefügt wird.