Ein Robot wird auch als Spider, Crawler, Webcrawler oder Bot bezeichnet. Es handelt sich hierbei um ein Computerprogramm, welches automatisiert Websites durchsucht. Der Robot muss dafür vorab programmiert werden. Hierbei wird auch festgelegt, welche exakte Zielsetzung der Robot verfolgt und auf welche Daten er sich spezialisiert.
Robots werden zumeist von Suchmaschinen verwendet. In diesem Fall besteht ihre Aufgabe darin, neue Websites zu finden, zu analysieren und auf den Index der Suchmaschine zu setzen. Nur, wenn eine Website zuvor von einem Robot durchsucht wurde, kann sie in der Suchmaschine gefunden werden. Robots analysieren im Allgemeinen nur die Website selbst, nicht aber externe Daten wie beispielsweise Bilder. Ein Robot folgt darüber hinaus üblicherweise externen und internen Links, sodass er stetig neue Websites findet.
Weitere Aufgaben von Robots
Die Nutzung von Robots beschränkt sich nicht auf Suchmaschinen. Darüber hinaus werden Robots beispielsweise von Preisvergleichsportalen genutzt, die mithilfe des Robot Informationen über Produkte recherchieren, um Preise besser vergleichen zu können. Auch in der Webanalyse spielen Robots eine wichtige Rolle, da sie sehr schnell zentrale Daten wie zum Beispiel Seitenaufrufe sammeln können.
Nachrichtenportale nutzen Robots, um mit Informationen versorgt zu werden. Zuletzt spielen Robots auch auf dem Gebiet des Data Mining eine Rolle; so sammeln sie beispielsweise öffentlich erreichbare E-Mail- und Postadressen.
Vor- und Nachteile für den Betreiber einer Website
Für den Betreiber einer Website können Robots nützlich sein, um seine Seite populärer zu machen. Aufgrund der zentralen Rolle von Robots bei Suchmaschinen ist es wichtig, von Robots katalogisiert und gerankt zu werden. Viele Betreiber von Websites versuchen aus diesem Grund, ihre Seiten besonders leserlich für Robots zu machen, indem sie beispielsweise die URL einfach halten und auf komplizierte Session IDs verzichten.
Allerdings können Robots auch Nachteile bringen oder unerwünscht sein. Dies ist vor allem dann der Fall, wenn es sich um einen unbekannten Robot handelt, der zu dubiosen Zwecken Informationen sammelt. In diesem Fall kann der Betreiber einer Website den Robot blocken.
Blockierung eines Robot
Robots können auf verschiedene Arten gesperrt werden. Mithilfe der robots.txt-Datei ist es möglich, unerwünschte Robots explizit zu nennen. Dies hat allerdings den Nachteil, dass nur bekannte Robots gesperrt werden können. Andere Möglichkeiten bietet die allow-Funktion, bei der der Betreiber jene Robots nennt, welche auf die Seite zugreifen dürfen. Zusätzlich können Spider-Traps verwendet werden, wenn Robots sich nicht an Vorgaben halten.