Du hast endlich deine neue Webseite online gestellt und bist gespannt auf die BesucherInnen. Aber keiner kommt – denn deine URLs erscheinen nach Monaten immer noch nicht in den Google Suchergebnissen. In diesem Artikel erfährst du mehr über mögliche Gründe und lernst, Fehler selbst zu beheben. Für eine grundsätzliche Erklärung, wie die Google-Suche funktioniert und wie Seiten gecrawlt und indexiert werden, sieh dir erst einmal das untere Video an.
Ein Crawler – Was ist das?
Auch die schönste Webpräsenz muss indexiert werden, damit Online-Leserinnen sie entdecken können. Voraussetzung dafür ist, dass der Googlebot sie crawlt: Ein von Algorithmen gesteuertes Programm findet deine Webseite und listet alle Links, die gecrawlt werden sollen. Die Informationen nimmt der Googlebot auf und sortiert sie in einem Index im Hinblick auf ihre Relevanz und mögliche Zielgruppen.
Deine Seite ist nie direkt indexiert
Diesen Vorgang wiederholt er in regelmäßigen Abständen, deine Webseite wird also nicht nur ein einziges Mal gecrawlt. Also keine Panik, wenn es nicht sofort klappt – der Googlebot braucht Zeit bei der Masse der täglich weltweit neu zu verarbeitenden Web-Informationen. Aufgrund eines begrenzten Crawlbudgets durchsucht er oft auch nicht die gesamte Website, sondern nur ausgewählte Seiten. Im Google Search Console Forum findest du dazu eine deutliche Aussage. Wenn jedoch zu viele deiner Seiten ignoriert werden, solltest du die Fehlerquellen finden.
Google crawlt nicht alle Seiten im Web, und es werden nicht alle gecrawlten Seiten indexiert.
Keine Indexierung: Erste Schnellmaßnahmen
Auf der Spurensuche unterstützt dich zum einen Google in der Search Console im Bereich „Crawling“. Im Report „Crawling-Fehler“ erfährst du, ob in den letzten 90 Tagen Fehler aufgetreten sind. Sie könnten den Googlebot daran gehindert haben, auf manche Bereiche deiner Webseite zuzugreifen. Die Rubrik „URL-Fehler“ weist auf fehlende 301-Weiterleitungen und auf nicht gefundene Seiten (404-Fehler) hin. Einen zusätzlichen Überblick gibt dir auch die „Site-Abfrage” bei Google. Gib hierzu zunächst deine Domain in folgendem Format in der Google-Suchmaske ein:
site:beispieldomain.de
Überprüfe welche Seiten betroffen sind
Wenn du gefragt wirst, ob dir diese Domain gehört, solltest du die Seite in der Google Search Console erst einmal anmelden. Melde dich mit deinem Login an und wähle auf der Startseite „Property hinzufügen“. Hier gibst du die Domain ein. Du erhältst Informationen darüber, wie du deine Inhaberschaft bestätigen kannst. Am besten ist es, den angegebenen Code herunter- und auf deine Website hochzuladen. Ist deine Seite dem Googlebot aber schon „bekannt“, siehst du an dieser Stelle deine indexierten URLs. Entspricht die Anzahl der Seiten ungefähr der online gestellten Anzahl oder gibt es starke Abweichungen? Überprüfe folgende fünf Punkte, wenn es Abweichungen gibt.
EXTRA: So optimierst du deine IT-Infrastruktur im Homeoffice
1. Nicht vorhandene XML-Sitemap
Webcrawler wie der Googlebot durchforsten das Internet nach neuen Inhalten und wandern von Seite zu Seite. Auf deine Seite sollte also mindestens ein Link führen, sonst bleibt sie für den Bot unsichtbar. Bei einer guten Onpage-Optimierung ist das kein Problem – irgendwann wird jede neue Seite gefunden. Um den Suchprozess zu beschleunigen, solltest du jedoch für Google eine XML-Sitemap als Indexierungshilfe erstellen.
Das ist XML und so arbeitest du damit:
XML-Sitemaps sind standardisierte Textdateien, die in maschinenlesbarer Form die Struktur deiner Webpräsenz enthalten und die Suchmaschinen problemlos interpretieren können. Sie übermitteln Google nicht nur die URLs, sondern auch Änderungsdatum und -frequenz sowie die Priorität oder Hierarchie des Seiteninhalts. Content Management Systeme wie WordPress bieten Plugins und Tools für die Erstellung einer Sitemap an, du kannst sie aber auch manuell erstellen. Ist deine Sitemap im unkomprimierten Zustand größer als 10 MB, musst du sie in mehrere kleinere Sitemaps unterteilen und in einer Sitemap-Indexdatei einreichen.
Sitemap hinzufügen: So geht’s
Am bequemsten übermittelst du sie Google über das Sitemaps-Tool der Google Search Console. Logge dich mit deinem Account ein und suche die entsprechende Webseite aus. Im linken Reiter findest du den Punkt „Crawling“ und darunter „Sitemap“. Wenn noch keine eingereicht ist, siehst du eine Fehlermeldung. Klickst du auf „Sitemap hinzufügen“, erscheint deine URL und ein leeres Feld, in das du die erstellte Sitemap einfügen kannst. Google schlägt dir auch andere Wege vor, um eine Sitemap einzureichen. Wenn du gute Kenntnisse in Code-Änderungen besitzt, gib den Pfad zu deiner Sitemap an, indem du an einer beliebigen Stelle in deiner robots.txt-Datei folgende Zeile einfügst:
Sitemap: http://beispieldomain.de/sitemap_location.xml.
Mögliche Sitemap-Fehler
Auch wenn du die Sitemap bereits eingereicht hast, kann es zu Fehlern kommen, die du ebenfalls im Bereich „Sitemaps“ in der Search Console identifizieren kannst. Im Folgenden findest du einige Probleme, die Google unter „Sitemap-Fehler und Lösungen“ auflistet.
- URLs nicht zugänglich / URL nicht zulässig
Prüfe, ob deine Datei am richtigen Speicherort und auf der richtigen Ebene liegt. Vergewissere dich, dass alle URLs mit demselben Domainnamen wie der Speicherort deiner Sitemap anfangen, also einheitlich mit www., http oder https. - Nicht aufgerufene URLs / 404 Fehler
Google kann deine Sitemap nicht vollständig verarbeiten. Das passiert z.B., wenn einige URLs zu viele Weiterleitungen enthalten, die der Googlebot nicht abrufen kann. Beseitige deine Broken Links und richte permanente Weiterleitungen ein. - Ungültige oder unvollständige URL
URLs sind ungültig, wenn sie nicht unterstützte Zeichen enthalten, also nicht lesbar codiert sind, oder wenn die Formatierung mit htp:// anstatt http:// angegeben sind (oder andersherum).
2. Duplicate Content
Überprüfe auch, ob Google deine bevorzugte Seite indexiert hat oder eine andere Version des Domain-Namens. Wenn http://beispieldomain.de nicht indexiert wurde, füge deinem Konto auch http://www.beispieldomain.de und die eventuell vorhandene https-Version hinzu. Klick auf der Search Console Startseite auf deine Webseite und gib unter dem Zahnradsymbol „Websiteeinstellungen“ an, welche Seite Google indexieren soll.
Setze den Canonical Tag
Nutze auch das Canonical Tag, um Duplicate Content zu vermeiden: Es wird in den Header des Quellcodes platziert und zeigt dem Crawler an, welche der URLs die Originalquelle ist. Das kann dann für die bevorzugte Domain wie folgt aussehen:
<link rel="canonical" href="http://www.beispieldomain.de/beispielseite.htm"/>
Aber Vorsicht: Nicht überall ist das Canonical Tag notwendig, und es kann bei falscher Handhabung grobe Crawling-Fehler verursachen. Es darf etwa nicht im Body-Bereich des Seitenquelltextes auftauchen oder in den Metadaten doppelt verwendet werden.
3. Technische Voraussetzungen für die Indexierung
Status Codes:
Beschäftige dich auch mit den HTTP-Statuscodes deiner Seite: Überprüfe regelmäßig, ob 301-Weiterleitungen nicht funktionieren oder ob 404-Statuscodes existieren. Seiten mit diesem Status sind unauffindbar für potenzielle LeserInnen und Webcrawler. Links, die auf solche Seiten verweisen, werden „Tote Links“ genannt.
robots.txt-Datei:
Möglicherweise liegt der Fehler auch in der robots.txt-Datei. Bei der robots.txt Datei handelt es sich um eine Textdatei, in der festgelegt werden kann, welche Bereiche einer Domain vom Crawler der Suchmaschine gecrawlt werden dürfen und welche nicht. Mit ihr können WebmasterInnen also das Verhalten von Suchmaschinen-Crawlern beeinflussen. Verzeichnisse, die nicht indexiert werden sollen, können darin mit „Disallow“ gekennzeichnet werden.
User-agent: * Disallow
Mit diesem Befehl weist du Webcrawler an, ganze Seitenbereiche zu ignorieren. In der Search Console erscheinen diese URLs dann unter „Blockierte URLs“. Mit dem Report „Abruf wie durch Google“ in der Search Console erfährst du zudem, ob der Googlebot durch die robots.txt blockiert wird. Spätestens nach einem Relaunch empfiehlt sich übrigens generell eine genaue Prüfung der robots.txt.
Metatag „noindex“:
Mit dem Eintrag „noindex“ in den Meta-Tags wird einem Suchmaschinen-Robot mitgeteilt, dass die besuchte Seite nicht in den Index aufgenommen werden soll. WebmasterInnen haben mit „noindex“ also die Möglichkeit, die Indizierung ihrer Seiten zu beeinflussen. Sinnvoll kann die Verwendung des noindex-Tags sein für:
- interne Suchergebnisseiten
- doppelte Kategorieseiten
- urheberrechtlich geschützte Inhalte
„nofollow“-Attribut:
Das Attribut rel=“nofollow“ ist eine Mikroauszeichnung im HTML-Code einer Website. Es wird verwendet, um bestimmte Links auszuzeichnen, damit sie bei der Bildung des Google-Indexes nicht berücksichtigt werden. Mit dem Attribut rel=“nofollow“ wird den Robots der Suchmaschinen, die eine Website crawlen, mitgeteilt, dass sie diesem Link nicht folgen müssen oder dürfen.
4. WordPress-Einstellungen
Wenn du WordPress als Content Management System nutzt und dein Blog nicht indexiert wird, kann die Lösung ganz nah liegen. Prüfe im Bereich „Einstellungen“ in der linken Spalte, ob die Funktion „Suchmaschinen davon abhalten, diese Website zu indexieren“ aktiviert ist. Wenn du sie deaktivierst, wird der Googlebot nicht länger daran gehindert, sie in den Suchergebnissen zu zeigen. Andere CMS haben ähnliche Einstellungsmöglichkeiten.
5. Bad Neighbourhood
Wenn du eine Domain gekauft hast, fragst du dich sofort, über welche Backlinks neuer Traffic auf deine Seite kommt. Linkfarmen oder gekaufte Links kommen natürlich nicht infrage, vielmehr hochwertige Links mit thematischem Bezug. Wenn deine Seite trotzdem nicht indexiert wird, beschäftige dich mit deren Vorgeschichte. Haben ehemalige BesitzerInnen eventuell „Bad Neighbourhood Links“, Spam oder versteckte Elemente auf der Seite platziert?
Erkläre Google den Besitzerwechsel
Zeigt ein schlechter Link auf eine Website oder weist ein ausgehender Link auf eine Website mit vielen schlechten Links hin, dann befindet sich diese Website in schlechter Nachbarschaft und verliert ihr Vertrauen von Google. Es kann sich um einen qualitativ schlechten Link handeln, wenn eine der Webseiten gegen die Richtlinien der Suchmaschinen wie Google oder Bing verstößt. Falls die Seite eine vorherige Abstrafung von Google erhalten hat und aus diesem Grund desindexiert wurde, stelle einen „Antrag auf erneute Überprüfung der Website“ und erkläre Google, dass du unwissentlich eine Domain übernommen hast, die leider nicht den Google Richtlinien entsprach. Die Überprüfung und Neuindexierung ist möglich, kann aber einige Zeit dauern.
Fazit: Indexierung ist Pflicht
Die Indexierung von Startseite und Unterseiten sind essenziell für deinen Erfolg im Internet. Wozu die ganze Arbeit, wenn die Seite im Nirvana verschwindet? Nimm dir also Zeit für die Überprüfung eventueller Webcrawling-Fehler mit der Google Search Console. Halte dich an die Webmaster Richtlinien, vermeide schlechte Links und versteckten Text. Auch technische Tücken wie falsch programmierte robots.txt Dateien, „nofollows“ in Meta Tags oder Mehrfach-Indexierungen zählen zu häufigen Gründen für eine schlechte Sichtbarkeit. Und natürlich müssen die Inhalte Google überzeugen! Mit einer simplen Landingpage ohne Links gelingt das selten.
Hey liebe Kathrin,
Ich habe die Schwierigkeit, dass eine meine Home-Seite für ein bestimmtes Keyword fälschlicherweise für die Suchergebnisse gecrawlt wurde, dabei habe ich die Absicht gehabt einen extra für dieses Keyword optimierten Blogartikel zu verwenden.
über jede Hilfe freue ich mich sehr !
Liebe Grüße Daniel
Interessanter Artikel, danke dafür.
Der Artikel ist durch die Verwendung seltsamer Wörter schwer lesbar. „WebmasterInnen“, „LeserInnen“ oder „BesitzerInnen“ gibt es in der deutschen Sprache nicht.
Wenn sich heute eine Webseite erstellt und sich keine Gedanken macht das die auch gefunden werden soll und dies ist nun mal über Google dann tut er mir leid. Eine Webseite zu erstellen ist einfach aber Traffic zu bekommen das andere.