Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Tipps für Hostanbieter und Webmaster
Dienstag, 20. Dezember 2011
Einige Webmaster haben in unseren Foren Fragen zu hosting-bezogenen Problemen gestellt, die ihre Websites betreffen. Wir möchten euch einige Probleme und unsere Vorschläge zur Behebung darlegen, um sowohl Hostanbieter als auch Webmaster bei der Erkennung, Diagnose und Behebung dieser Probleme zu unterstützen.
Blockieren von Googlebot-Crawling.
Dies ist ein häufig auftretendes Problem, das in der Regel durch eine falsche Konfiguration in einer Firewall oder einem DoS-Schutzsystem und teilweise auch durch das Contentmanagement System entsteht, das die Website benutzt. Schutzsysteme sind ein wichtiger Teil von gutem Hosting und werden häufig konfiguriert, um ein ungewöhnlich hohes Aufkommen an Serveranfragen zu blockieren. Dies erfolgt teilweise automatisch. Da der Googlebot häufig mehr Anfragen durchführt als ein menschlicher Nutzer, können diese Schutzsysteme den Googlebot blockieren und ein Crawling eurer Website verhindern. Verwendet bei diesem Problem die Funktion "
Abruf wie durch Googlebot
" in den Webmaster-Tools und sucht nach weiteren in den Webmaster-Tools angezeigten
Crawling-Fehlern
.
Wir stellen Webmastern und Hostanbietern, die Googlebot-Crawling besser kontrollieren möchten, verschiedene Tools zur Verfügung, die außerdem die Crawling-Effizienz verbessern:
Wir bieten detaillierte Hilfe zur Kontrolle des Googlebot-Crawling mithilfe des
Robots-Exclusion-Protokolls
und durch die
Konfiguration von URL-Parametern
.
Wenn ihr Bedenken habt, dass ein Rogue Bot den Googlebot-User-Agent verwendet, bieten wir eine Möglichkeit, um zu
verifizieren, ob ein Crawler tatsächlich ein Googlebot ist
.
Wenn ihr
die Frequenz des Googlebot-Crawlings
auf eurer Website ändern möchtet, könnt ihr eure Website in den Webmaster-Tools verifizieren und die Crawling-Frequenz des Googlebot ändern. Hostanbieter können außerdem die Inhaberschaft ihrer IP-Adressen verifizieren.
Weitere Informationen dazu findet ihr in unseren häufig gestellten Fragen zu
Crawling und Indexierung
.
Verfügbarkeitsprobleme.
Ein ähnliches Problem ist die Nichtverfügbarkeit von Websites, wenn der Googlebot (und Nutzer) versuchen, auf die Website zuzugreifen. Dazu gehören DNS-Probleme, überlastete Server, die zu Zeitüberschreitungen und abgelehnten Verbindungsversuchen führen, falsch konfigurierte Content Distribution Networks (CDNs) sowie zahlreiche andere Fehler. Wenn der Googlebot auf derartige Probleme stößt, melden wir diese in den Webmaster-Tools als
Fehler durch nicht erreichbare URL
oder
Crawling-Fehler
.
Ungültige SSL-Zertifikate. Damit SSL-Zertifikate für eure Website gültig sind, müssen sie mit dem Namen der Website übereinstimmen. Zu den am häufigsten auftretenden Problemen gehören abgelaufene SSL-Zertifikate und falsch konfigurierte Server, bei denen alle Websites auf diesem Server das gleiche Zertifikat verwenden. Die meisten Webbrowser versuchen, die Nutzer in diesem Fall zu warnen, und Google versucht, die Webmaster durch das Versenden einer Nachricht über die Webmaster-Tools auf dieses Problem hinzuweisen. Das Problem kann behoben werden, indem ihr sicherstellt, dass SSL-Zertifikate verwendet werden, die für alle Domains und Sub-Domains eurer Website gültig sind, mit denen der Nutzer interagiert.
Wildcard-DNS.
Websites können so konfiguriert werden, dass sie auf alle Anfragen der Sub-Domains reagieren. Beispielsweise kann die Website unter example.com so konfiguriert werden, dass sie auf Anfragen von foo.example.com, made-up-name.example.com und sämtliche anderen Sub-Domains reagiert.
Dies kann in einigen Fällen erwünscht sein, zum Beispiel wenn auf einer nutzergenerierten Content-Website für jedes Konto eine eigene Sub-Domain eingerichtet wird. In anderen Fällen möchte der Webmaster dieses Verhalten jedoch vermeiden, da es dazu führen kann, dass Content unnötigerweise in verschiedenen Hostnamen dupliziert wird. Außerdem kann das Googlebot-Crawling beeinflusst werden.
Zur Minimierung der Probleme in Wildcard-DNS-Einrichtungen könnt ihr eure Website entweder so konfigurieren, dass sie nicht verwendet werden, oder ihr konfiguriert euren Server so, dass er nicht auf nicht vorhandene Hostnamen antwortet. Dazu kann er entweder den Verbindungsversuch ablehnen oder eine HTTP 404-Fehlermeldung zurückgeben.
Falsch konfiguriertes virtuelles Hosting.
Bei diesem Problem geben mehrere Hosts und/oder Domain-Namen, die auf dem gleichen Server gehostet werden, stets die Inhalte von nur einer Website zurück. Mit anderen Worten gibt der Server, obwohl er mehrere Websites hostet, immer nur eine Website zurück, unabhängig von der Anfrage. Zur Diagnose des Problems müsst ihr überprüfen, ob der Server richtig auf den HTTP-Header des Hosts reagiert.
Duplizierung von Content über hosting-spezifische URLs.
Viele Hosts bieten zu Test-/Entwicklungszwecken URLs für eure Website an. Wenn ihr beispielsweise die Website http://a.com/ auf dem Hostanbieter example.com hostet, bietet der Host möglicherweise über eine URL wie http://a.example.com/ oder http://example.com/~a/ Zugriff auf eure Website. Wir empfehlen euch, diese hosting-spezifischen URLs durch ein Passwort zu schützen und so den öffentlichen Zugriff zu verhindern. Selbst wenn diese URLs zugänglich sind, berücksichtigen unsere Algorithmen in der Regel die Absicht des URL-Webmasters. Falls unsere Algorithmen die
hosting-spezifischen URLs auswählen
, könnt ihr diese durch die
korrekte Implementierung von Autorisierungstechniken
so beeinflussen, dass sie die bevorzugten URLs auswählen.
Soft Error-Seiten.
Einige Hostanbieter zeigen Fehlerseiten unter Verwendung eines HTTP 200-Statuscode (also "Erfolg") anstelle eines HTTP-Fehlerstatuscode an. Beispielsweise könnte die Fehlerseite "Seite nicht gefunden" eine HTTP 200-Fehlermeldung anstelle von 404 zurückgeben, wodurch sie eine
Soft 404-Seite
wird, oder die Meldung "Dienst nicht verfügbar" kann eine 200-Fehlermeldung statt des korrekten 503 HTTP-Statuscodes zurückgeben. Wir setzen alles daran, Soft Error-Seiten zu erkennen, wenn unsere Algorithmen jedoch die Soft Error-Seiten eines Webhosts nicht erkennen, werden diese Seiten möglicherweise mit Fehler-Content indiziert. Dies kann zu Problemen beim Ranking oder der
domainübergreifenden Auswahl von URLs
führen.
Der zurückgegebene Statuscode lässt sich leicht überprüfen: Überprüft einfach die vom Server zurückgegebenen HTTP-Header mithilfe eines beliebigen Tools wie "
Abruf wie durch Googlebot
". Wenn eine Fehlerseite die Meldung HTTP 200 zurückgibt, ändert die Konfiguration so, dass der korrekte HTTP-Fehlerstatuscode zurückgegeben wird. Achtet außerdem auf Soft 404-Berichte in den Webmaster-Tools auf den Crawling-Fehlerseiten im Diagnosebereich.
Content-Änderung und Frames.
Webmaster stellen teilweise mit Erstaunen fest, dass ihre Seiteninhalte durch Hostanbieter geändert wurden, und zwar in der Regel durch Einfügen von Skripts oder Bildern auf der Seite. Webhosts können eure Inhalte auch anbieten, indem sie ihn über Frames oder iFrames in andere Seiten einbetten. Wenn ihr überprüfen möchtet, ob ein Webhost euren Inhalt unerwartet ändert, überprüft einfach den Quellcode der Seite, wie er vom Host wiedergegeben wird, und vergleicht ihn mit dem Code, den ihr hochgeladen habt.
Bedenkt, dass einige serverseitige Codeänderungen sehr nützlich sein können. Beispielsweise kann ein Server, der das
mod_pagespeed Apache-Modul
von Google oder andere Tools verwendet, euren Code in minimierter Form zurückgeben, um den Page Speed zu optimieren.
Spam und Malware.
Wir haben festgestellt, dass einige Webhosts und Bulk-Sub-Domain-Dienste häufige Quellen von Malware und Spam geworden sind. Wir versuchen, beim Schutz unserer Nutzer und bei der Suchqualität stets sehr gezielt vorzugehen, wenn wir jedoch feststellen, dass ein großer Teil der Websites auf einem bestimmten Webhost Spam oder Malware verbreitet, sehen wir uns unter Umständen gezwungen, Maßnahmen für den gesamten Webhost zu ergreifen. Damit ihr in Bezug auf Malware immer auf dem neuesten Stand bleibt, bieten wir:
Safe Browsing-Alerts für Netzwerkadministratoren
, die für Hostanbieter nützlich sind
Malware-Benachrichtigungen
in den Webmaster-Tools für individuelle Websites
Eine
Safe Browsing-API
für Entwickler
Wir hoffen, dass diese Liste sowohl Hostanbietern als auch Webmastern bei der Diagnose und Behebung dieser Probleme hilft. Beachtet im Übrigen auch die qualitativen Aspekte von Hosting, wie die Qualität des Dienstes und den hilfreichen Support. Wenn ihr weitere Fragen habt, könnt ihr diese wie gewohnt in unserem
Webmaster-Hilfeforum
stellen.
Von
Pierre Far
, Webmaster Trends Analyst (Veröffentlicht von
Dominik Zins
, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster