Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Was Crawl-Budget für Googlebot bedeutet
Montag, 16. Januar 2017
In letzter Zeit machten verschiedene Definitionen für "Crawl Budget" bzw. "Crawling-Budget" die Runde. Allerdings haben wir bis jetzt keine treffende Bezeichnung für das, was mit "Crawling-Budget" aus externer Sicht gemeint ist. Mit diesem Post möchten wir diesen Begriff und seine Bedeutung für den Googlebot genauer erläutern.
In der Regel müssen sich Publisher um das im Folgenden beschriebene Crawling-Budget keine Gedanken machen. Wenn neue Seiten tendenziell am Tag ihrer Veröffentlichung gecrawlt werden, muss sich der Webmaster nicht um das Crawling-Budget kümmern. Außerdem wird eine Website mit weniger als ein paar Tausend URLs meistens effizient gecrawlt.
Die Priorisierung, was wann gecrawlt werden soll und wie viele Ressourcen der Server, der die Website hostet, für das Crawling bereitstellen kann, ist eher für größere Websites wichtig bzw. für Websites, die zum Beispiel Seiten automatisch auf der Grundlage von URL-Parametern erstellen.
Begrenzung der Crawling-Frequenz
Der Googlebot ist ein verantwortungsvoller Akteur im Web. Seine wichtigste Aufgabe ist das Crawling, ohne dabei die Nutzererfahrung auf der betreffenden Website zu beeinträchtigen. Mit der sogenannten "Crawling-Frequenz" wird die maximale Abrufrate für eine bestimmte Website begrenzt.
Einfach ausgedrückt ist dies die Anzahl der gleichzeitigen parallelen Verbindungen, die der Googlebot zum Crawlen der Website nutzen kann, sowie die Zeit, die er zwischen den Abrufvorgängen warten muss. Die Crawling-Frequenz kann sich abhängig von den folgenden beiden Faktoren erhöhen oder verringern:
Crawling-Kapazität: Wenn die Website über einen bestimmten Zeitraum schnell reagiert, erhöht sich die Frequenz, sodass mehr Verbindungen für das Crawling genutzt werden können. Wenn die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich das Limit und der Googlebot crawlt weniger.
In der Search Console festgelegte Begrenzung
: Website-Inhaber können das Crawling ihrer Website durch den Googlebot reduzieren. Eine Einstellung auf höhere Werte erhöht jedoch nicht automatisch das Crawling.
Crawling-Bedarf
Wenn für das Indexieren kein Bedarf besteht, geht nur geringe Aktivität vom Googlebot aus, auch wenn das Limit der Crawling-Frequenz noch nicht erreicht ist. Zum Feststellen des Crawling-Bedarfs sind die folgenden beiden Faktoren ausschlaggebend:
Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, um sie in unserem Index auf dem neuesten Stand zu halten.
Veralteter Status: Unsere Systeme versuchen zu verhindern, dass sich veraltete URLs im Index befinden.
Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.
Crawling-Frequenz und Crawling-Bedarf zusammen ergeben das Crawling-Budget. Nach unserer Definition ist damit also die Anzahl der URLs gemeint, die der Googlebot crawlen kann und will.
Faktoren, die sich auf das Crawling-Budget auswirken
Gemäß unserer Analyse kann es sich negativ auf das Crawling und die Indexierung einer Website auswirken, wenn zahlreiche URLs mit geringem Mehrwert vorhanden sind. Nach unseren Erkenntnissen können URLs mit geringem Mehrwert in die folgenden, nach ihrer Bedeutung aufgeführten Kategorien unterteilt werden:
Facettierte Navigation
und
Sitzungskennungen
Duplizierte Inhalte auf der Website
Soft Error-Seiten
Gehackte Seiten
Unbegrenzte Bereiche
und Proxys
Inhalte von geringer Qualität und Spam
Die Verschwendung von Serverressourcen für derartige Seiten geht zulasten von Crawling-Aktivitäten von Seiten, die tatsächlichen Mehrwert haben. Dadurch werden gute Inhalte auf einer Website unter Umständen erst mit deutlicher Verzögerung gefunden.
Wichtige Fragen
Das Crawling ist der Einstiegspunkt für Websites in die Suchergebnisse von Google. Effizientes Crawling hilft bei der Indexierung einer Website in der Google-Suche.
F: Hat die Geschwindigkeit der Website Einfluss auf mein Crawling-Budget? Wie sieht es mit Fehlern aus?
A: Je schneller eine Website ist, desto besser ist die Nutzererfahrung und desto höher ist auch die Crawling-Frequenz. Für den Googlebot ist eine schnelle Website ein Zeichen für gut funktionierende Server. So kann er mehr Inhalte über die gleiche Anzahl von Verbindungen abrufen. Auf der anderen Seite deuten zahlreiche 5xx-Fehler oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich.
Wir empfehlen, den
Crawling-Fehlerbericht in der Search Console
zu beachten und die Anzahl der Serverfehler möglichst gering zu halten.
F: Ist das Crawling ein Faktor für das Ranking?
A: Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. Google nutzt Hunderte Signale für das Ranking der Ergebnisse. Das Crawling ist zwar notwendig, um in den Ergebnissen zu erscheinen, aber kein Ranking-Signal.
F: Werden alternative URLs und eingebettete Inhalte in das Crawling-Budget eingerechnet?
A: Generell wird jede URL, die der Googlebot crawlt, in das Crawling-Budget einer Website eingerechnet. Alternative URLs wie etwa AMP oder hreflang sowie eingebettete Inhalte wie CSS und JavaScript müssen unter Umständen gecrawlt werden und fließen in das Crawling-Budget einer Website ein. Ebenso können sich lange Weiterleitungsketten negativ auf das Crawling auswirken.
F: Kann ich den Googlebot mit der Anweisung "crawl-delay" steuern?
A: Die nicht standardmäßige Robots.txt-Anweisung "crawl-delay" wird vom Googlebot nicht verarbeitet.
F: Hat die "nofollow"-Anweisung einen Einfluß auf das Crawl Budget?
A: Je nachdem. Jede URL, die gecrawlt wird, beeinflusst das Crawl Budget, also selbst wenn eure Seite eine URL mit "nofollow" auszeichnet, kann sie ja dennoch gecrawlt werden, falls z. B. eine andere Seite eurer Website oder eine andere Seite im Web darauf verweist und kein "nofollow" enthält.
Weitere Informationen zum Optimieren des Crawlings eurer Website findet ihr in unserem Blogpost zur
Crawling-Optimierung
aus dem Jahr 2009, der immer noch aktuell ist. Eure Fragen
könnt ihr in den Foren stellen
.
Post von
Gary
, Crawling- und Indexing-Team
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster