Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Optimiert das Crawling und die Indexierung eurer Website
Donnerstag, 13. August 2009
Viele Fragen zur Architektur von Websites, dem Crawling und der Indexierung und sogar zum Ranking hängen mit einer zentralen Frage zusammen:
Wie leicht fällt es Suchmaschinen, eure Site zu crawlen?
Wir haben uns zu diesem Thema schon häufiger geäußert und hier findet ihr unsere Präsentation mit einigen wichtigen Aussagen dazu.
Das Internet ist
riesig
: Ständig wird neuer Content erstellt. Google verfügt nur über endliche Ressourcen - wenn wir also einer nahezu unendlichen Menge an Content, der online verfügbar ist, gegenüberstehen, dann kann Googlebot naturgemäß nur einen Anteil davon finden und crawlen. Von all dem Content, den wir gecrawlt haben, können wir ebenfalls nur einen Teil indexieren.
URLs sind wie die Brücken zwischen eurer Site und den Suchmaschinen-Crawlern: Die Crawler müssen diese Brücken finden und überqueren können (d. h. eure URLs finden und crawlen) um zum Content eurer Site zu gelangen. Wenn eure URLs kompliziert oder redundant sind, werden die Crawler viel Zeit damit verbringen, den Weg hin und zurück zu finden. Wenn eure URLs hingegen gut organisiert sind und direkt zum passenden Content führen, dann können die Crawler ihre Zeit damit verbringen, euren Content zu erfassen anstatt durch leere Seiten zu navigieren oder den gleichen Content wieder und wieder über verschiedene URLs zu crawlen.
In der obigen Präsentation könnt ihr einige Beispiele sehen, was ihr eher nicht tun solltet - es sind reale Beispiele (auch wenn die Namen im Rahmen unseres Schutzprogramms geändert sind ;) von selbstgebastelten URL-Hacks und Codierungen, Parameter-Verschleierung als Teil des URL-Pfades, "endlose Weiten" und mehr. Ihr findet auch einige Empfehlungen dazu, wie ihr dieses Labyrinth aus URLs glätten könnt und so den Crawlern dabei helft, mehr eures Contents noch schneller zu finden.
Dazu gehört:
Entfernt User-spezifische Details aus den URLs.
URL-Parameter, die keinen Einfluß auf den Seiteninhalt haben, wie z. B. Session-IDs oder Sortierungsparameter, können aus einer URL entfernt werden und beispielsweise in einem Cookie platziert werden. Indem diese Informationen in ein Cookie geschrieben werden und per 301-Weiterleitung auf eine "saubere" URL verwiesen wird, behaltet ihr einerseits die Besucherrelevanten Informationen und reduziert andererseits die Zahl der URLs die auf den gleichen Content zeigen.
Haltet eure "endlosen Weiten" im Zaum.
Habt ihr einen Kalender, der auf eine unendliche Zahl vergangener und zukünftiger Daten verweist (jedes mit einer eigenen, einzigartigen URL)? Oder habt ihr Daten über mehrere Seiten verteilt, die einen
Statuscode "200"
liefern, wenn ihr z. B. &seite=3563 an die URL anhängt - selbst, wenn es gar nicht so viele Seiten gibt? Falls ja, dann habt ihr in Bezug auf das Crawling "
endlose Weiten
" auf eurer Website und die Crawler verschwenden möglicherweise ihre (und eure!) Bandbreite beim Versuch, das alles zu crawlen. Beachtet einfach
diese Tipps
um eure endlosen Weiten im Zaum zu halten.
Verhindert Aktionen, die Googlebot gar nicht ausführen kann.
Indem ihr eine
robots.txt-Datei
verwendet, könnt ihr das Crawling von Login-Seiten, Kontakt-Formularen, Warenkörben oder anderen Seiten verhindern, deren einzige Funktionalität von einem Crawler nicht ausgeführt werden kann. (Crawler sind notorisch geizig und zurückhaltend - in der Regel werden sie nichts "in den Warenkorb legen" und kein Kontakt-Formular ausfüllen). Dies lässt den Crawlern mehr Zeit, den Content zu crawlen, mit dem sie tatsächlich etwas anfangen können ;)
Eine URL, ein bestimmter Content
In einer perfekten Welt gibt es eine 1:1-Beziehung zwischen URL und Content: Jede URL führt zu einzigartigem Content, und jeder Teil des Contents kann nur mittels einer URL erreicht werden. Je näher ihr diesem Ideal kommen könnt, desto besser ist eure Site für das Crawling und die Indexierung geeignet. Falls euer CMS oder das aktuelle Setup eurer Site dies erschweren, könnt ihr das
rel=canonical Element
verwenden um die bevorzugte URL für einen bestimmten Content zu definieren.
Falls ihr weitere Fragen zur Optimierung eurer Site hinsichtlich Crawling und Indexierung habt, könnt ihr einige
unserer älteren Artikel
(Englisch) dazu lesen oder auch in unserem
Forum für Webmaster
vorbeischauen.
Optimize your crawling & indexing (English version)
Post von Susan Moskwa, Webmaster Trends Analyst (Übersetzung von Sven, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster