Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Optimiert das Crawling und die Indexierung eurer Website
Donnerstag, 13. August 2009
Viele Fragen zur Architektur von Websites, dem Crawling und der Indexierung und sogar zum Ranking hängen mit einer zentralen Frage zusammen:
Wie leicht fällt es Suchmaschinen, eure Site zu crawlen?
Wir haben uns zu diesem Thema schon häufiger geäußert und hier findet ihr unsere Präsentation mit einigen wichtigen Aussagen dazu.
Das Internet ist
riesig
: Ständig wird neuer Content erstellt. Google verfügt nur über endliche Ressourcen - wenn wir also einer nahezu unendlichen Menge an Content, der online verfügbar ist, gegenüberstehen, dann kann Googlebot naturgemäß nur einen Anteil davon finden und crawlen. Von all dem Content, den wir gecrawlt haben, können wir ebenfalls nur einen Teil indexieren.
URLs sind wie die Brücken zwischen eurer Site und den Suchmaschinen-Crawlern: Die Crawler müssen diese Brücken finden und überqueren können (d. h. eure URLs finden und crawlen) um zum Content eurer Site zu gelangen. Wenn eure URLs kompliziert oder redundant sind, werden die Crawler viel Zeit damit verbringen, den Weg hin und zurück zu finden. Wenn eure URLs hingegen gut organisiert sind und direkt zum passenden Content führen, dann können die Crawler ihre Zeit damit verbringen, euren Content zu erfassen anstatt durch leere Seiten zu navigieren oder den gleichen Content wieder und wieder über verschiedene URLs zu crawlen.
In der obigen Präsentation könnt ihr einige Beispiele sehen, was ihr eher nicht tun solltet - es sind reale Beispiele (auch wenn die Namen im Rahmen unseres Schutzprogramms geändert sind ;) von selbstgebastelten URL-Hacks und Codierungen, Parameter-Verschleierung als Teil des URL-Pfades, "endlose Weiten" und mehr. Ihr findet auch einige Empfehlungen dazu, wie ihr dieses Labyrinth aus URLs glätten könnt und so den Crawlern dabei helft, mehr eures Contents noch schneller zu finden.
Dazu gehört:
Entfernt User-spezifische Details aus den URLs.
URL-Parameter, die keinen Einfluß auf den Seiteninhalt haben, wie z. B. Session-IDs oder Sortierungsparameter, können aus einer URL entfernt werden und beispielsweise in einem Cookie platziert werden. Indem diese Informationen in ein Cookie geschrieben werden und per 301-Weiterleitung auf eine "saubere" URL verwiesen wird, behaltet ihr einerseits die Besucherrelevanten Informationen und reduziert andererseits die Zahl der URLs die auf den gleichen Content zeigen.
Haltet eure "endlosen Weiten" im Zaum.
Habt ihr einen Kalender, der auf eine unendliche Zahl vergangener und zukünftiger Daten verweist (jedes mit einer eigenen, einzigartigen URL)? Oder habt ihr Daten über mehrere Seiten verteilt, die einen
Statuscode "200"
liefern, wenn ihr z. B. &seite=3563 an die URL anhängt - selbst, wenn es gar nicht so viele Seiten gibt? Falls ja, dann habt ihr in Bezug auf das Crawling "
endlose Weiten
" auf eurer Website und die Crawler verschwenden möglicherweise ihre (und eure!) Bandbreite beim Versuch, das alles zu crawlen. Beachtet einfach
diese Tipps
um eure endlosen Weiten im Zaum zu halten.
Verhindert Aktionen, die Googlebot gar nicht ausführen kann.
Indem ihr eine
robots.txt-Datei
verwendet, könnt ihr das Crawling von Login-Seiten, Kontakt-Formularen, Warenkörben oder anderen Seiten verhindern, deren einzige Funktionalität von einem Crawler nicht ausgeführt werden kann. (Crawler sind notorisch geizig und zurückhaltend - in der Regel werden sie nichts "in den Warenkorb legen" und kein Kontakt-Formular ausfüllen). Dies lässt den Crawlern mehr Zeit, den Content zu crawlen, mit dem sie tatsächlich etwas anfangen können ;)
Eine URL, ein bestimmter Content
In einer perfekten Welt gibt es eine 1:1-Beziehung zwischen URL und Content: Jede URL führt zu einzigartigem Content, und jeder Teil des Contents kann nur mittels einer URL erreicht werden. Je näher ihr diesem Ideal kommen könnt, desto besser ist eure Site für das Crawling und die Indexierung geeignet. Falls euer CMS oder das aktuelle Setup eurer Site dies erschweren, könnt ihr das
rel=canonical Element
verwenden um die bevorzugte URL für einen bestimmten Content zu definieren.
Falls ihr weitere Fragen zur Optimierung eurer Site hinsichtlich Crawling und Indexierung habt, könnt ihr einige
unserer älteren Artikel
(Englisch) dazu lesen oder auch in unserem
Forum für Webmaster
vorbeischauen.
Optimize your crawling & indexing (English version)
Post von Susan Moskwa, Webmaster Trends Analyst (Übersetzung von Sven, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
2019
Dez
Nov
Okt
Sep
Jun
Mai
Feb
Jan
2018
Dez
Nov
Okt
Sep
Jul
Jun
Mai
Apr
Feb
Jan
2017
Dez
Nov
Jun
Apr
Mär
Jan
2016
Nov
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Jan
2015
Dez
Nov
Okt
Sep
Aug
Jul
Mai
Apr
Mär
Feb
Jan
2014
Nov
Okt
Sep
Aug
Jun
Mai
Apr
Mär
Feb
Jan
2013
Dez
Nov
Okt
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2012
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2011
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2010
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2009
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2008
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2007
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster