Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Neues robots.txt-Feature und REP Meta-Tags
Freitag, 17. August 2007
Wir haben unser robots.txt-Analyse-Tool in der Webmaster-Zentrale verbessert mit dessen Hilfe man Sitemapsangaben und relative Urls erkennen kann. Frühere Versionen berücksichtigten Sitemaps in keiner Weise und konnten nur absolute Urls interpretieren. Alles andere erzeugte die Meldung "Syntax nicht verstanden".
Diese Fehlermeldungen haben wir auch verbessert. Sofern mehrere Fehler existieren, bekommt ihr diese nun alle in einer Zeile angezeigt, im Gegensatz zu früheren Versionen, die jeweils nur den ersten Fehler ausgaben. Ebenso haben wir andere allgemeine Verbesserungen an der Analyse und der Validierung vorgenommen.
Stellt euch vor, ihr seid für die Domain www.example.com verantwortlich, und ihr möchtet, dass die Suchmaschine eure gesamte Website mit Ausnahme des Ordners /images indexiert. Zudem wollt ihr sicherstellen, dass eure Sitemap berücksichtigt wird und gebt dementsprechend Folgendes in eurer robots.txt-Datei an:
disalow images
user-agent: *
Disallow:
sitemap: http://www.example.com/sitemap.xml
Ihr geht zur Webmaster-Zentrale, um eure Website gegen das robots.txt-Analyse-Tool zu testen, wobei ihr diese beiden Urls benutzt:
http://www.example.com
/archives
Ältere Versionen dieses Tools hätten folgende Meldung ausgegeben:
Die verbesserte Version gibt mehr Informationen über die robots.txt-Datei:
Probiert es selbst in den
Webmaster-Tools.
Ebenso wollen wir sicherstellen, dass ihr von dem neuen unavailable_after Meta-Tag gehört habt, den Dan Crow vor einigen Wochen im
Official Google Blog
vorgestellt hat. Dieser Tag erlaubt eine dynamischere Beziehung zwischen eurer Website und dem Googlebot. Das bedeutet, wenn ihr zum Beispiel auf www.example.com eine nur vorübergehend veröffentlichte Nachricht habt oder eine Seite mit nur begrenzt erhältlichen Angeboten oder Promotions, dann könnt ihr jetzt exakt das Datum und die Zeit festlegen, wann der Googlebot bestimmte Seiten von euch crawlen und indexieren soll.
Angenommen, ihr habt eine Promotion laufen, die Ende 2007 zu Ende ist. Im Header der Seite www.example.com/2007promotion.html würdet ihr dann Folgendes festlegen:
<META NAME="GOOGLEBOT"
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">
Die zweite interessante Neuigkeit: Eine neue robots.txt-Richtlinie, die beinhaltet, dass nun das
Robots Exclusion Protocol
(REP) Meta-Tag auch für Nicht-HTML-Seiten unterstützt wird! Damit könnt ihr nun eure Videos, Spreadsheets und andere indexierte Dateitypen in derselben Weise kontrollieren. Um auf das oben genannte Beispiel zurückzukommen, lasst uns annehmen, eure Promotionsseite ist im PDF-Format. Für
www.example.com/2007promotion.pdf
würdet ihr Folgendes verwenden:
X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST
Denkt daran, dass REP META-Tags hilfreich beim Implementieren von noarchive, nosnippet and jetzt auch unavailable_after Tags sein können, um Anweisungen auf Seitenebene geben. Im Gegensatz dazu setzt das robots.txt an der Domainebene an. Diese Features haben wir auf Anfragen von Bloggern und Webmastern eingebaut - habt also Spaß damit. Sofern ihr andere Vorschläge habt: lasst es uns wissen! Noch Fragen? Bitte stellt diese in der
Google Diskussiongruppe für Webmaster
.
Original
Post von John Blackburn, Webmaster Tools and Matt Dougherty, Search Quality
(Übersetzung von Claudia, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster