Google Webmaster-Zentrale Blog [DE]: Neues robots.txt-Feature und REP Meta-Tags

Webmaster-Zentrale Blog

Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster

Neues robots.txt-Feature und REP Meta-Tags

Freitag, 17. August 2007

Wir haben unser robots.txt-Analyse-Tool in der Webmaster-Zentrale verbessert mit dessen Hilfe man Sitemapsangaben und relative Urls erkennen kann. Frühere Versionen berücksichtigten Sitemaps in keiner Weise und konnten nur absolute Urls interpretieren. Alles andere erzeugte die Meldung "Syntax nicht verstanden".Diese Fehlermeldungen haben wir auch verbessert. Sofern mehrere Fehler existieren, bekommt ihr diese nun alle in einer Zeile angezeigt, im Gegensatz zu früheren Versionen, die jeweils nur den ersten Fehler ausgaben. Ebenso haben wir andere allgemeine Verbesserungen an der Analyse und der Validierung vorgenommen.Stellt euch vor, ihr seid für die Domain www.example.com verantwortlich, und ihr möchtet, dass die Suchmaschine eure gesamte Website mit Ausnahme des Ordners /images indexiert. Zudem wollt ihr sicherstellen, dass eure Sitemap berücksichtigt wird und gebt dementsprechend Folgendes in eurer robots.txt-Datei an:
disalow images

user-agent: *
Disallow:

sitemap: http://www.example.com/sitemap.xml

Ihr geht zur Webmaster-Zentrale, um eure Website gegen das robots.txt-Analyse-Tool zu testen, wobei ihr diese beiden Urls benutzt:
http://www.example.com
/archivesÄltere Versionen dieses Tools hätten folgende Meldung ausgegeben:

Die verbesserte Version gibt mehr Informationen über die robots.txt-Datei:

Probiert es selbst in den Webmaster-Tools.

Ebenso wollen wir sicherstellen, dass ihr von dem neuen unavailable_after Meta-Tag gehört habt, den Dan Crow vor einigen Wochen im Official Google Blog vorgestellt hat. Dieser Tag erlaubt eine dynamischere Beziehung zwischen eurer Website und dem Googlebot. Das bedeutet, wenn ihr zum Beispiel auf www.example.com eine nur vorübergehend veröffentlichte Nachricht habt oder eine Seite mit nur begrenzt erhältlichen Angeboten oder Promotions, dann könnt ihr jetzt exakt das Datum und die Zeit festlegen, wann der Googlebot bestimmte Seiten von euch crawlen und indexieren soll.

Angenommen, ihr habt eine Promotion laufen, die Ende 2007 zu Ende ist. Im Header der Seite www.example.com/2007promotion.html würdet ihr dann Folgendes festlegen:

<META NAME="GOOGLEBOT"
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">

Die zweite interessante Neuigkeit: Eine neue robots.txt-Richtlinie, die beinhaltet, dass nun das Robots Exclusion Protocol (REP) Meta-Tag auch für Nicht-HTML-Seiten unterstützt wird! Damit könnt ihr nun eure Videos, Spreadsheets und andere indexierte Dateitypen in derselben Weise kontrollieren. Um auf das oben genannte Beispiel zurückzukommen, lasst uns annehmen, eure Promotionsseite ist im PDF-Format. Für www.example.com/2007promotion.pdf würdet ihr Folgendes verwenden:

X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST

Denkt daran, dass REP META-Tags hilfreich beim Implementieren von noarchive, nosnippet and jetzt auch unavailable_after Tags sein können, um Anweisungen auf Seitenebene geben. Im Gegensatz dazu setzt das robots.txt an der Domainebene an. Diese Features haben wir auf Anfragen von Bloggern und Webmastern eingebaut - habt also Spaß damit. Sofern ihr andere Vorschläge habt: lasst es uns wissen! Noch Fragen? Bitte stellt diese in der Google Diskussiongruppe für Webmaster.

Original

Post von John Blackburn, Webmaster Tools and Matt Dougherty, Search Quality
(Übersetzung von Claudia, Search Quality)

Google

Labels: robots.txt , Webmaster-Tools

Labels

#NoHacked 2
2017 1
Accessibility 13
AJAX 1
AMP 7
Android 2
api 1
App-Indexierung 3
Best Practices 99
Bildersuche 2
captcha 1
Chrome 4
Code 12
Crawling 1
Crawling und Indexierung 126
Diskussionsforum 15
Duplicate Content 17
Dynamic Rendering 1
Einsteiger 8
Event 1
events 1
Feedback 1
Geo-Targeting 11
Google Analytics 6
Google Dance 1
Google News 1
Google Places 4
Google-Assistant 1
Google-Suche 59
Google+ 9
Hacking 16
Hangouts 1
https 3
JavaScript 3
Kanonische URL 1
Kommentare 1
Konferenz 19
Lighthouse 3
Links 18
Malware 17
Mobile 38
Mobile-first indexing 1
Nachrichten-Center 16
Optimisation 3
PageSpeed Insights 2
Penalties 1
Performance 3
Ranking 1
reCaptcha v3 1
Rendering 2
Rich Snippets 18
Richtlinien für Webmaster 36
robots.txt 7
Safe Browsing 5
Search Console 19
Search Results 1
Security 4
Seitenzugriff 1
SEO 4
Sicherheit 38
Site Clinic 5
Sitemaps 30
Spam Report 9
SSL 1
Structured Data 8
Tools und Gadgets 17
Verschlüsselung 1
Video 132
Webmaster blog 1
Webmaster Community 1
Webmaster-Academy 1
Webmaster-Tools 154
webspam 3

Archiv

2020
- Nov.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Feb.

2019
- Dez.
- Nov.
- Okt.
- Sept.
- Juni
- Mai
- Feb.
- Jan.

2018
- Dez.
- Nov.
- Okt.
- Sept.
- Juli
- Juni
- Mai
- Apr.
- Feb.
- Jan.

2017
- Dez.
- Nov.
- Juni
- Apr.
- März
- Jan.

2016
- Nov.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Jan.

2015
- Dez.
- Nov.
- Okt.
- Sept.
- Aug.
- Juli
- Mai
- Apr.
- März
- Feb.
- Jan.

2014
- Nov.
- Okt.
- Sept.
- Aug.
- Juni
- Mai
- Apr.
- März
- Feb.
- Jan.

2013
- Dez.
- Nov.
- Okt.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Feb.
- Jan.

2012
- Dez.
- Nov.
- Okt.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Feb.
- Jan.

2011
- Dez.
- Nov.
- Okt.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Feb.
- Jan.

2010
- Dez.
- Nov.
- Okt.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Feb.
- Jan.

2009
- Dez.
- Nov.
- Okt.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Feb.
- Jan.

2008
- Dez.
- Nov.
- Okt.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März
- Feb.
- Jan.

2007
- Dez.
- Nov.
- Okt.
- Sept.
- Aug.
- Juli
- Juni
- Mai
- Apr.
- März

Feed

Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster

Google
Privacy
Terms