Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Neues robots.txt-Feature und REP Meta-Tags
Freitag, 17. August 2007
Wir haben unser robots.txt-Analyse-Tool in der Webmaster-Zentrale verbessert mit dessen Hilfe man Sitemapsangaben und relative Urls erkennen kann. Frühere Versionen berücksichtigten Sitemaps in keiner Weise und konnten nur absolute Urls interpretieren. Alles andere erzeugte die Meldung "Syntax nicht verstanden".
Diese Fehlermeldungen haben wir auch verbessert. Sofern mehrere Fehler existieren, bekommt ihr diese nun alle in einer Zeile angezeigt, im Gegensatz zu früheren Versionen, die jeweils nur den ersten Fehler ausgaben. Ebenso haben wir andere allgemeine Verbesserungen an der Analyse und der Validierung vorgenommen.
Stellt euch vor, ihr seid für die Domain www.example.com verantwortlich, und ihr möchtet, dass die Suchmaschine eure gesamte Website mit Ausnahme des Ordners /images indexiert. Zudem wollt ihr sicherstellen, dass eure Sitemap berücksichtigt wird und gebt dementsprechend Folgendes in eurer robots.txt-Datei an:
disalow images
user-agent: *
Disallow:
sitemap: http://www.example.com/sitemap.xml
Ihr geht zur Webmaster-Zentrale, um eure Website gegen das robots.txt-Analyse-Tool zu testen, wobei ihr diese beiden Urls benutzt:
http://www.example.com
/archives
Ältere Versionen dieses Tools hätten folgende Meldung ausgegeben:
Die verbesserte Version gibt mehr Informationen über die robots.txt-Datei:
Probiert es selbst in den
Webmaster-Tools.
Ebenso wollen wir sicherstellen, dass ihr von dem neuen unavailable_after Meta-Tag gehört habt, den Dan Crow vor einigen Wochen im
Official Google Blog
vorgestellt hat. Dieser Tag erlaubt eine dynamischere Beziehung zwischen eurer Website und dem Googlebot. Das bedeutet, wenn ihr zum Beispiel auf www.example.com eine nur vorübergehend veröffentlichte Nachricht habt oder eine Seite mit nur begrenzt erhältlichen Angeboten oder Promotions, dann könnt ihr jetzt exakt das Datum und die Zeit festlegen, wann der Googlebot bestimmte Seiten von euch crawlen und indexieren soll.
Angenommen, ihr habt eine Promotion laufen, die Ende 2007 zu Ende ist. Im Header der Seite www.example.com/2007promotion.html würdet ihr dann Folgendes festlegen:
<META NAME="GOOGLEBOT"
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">
Die zweite interessante Neuigkeit: Eine neue robots.txt-Richtlinie, die beinhaltet, dass nun das
Robots Exclusion Protocol
(REP) Meta-Tag auch für Nicht-HTML-Seiten unterstützt wird! Damit könnt ihr nun eure Videos, Spreadsheets und andere indexierte Dateitypen in derselben Weise kontrollieren. Um auf das oben genannte Beispiel zurückzukommen, lasst uns annehmen, eure Promotionsseite ist im PDF-Format. Für
www.example.com/2007promotion.pdf
würdet ihr Folgendes verwenden:
X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST
Denkt daran, dass REP META-Tags hilfreich beim Implementieren von noarchive, nosnippet and jetzt auch unavailable_after Tags sein können, um Anweisungen auf Seitenebene geben. Im Gegensatz dazu setzt das robots.txt an der Domainebene an. Diese Features haben wir auf Anfragen von Bloggern und Webmastern eingebaut - habt also Spaß damit. Sofern ihr andere Vorschläge habt: lasst es uns wissen! Noch Fragen? Bitte stellt diese in der
Google Diskussiongruppe für Webmaster
.
Original
Post von John Blackburn, Webmaster Tools and Matt Dougherty, Search Quality
(Übersetzung von Claudia, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
2019
Dez
Nov
Okt
Sep
Jun
Mai
Feb
Jan
2018
Dez
Nov
Okt
Sep
Jul
Jun
Mai
Apr
Feb
Jan
2017
Dez
Nov
Jun
Apr
Mär
Jan
2016
Nov
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Jan
2015
Dez
Nov
Okt
Sep
Aug
Jul
Mai
Apr
Mär
Feb
Jan
2014
Nov
Okt
Sep
Aug
Jun
Mai
Apr
Mär
Feb
Jan
2013
Dez
Nov
Okt
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2012
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2011
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2010
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2009
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2008
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2007
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster