Mit der Option "Nur URLs mit Wert=x crawlen" könnt ihr nun auch euren eigenen gewünschten Wert angeben; ihr seid also nicht mehr an die von uns bereitgestellte Wertliste gebunden. Ihr könnt optional auch genau festlegen, was der Parameter bewirkt, ob Sortierung, Seitenauswahl, Inhaltsermittlung usw. Eine letzte Verbesserung ist, dass möglichst für jeden Parameter einige Beispiel-URLs aus eurer Website angezeigt werden, die den betreffenden Parameter enthalten und vom Googlebot gecrawlt wurden.
Von den vier oben genannten Crawling-Optionen verdient die neue Option "Keine URLs" besondere Aufmerksamkeit. Diese Option bewirkt die stärkste Beschränkung. Sie hat immer Vorrang vor allen anderen Einstellungen, welche die in einer URL enthaltenen Parameter betreffen. Wenn also eine URL einen Parameter enthält, für den die Option "Keine URLs" festgelegt wurde, wird diese URL nie gecrawlt, selbst wenn für andere Parameter in der URL "Jede URL" festgelegt wurde. Gehen Sie mit dieser Option vorsichtig um. Die am zweitstärksten beschränkende Einstellung ist "Nur URLs mit Wert=x".
Praktische Anwendung der Funktion
Doch genug der grauen Theorie – sehen wir uns ein praktisches Bespiel an!
---
Es war einmal ein Online-Shop, fairyclothes.example.com. In den URLs der Shop-Website wurden Parameter verwendet und dieselben Seiteninhalte konnten über mehrere URLs aufgerufen werden. Eines Tages bemerkte der Inhaber des Online-Shops, dass die Website möglicherweise aufgrund einer zu hohen Anzahl redundanter URLs nicht gründlich vom Googlebot gecrawlt wird. Also sandte er seinen neugierigen Lehrling zum großen Zauberer Webwizard. Er sollte sich darüber erkundigen, wie man mit der URL-Parameter-Funktion erreichen kann, dass der Googlebot weniger doppelte Inhalte crawlt. Der Zauberer Webwizard war berühmt für seine Weisheit. Er sah sich die URL-Parameter an und schlug die folgende Konfiguration vor:
Der Lehrling begann, wie es seine Art war, neugierige Fragen zu stellen:
Lehrling: Du hast den Googlebot angewiesen, eine stellvertretende URL für trackingId zu crawlen, wobei der Wert vom Googlebot ausgewählt wird. Könnte ich nicht auch die Option "Nur URLs mit Wert=x" verwenden und den Wert selbst auswählen?
Zauberer: Beim Web-Crawling hat der Googlebot die folgenden URLs gefunden, die mit deiner Website verknüpft sind:
- fairyclothes.example.com/skirts/?trackingId=aaa123
- fairyclothes.example.com/skirts/?trackingId=aaa124
- fairyclothes.example.com/trousers/?trackingId=aaa125
Stell dir vor, du würdest den Googlebot anweisen, nur URLs zu crawlen, bei denen "trackingId=aaa125" ist. In diesem Fall würden die URLs 1 und 2 nicht vom Googlebot gecrawlt, da keine von ihnen für "trackingId" den Wert "aaa125" aufweist. Der Inhalt dieser URLs würde weder gecrawlt, noch indexiert, und kein einziger deiner angebotenen Damenröcke würde in den Suchergebnissen von Google erscheinen. Daher ist in diesem Fall die Auswahl einer stellvertretenden URL die beste Variante. Warum? Weil dadurch festgelegt wird, dass der Googlebot, wenn er im Web auf zwei URLs stößt, die sich nur hinsichtlich dieses Parameters unterscheiden (so wie es bei den URLs 1 und 2 oben der Fall ist), nur eine dieser URLs zu crawlen braucht, egal welche. Alle Inhalte werden erfasst. Im Beispiel oben werden zwei URLs gecrawlt, entweder 1 und 3 oder 2 und 3. So geht keine Hose und kein Rock verloren.
Lehrling: Und warum hast du den sortOrder-Parameter so gewählt? Es ist mir nicht wichtig, ob die Artikel in auf- oder absteigender Reihenfolge aufgeführt sind. Warum soll Google nicht einfach einen stellvertretenden Wert auswählen?
Zauberer: Der Googlebot könnte beim Crawlen die folgenden URLs finden:
- fairyclothes.example.com/skirts/?page=1&sortBy=price&sortOrder='lowToHigh'
- fairyclothes.example.com/skirts/?page=1&sortBy=price&sortOrder='highToLow'
- fairyclothes.example.com/skirts/?page=2&sortBy=price&sortOrder='lowToHigh'
- fairyclothes.example.com/skirts/?page=2&sortBy=price&sortOrder=' highToLow'
Beachte, dass die beiden URL-Paare (1 und 2; 3 und 4) sich jeweils nur durch den Wert des sortOrder-Parameters unterscheiden. Allerdings geben die URLs 1 und 2 unterschiedliche Inhalte wieder: unter der ersten URL wird der günstigste Rock zuerst angezeigt, unter der zweiten URL kommt der teuerste zuerst. Dadurch wird schon deutlich, dass die Verwendung eines einzigen stellvertretenden Wertes in dem Fall keine gute Lösung ist. Wenn du den Googlebot eine einzige stellvertretende URL aus einer Gruppe von URLs auswählen lässt, die sich nur hinsichtlich des sortOrder-Parameters unterscheiden, kann es außerdem passieren, dass jedes Mal ein anderer Wert ausgewählt wird. Nehmen wir an, im Beispiel oben wird aus dem ersten URL-Paar die URL 1 ausgewählt (sortOrder='lowToHigh'). Vom zweiten URL-Paar könnte zum Beispiel die URL 4 ausgewählt werden (sortOrder=' highToLow'). Wenn das passiert, crawlt der Googlebot nur die günstigsten Röcke, und zwar zweimal:
- fairyclothes.example.com/skirts/?page=1&sortBy=price&sortOrder='lowToHigh'
- fairyclothes.example.com/skirts/?page=2&sortBy=price&sortOrder=' highToLow'
Die teuersten Röcke würden überhaupt nicht gecrawlt. Bei Sortierparametern ist Konsistenz sehr wichtig. Sortiere immer einheitlich.
Lehrling: Wie ist der sortBy-Wert zu erklären?
Zauberer: Bei diesem Wert gilt Ähnliches wie beim sortOrder-Attribut. Die gecrawlten URLs deines Eintrags sollten über alle Seiten hinweg konsistent sortiert sein, sonst könnten einige Artikel für den Googlebot verborgen bleiben. Wähle den Wert allerdings mit Bedacht aus. Wenn du in deinem Online-Shop sowohl Bücher als auch Schuhe anbietest, solltest du nicht den Wert 'title' auswählen, da URLs zu Schuhseiten nie 'sortBy=title' enthalten und diese Seiten daher nicht gecrawlt würden. Dagegen funktioniert die Einstellung 'sortBy=size' gut beim Crawlen von Schuhen, aber nicht von Büchern. Sei dir immer bewusst, dass die Konfiguration der Parameter sich auf die gesamte Website auswirkt.
Lehrling: Warum ist es nicht empfehlenswert, URLs mit dem Parameter 'filterByColor' zu crawlen?
Zauberer: Stell dir vor, du hast eine dreiseitige Liste mit Röcken. Einige davon sind blau, einige rot und andere grün.
- fairyclothes.example.com/skirts/?page=1
- fairyclothes.example.com/skirts/?page=2
- fairyclothes.example.com/skirts/?page=3
Diese Liste kann gefiltert werden. Wenn ein Nutzer eine Farbe auswählt, werden zwei Seiten mit blauen Röcken angezeigt:
- fairyclothes.example.com/skirts/?page=1&flterByColor=blue
- fairyclothes.example.com/skirts/?page=2&flterByColor=blue
Sie sehen aus wie neue Seiten, denn die Zusammenstellung der Artikel unterscheidet sich von allen anderen Seiten. In Wirklichkeit sind aber auf den Seiten keine neuen Inhalte vorhanden, da alle blauen Röcke bereits auf den ursprünglichen drei Seiten enthalten waren. Es ist nicht nötig, URLs zu crawlen, die Inhalte nach Farbe eingrenzen, da die unter diesen URLs gehosteten Inhalte bereits gecrawlt wurden. Eines solltest du immer bedenken: Bevor du durch die Option "Keine URLs" das Crawling für einige URLs unterbindest, vergewissere dich, dass der Googlebot auf anderem Wege auf die Inhalte zugreifen kann. Auf unser Beispiel bezogen bedeutet das, dass der Googlebot die ersten drei Links auf deiner Website finden können sollte; keine Einstellung sollte das Crawling dieser drei Links verhindern.
---
Wenn bei eurer Website URL-Parameter verwendet werden, die potenziell Probleme mit doppelten Inhalten verursachen können, solltet ihr euch die neue URL-Parameter-Funktion in den Webmaster-Tools ansehen. Teilt uns eure Meinung dazu mit. Falls ihr Fragen habt, könnt ihr sie im Webmaster-Tools-Hilfeforum posten.
Autor: Kamila Primke, Softwareexpertin, Webmaster-Tools-Team (Veröffentlicht von Dominik Zins, Search Quality)