Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Ähnliche Produkte: Neue Produktfunktion in der Google Bildersuche
Dienstag, 11. April 2017
In der Bildersuche im mobilen Web und in der Google App unter Android gibt es seit Kurzem eine neue Funktion. Mit "Ähnliche Produkte" können Nutzer Produkte finden, die sie auf Fotos in der Google Bildersuche entdeckt haben. Mithilfe von maschinellem Sehen erkennt die Funktion Produkte auf Bildern und zeigt dem Nutzer ähnliche Artikel. Dies funktioniert momentan für Handtaschen, Sonnenbrillen und Schuhe. In den nächsten Monaten werden weitere Produkte aus den Bereichen Bekleidung sowie Haus und Garten dazukommen.
Mit der Funktion "Ähnliche Produkte" können Nutzer sich von Mode- und Produktfotos inspirieren lassen und direkt Infos zu den Produkten erhalten, für die sie sich interessieren. Probiert es mal aus und seht euch zum Beispiel ein paar Bildergebnisse zu [designer handtaschen] an.
Informationen zu Preisen und Verfügbarkeit in der Bildersuche war die am stärksten nachgefragte Funktion von Nutzern. Das Karussell mit ähnlichen Produkten verzeichnet täglich Millionen von Impressionen und Klicks aus aller Welt.
Wenn eure Produkte auch für diese Funktion infrage kommen sollen, achtet darauf,
Schema.org-Produktmetadaten
auf euren Seiten hinzuzufügen. Das
Produkt-Markup
von schema.org hilft Google dabei, Produktangebote im Web zu finden und Nutzern einen Überblick über das Produkt zu geben.
Damit eure Produkte für die neue Funktion infrage kommen, solltet ihr auf Folgendes achten:
Die Produktangebote auf euren Seiten sollten über ein
Schema.org-Produkt-Markup
verfügen, einschließlich eines Bildverweises. Produkte mit Metadaten zu Name, Bild, Preis und Währung sowie Verfügbarkeit auf ihrer Hostseite können in den ähnlichen Produkten erscheinen.
Testet eure Seiten mit unserem
Test-Tool für strukturierte Daten
, um sicherzugehen, dass das Produkt-Markup richtig formatiert ist.
Seht euch eure Bilder in der Bildersuche an, indem ihr nach "site:ihrebeispielurl.de" sucht. Bei Ergebnissen mit gültigem Produkt-Markup können Produktinfos erscheinen, wenn ihr auf Bilder von eurer Website tippt. Es kann bis zu einer Woche dauern, bis der Googlebot eure Website erneut gecrawlt hat.
Momentan ist die Funktion "Ähnliche Produkte" weltweit in mobilen Browsern sowie in der Google App auf Android-Geräten verfügbar. Wir möchten sie 2017 außerdem auf weitere Plattformen ausweiten.
Wenn ihr noch Fragen habt, findet ihr uns im
Webmaster Hilfeforum
. Wenn eure Bilder nicht in den ähnlichen Produkten zu sehen sein sollen, könnt ihr
verhindern
, dass Bilder eurer Seite in den Suchergebnissen erscheinen.
Die neue Funktion trägt dazu bei, dass Nutzer eure Produkte im Web finden. Gemeinsam machen wir Shoppen im Web noch schöner.
Post von Julia E, Product Manager, Bildersuche
Neue Version des Websitestatus-Tools von Google Safe Browsing
Freitag, 7. April 2017
Mit
Google Safe Browsing
können sich Nutzer vor webbasierten Bedrohungen wie Malware, unerwünschter Software und Social Engineering schützen. Die meisten Nutzer kennen vermutlich die Warnmeldungen von Google, die angezeigt werden, wenn sie versuchen, eine schädliche Website aufzurufen oder schädliche Dateien herunterzuladen. Wir bieten aber auch andere Tools an, zum Beispiel das
Websitestatus-Tool
. Damit können Nutzer den aktuellen Sicherheitsstatus einer Webseite überprüfen, ohne die Seite aufrufen zu müssen.
Dieses Tool stellen wir auf der
Safe Browsing-Seite des Transparenzberichts von Google
bereit. Wie auch bei den anderen Informationen im
Google Transparenzbericht
veröffentlichen wir diese Daten, um den Nutzern einen besseren Überblick darüber zu geben, wie sicher das Web ist. Nutzer des
Websitestatus-Tools
geben eine Webseite, das heißt eine URL, Website oder Domain, in das Tool ein und erhalten dann das aktuelle Ergebnis der Safe Browsing-Analyse für diese Website. Zusätzlich werden ihnen Referenzen zur Hilfe bei der Fehlerbehebung und Schulungsunterlagen angezeigt.
Wir haben kürzlich eine neue Version des
Websitestatus-Tools
veröffentlicht. Die Ergebnisse sind jetzt noch einfacher und eindeutiger und das Design des Tools wurde an die größte Zielgruppe angepasst: Nutzer, die das Tool über eine empfangene Safe Browsing-Warnung aufrufen oder allgemeine Informationen zur Erkennung von Malware und Phishing-Inhalten bei Google erhalten möchten. Die Benutzeroberfläche ist übersichtlicher und die Ergebnisse sind einfacher zu verstehen und noch genauer. Die etwas technischeren Angaben zu autonomen Systemen haben wir in den
Abschnitt "Malware-Dashboard" des Transparenzberichts
verschoben.
Wir haben die Benutzeroberfläche optimiert, aber nicht auf Kosten der Diagnoseinhalte: Nutzer, die genauer recherchieren und mehr Details sehen möchten, finden diese Angaben an anderen Stellen im
Safe Browsing-Transparenzbericht
und Websiteinhaber finden zusätzliche Diagnoseinformationen in der
Search Console
. Eines der Ziele des Transparenzberichts ist es, komplexe Richtlinien und Sicherheitsprobleme näher zu beleuchten. Wir hoffen daher, dass das neue Design zu einem besseren Überblick beiträgt.
Post von Deeksha Padma Prasad und Allison Miller, Safe Browsing
#NoHacked: Jahresrückblick
Freitag, 7. April 2017
Wir hoffen, ihr hattet einen sicheren Start ins neue Jahr!
In diesem Beitrag findet ihr eine Zusammenfassung unserer Arbeit im Rahmen unserer #NoHacked-Kampagne 2016. Gehen wir zu Beginn auf einige Trends des vergangenen Jahres bei gehackten Websites ein.
Statusbericht zur Sicherheit von Websites 2016
Fangen wir mit den schlechten Nachrichten an. Die Zahl der gehackten Websites ist im Vergleich zu 2015 um ca. 32 % gestiegen. Und wir rechnen nicht damit, dass sich dieser Trend abschwächt. Die zunehmende Aggressivität der Hacker in Kombination mit der steigenden Zahl veralteter Websites führt dazu, dass Hacker immer mehr Websites infizieren, um daraus Kapital zu schlagen.
Aber es gibt auch gute Nachrichten: 84 % der Webmaster, die eine
erneute Überprüfung
beantragen, können ihre Websites erfolgreich bereinigen. Jedoch haben 61 % der Webmaster, deren Websites gehackt wurden, nie eine entsprechende Benachrichtigung von Google erhalten, weil ihre Websites nicht in der Search Console bestätigt wurden. Vergesst also nicht, euch in der
Search Console
zu registrieren, wenn ihr eine Website besitzt oder verwaltet. Dies ist der primäre Kommunikationskanal, den Google für Warnmeldungen zum Status von Websites nutzt.
Mehr Hilfe für gehackte Webmaster
Wir haben uns euer Feedback zu Herzen genommen, um Webmastern mit Sicherheitsproblemen noch besser helfen zu können. Dabei wurde immer wieder eine verständlichere Dokumentation zu gehackten Websites gefordert. Wir haben daher viel Herzblut investiert, um unsere Dokumentation nützlicher zu machen.
Als ersten Schritt haben wir eine neue Dokumentation erstellt, um Webmastern im Falle einer manipulierten Website mehr Informationen zur Verfügung zu stellen. Hier findet ihr eine Liste der neuen Hilferessourcen:
Die gängigsten Methoden von Spammern beim Hacken von Websites
Glossar für gehackte Websites
FAQs zu gehackten Websites
Woher weiß ich, dass meine Website gehackt wurde?
Anschließend haben wir Leitfäden zur Bereinigung von Websites erstellt, die von gängigen Hacking-Methoden betroffen sind. Wir haben festgestellt, dass die Auswirkungen von gehackten Websites meist ähnlich sind. Nach eingehender Analyse dieser Ähnlichkeiten haben wir für bestimmte Hacking-Angriffe Leitfäden zur Bereinigung erstellt. Unten findet ihr eine kurze Beschreibung der erstellten Leitfäden:
Unsinnige Inhalte:
Bei dieser Hacking-Methode wird automatisch eine Vielzahl von Seiten mit sinnlosen Sätzen voller Keywords auf der Zielwebsite erstellt. Damit möchten Hacker erreichen, dass die gehackten Seiten in der Google-Suche erscheinen. Wenn Nutzer die Seiten dann besuchen möchten, werden sie auf eine völlig andere Seite weitergeleitet, zum Beispiel eine Website mit pornografischen Inhalten.
Weitere Informationen zur Bereinigung
.
Japanische Keywords:
Bei dieser Hacking-Methode werden in der Regel neue Seiten mit japanischem Text in zufällig generierten Verzeichnissen auf der Zielwebsite erstellt. Diese Seiten werden mithilfe von Links zu Online-Stores mit gefälschten Markenprodukten monetarisiert und dann in der Google-Suche angezeigt. Manchmal werden die Konten der Hacker in der Search Console auch als Website-Inhaber hinzugefügt.
Weitere Informationen zur Bereinigung
.
Keyword-Cloaking:
Durch diese Art von Keyword- und Link-Hacking wird automatisch eine Vielzahl von Seiten mit sinnlosen Sätzen, Links und Bildern erstellt. Diese Seiten enthalten manchmal sogar Grundbausteine der Vorlage der Originalwebsite, sodass die Seiten auf den ersten Blick wie ganz normale Bestandteile der Zielwebsite aussehen, bis man den Inhalt liest. Bei einem solchen Angriff verwenden Hacker in der Regel Cloaking-Techniken, um die schädlichen Inhalte zu verstecken und die eingefügte Seite als der Teil der Originalwebsite oder als 404-Fehlerseite aussehen zu lassen.
Weitere Informationen zur Bereinigung
.
Prävention ist der Schlüssel
Wie immer ist es am besten, Präventivmaßnahmen zu ergreifen und die Website zu sichern, anstatt sich nachher mit den Folgen herumschlagen zu müssen. Denkt immer daran: Eine Kette ist nur so stark wie ihr schwächstes Glied. Weitere Informationen dazu, wie ihr Schwachstellen auf eurer Website erkennen könnt, findet ihr in unserem
Leitfaden für gehackte Websites
. Außerdem empfehlen wir, euch im Hinblick auf die neuesten Veröffentlichungen und Bekanntmachungen eurer CMS-Anbieter sowie Software-/Hardwareanbieter auf dem Laufenden zu halten.
Ausblick
Hacking-Methoden entwickeln sich ständig weiter und dank unserer Forschungsbemühungen können wir die neuesten Trends verfolgen und dagegen vorgehen. Weitere Informationen zu unseren neuesten Forschungspublikationen findet ihr auf der
Forschungswebsite
zu Informationssicherheit. Hier haben wir einige Studien zu Websitemanipulationen für euch zusammengestellt:
Cloak of Visibility: Detecting When Machines Browse a Different Web
(Verbergen der Sichtbarkeit: Entdecken, wenn Maschinen ein anderes Web durchsuchen)
Investigating Commercial Pay-Per-Install and the Distribution of Unwanted Software
(Untersuchen der kommerziellen "Pay-Per-Install" Methode und der Verbreitung von unerwünschter Software)
Users Really Do Plug in USB Drives They Find
(Nutzer verwenden wirklich die USB-Speicher, die sie finden)
Ad Injection at Scale: Assessing Deceptive Advertisement Modifications
(Injektion von Anzeigen in großem Still: Beurteilung von irreführenden Werbemanipulationen)
Falls ihr Feedback oder Fragen zu manipulierten Websites habt, steht euch in den
Webmaster-Hilfeforen
eine aktive Gruppe von Google-Mitarbeitern und Technikexperten zur Seite, die Antworten liefern und weiteren technischen Support bieten können.
Veröffentlicht von Wafa Alnasayan, Trust & Safety Analyst und Eric Kuan, Webmaster Relations
Rich Cards – Jetzt weltweit verfügbar
Mittwoch, 22. März 2017
Im Mai 2016 haben wir die Einführung von Rich Cards für englische Suchergebnisse angekündigt. Ab heute sind Rich Cards in jeder von Google unterstützten Sprache für Websites verfügbar.
Rich Cards sind ein Format für Google-Suchergebnisse, das auf dem Erfolg der Rich Snippets aufbaut. So wie bei Rich Snippets wird auch für Rich Cards ein strukturiertes schema.org-Markup verwendet, um Inhalte auf noch ansprechendere Weise darzustellen. Rich Cards unterstützen außerdem das Open-Source-AMP-Format, um auf Mobilgeräten eine noch reibungslosere Nutzererfahrung zu bieten.
In den obigen Abbildungen wird die Entwicklung der Suchergebnisse veranschaulicht. Dank Rich Cards können die Ergebnisse in Karussells präsentiert werden, in denen ganz einfach nach links und rechts gescrollt werden kann.
Websiteinhabern bietet sich dadurch eine neue Gelegenheit, sich in den Suchergebnissen stärker abzuheben und gezielter bestimmte Nutzergruppen auf ihre Website zu bringen. Wenn ihr z. B. eine Website mit Rezepten habt, könnt ihr eine noch ansprechendere Inhaltsvorschau mit einem speziellen Bild für jedes Gericht anbieten. Dank dieses visuellen Formats finden Nutzer schneller das, wonach sie suchen.
Rich Cards sind derzeit für drei Inhaltskategorien verfügbar: Rezepte, Filme und Restaurants in einer Region. Sie alle unterstützen das AMP-Format. Mehr über die Rich Card-Typen sowie darüber, wie ihr sie für eure Inhalte nutzen könnt,
erfahrt ihr in der Galerie
. Diese enthält Screenshots und Codebeispiele für die einzelnen Markup-Typen. Wir prüfen außerdem die Möglichkeiten, Rich Cards für weitere Branchen und Datentypen nutzbar zu machen.
Wir haben eine große Auswahl an Tools erstellt und die Dokumentation für Entwickler umfassend aktualisiert, um Websiteinhabern und Entwicklern auf dem Weg von der ersten Erkundung der Möglichkeiten über die Implementierung bis hin zur Leistungsüberwachung behilflich zu sein.
Im Test-Tool für strukturierte Daten werden Markup-Fehler aufgeführt und auf einer Vorschaukarte sind die Inhalte so zu sehen, wie sie in der Suche erscheinen könnten.
Im Rich Cards-Bericht in der Search Console ist zu sehen, welche Karten Fehler aufweisen und welche durch weiteres Markup verbessert werden könnten.
Mithilfe des AMP-Tests können AMP-Seiten und ihr Markup überprüft werden.
Falls ihr noch Fragen habt, könnt ihr diese gerne in unserem
Webmaster Forum
stellen.
Blogpost von Nicholas Yu, Software Engineer, Google Search
-->
Offline für einen Tag
Mittwoch, 15. März 2017
Hinweis:
Dieser Blogpost bezieht sich auf die natürliche Websuche. Informationen zu anderen Google-Diensten könnt ihr in der jeweiligen Hilfe finden (z. B. für
Google Shopping
) oder im jeweiligen Hilfeforum.
Selbst in der heutigen Welt, in der man immer und überall verfügbar ist, müssen sich Unternehmen ab und zu eine Pause gönnen. Das gilt auch für die Onlinepräsenz. In diesem Blogpost stellen wir euch verschiedene Optionen vor, damit die Suchpräsenz eurer Website nicht darunter leidet.
Option: Einkaufswagen deaktivieren
Wenn Nutzer lediglich am Kauf gehindert werden sollen, ist es am einfachsten, die entsprechende Funktion zu deaktivieren. In den meisten Fällen kann entweder das Crawlen von Einkaufswagenseiten über die
robots.txt-Datei
oder das Indexieren mithilfe eines
Robots-Meta-Tags
verhindert werden. Da Suchmaschinen diesen Inhalt entweder nicht sehen oder indexieren können, solltet ihr die Nutzer entsprechend informieren. Zum Beispiel könnt ihr den Link zum Einkaufswagen deaktivieren, eine entsprechende Nachricht einblenden oder anstelle des Einkaufswagens eine Seite mit weiteren Informationen anzeigen.
Option: Immer Interstitial oder Pop-up einblenden
Falls ihr die gesamte Website blockieren müsst, sei es mit einer Meldung "Vorübergehend nicht verfügbar", einer Informationsseite oder einem Pop-up, sollte der Server den
HTTP-Statuscode 503
("Service Unavailable") zurückgeben. So wird sichergestellt, dass Google den Inhalt, der den Nutzern vorübergehend angezeigt wird, nicht indexiert. Ohne diesen Statuscode würde das Interstitial als Inhalt der Website indexiert werden.
Googlebot versucht etwa eine Woche lang, Seiten mit dem Statuscode 503 zu crawlen, bevor sie als dauerhafter Fehler angesehen werden. Dies kann dazu führen, dass die Seiten aus den Suchergebnissen entfernt werden. Ihr könnt auch mithilfe eines
Retry-After-Headers
angeben, wie lange die Website nicht verfügbar sein wird. Wird die Website länger als eine Woche blockiert, kann dies negative Auswirkungen auf die Sichtbarkeit in den Suchergebnissen haben, unabhängig von der verwendeten Methode.
Option: Gesamte Website abschalten
Eine weitere Möglichkeit ist, den Server vollständig abzuschalten. Das wird zum Beispiel auch beim Umzug eines Servers in ein anderes Rechenzentrum gemacht. In diesem Fall sollte ein vorübergehender Server den
HTTP-Statuscode 503
für sämtliche URLs sowie eine entsprechende Informationsseite für Nutzer ausgeben. Außerdem muss euer DNS für diese Zeit auf den vorübergehenden Server verweisen.
Legt einige Tage vorher einen niedrigen
DNS TTL-Wert
fest, zum Beispiel 5 Minuten.
Stellt den DNS auf die IP-Adresse des vorübergehenden Servers um.
Schaltet euren Hauptserver ab, sobald alle Anfragen über den temporären Server laufen.
Euer Server ist nun offline.
Wenn ihr fertig seid, kann der Hauptserver wieder ans Netz.
Stellt den DNS wieder auf die IP-Adresse des Hauptservers um.
Legt den DNS TTL-Wert wieder auf den normalen Wert fest.
Wir hoffen, mit diesen Optionen die häufigsten Situationen abzudecken, in denen ihr eure Website vorübergehend deaktivieren müsst. Bei Fragen könnt ihr im
Webmaster-Forum
vorbeischauen.
PS: Wenn euer Unternehmen einen Standort mit Kundenverkehr hat, solltet ihr auch eure
Öffnungszeiten
im Brancheneintrag entsprechend anpassen!
Post von
John Mueller
, Webmaster Trends Analyst, Schweiz
Websites vor nutzergeneriertem Spam schützen
Donnerstag, 26. Januar 2017
Als Websiteinhaber habt ihr bestimmt schon einmal automatisch generierte Inhalte in Kommentaren oder Forenbeiträgen gesehen. Wenn solche Inhalte auf euren Seiten erscheinen, beeinträchtigt dies nicht nur die Nutzererfahrung auf der Website, sondern kann auch dazu führen, dass die Website bei Google und anderen Suchmaschinen mit Inhalten in Verbindung gebracht wird, mit denen ihr nichts zu tun haben möchtet.
In diesem Blogpost geben wir euch hilfreiche Tipps, wie ihr mit dieser Art von Spam auf eurer Website oder in eurem Forum umgehen könnt.
Manche Spammer missbrauchen Websites anderer, indem sie irreführende Inhalte und Links darauf posten, um so mehr Traffic auf ihrer eigenen Seite zu erhalten. Hier einige Beispiele:
Kommentare und Forenbeiträge können als gute Informationsquelle dienen und Nutzer der Website optimal in Diskussionen einbeziehen. Diese wertvollen Inhalte sollten nicht durch automatisch generierte Keywords und Links von Spammern begraben werden.
Es gibt viele Möglichkeiten, wie ihr die Foren und Kommentare auf euren Websites sichern könnt, sodass sie für Spammer uninteressant sind:
Achtet darauf, dass die Software eurer Foren immer aktuell ist und ihr die neuesten Patches verwendet.
Nehmt euch die Zeit, eure Software regelmäßig zu aktualisieren, und achtet dabei besonders auf wichtige Sicherheitsupdates. Spammer nutzen Sicherheitslücken in Blogs, auf Pinnwänden und in anderen Content-Management-Systemen aus.
Fügt CAPTCHAs hinzu.
Anhand von
CAPTCHAs
können Nutzer nachweisen, dass sie Menschen sind und es sich nicht um ein automatisches Skript handelt. Ihr könnt dazu Dienste wie
reCAPTCHA
,
Securimage
und
Jcaptcha
nutzen.
Blockiert verdächtige Inhalte.
In vielen Foren gibt es Zeitlimits zwischen Posts. Außerdem gibt es Plug-ins, mit denen nach übermäßigem Traffic von einer einzelnen IP-Adresse oder Proxys und anderen Aktivitäten, die wahrscheinlich von einem Bot und nicht von einem Menschen erzeugt werden, gesucht werden kann. Diese Konfiguration ist beispielsweise auf
phpBB
,
Simple Machines
,
myBB
und vielen anderen Foren-Plattformen möglich.
Überprüft täglich die Nutzer, die in euren Foren am meisten posten.
Falls sich ein Nutzer erst kürzlich angemeldet hat und besonders viel postet, solltet ihr das Profil überprüfen, um sicherzugehen, dass es sich bei den Posts und Beiträgen nicht um Spam handelt.
Eventuell solltet ihr bestimmte Arten von Kommentaren deaktivieren.
Beispielsweise ist es empfehlenswert, sehr alte Forenbeiträge zu schließen, bei denen keine seriösen Antworten mehr zu erwarten sind.
Wenn ihr eure Foren in Zukunft nicht mehr kontrollieren möchtet und Nutzer darin nicht mehr interagieren, könnt ihr den Missbrauch durch Spammer verhindern, indem ihr Posts komplett sperrt.
Macht euch die Moderationsfunktionen zunutze.
Ihr könnt Funktionen aktivieren, durch die Nutzer erst dann Links posten dürfen, wenn sie sich als vertrauenswürdig erwiesen haben, oder durch die Kommentare, welche Links enthalten, moderiert werden müssen.
Wenn möglich solltet ihr die Einstellungen so ändern, dass anonyme Posts verboten werden und Posts von neuen Nutzern erst bestätigt werden müssen, bevor sie öffentlich sichtbar sind. Bei dieser Arbeit können euch Moderatoren sowie Freunde, Kollegen und andere vertrauenswürdige Nutzer unterstützen. Überprüft neue Nutzer in euren Foren, indem ihr euch deren Posts und Aktivitäten im Forum anseht.
Setzt Begriffe auf die schwarze Liste, die ganz offensichtlich Spam sind.
Blockiert unangemessene Kommentare, indem ihr eine schwarze Liste mit Begriffen anlegt, die offensichtlich Spam sind (z. B. illegales Streaming oder Begriffe aus der Pharmabranche). Fügt häufige Begriffe aus Spam-Posts, die unangemessen sind, nichts mit den Forenthemen zu tun haben und nur von Spammern verwendet werden hinzu. Mit integrierten Funktionen und Plug-ins können Kommentare als Spam markiert oder gelöscht werden.
Nutzt das Attribut "nofollow" für Links im Kommentarfeld.
Dadurch werden Spammer von euren Websites ferngehalten. Viele Blogwebsites, wie zum Beispiel Blogger, fügen dieses Attribut automatisch zu jedem veröffentlichten Kommentar hinzu.
Verwendet automatische Systeme zum Schutz eurer Websites.
Umfassende Systeme wie
Akismet, das ein Plug-in für viele Blogs und Foren hat,
sind einfach zu installieren und nehmen euch die meiste Arbeit ab.
Ausführliche Informationen zu diesen Themen findet ihr in unseren Hilfeartikeln
Richtlinien zu nutzergeneriertem Spam
und
Methoden zum Schutz vor Spamkommentaren
. Wenn ihr Hilfe benötigt, könnt ihr auch unser
Forum für Webmaster
besuchen.
Post von Anouar Bendahou, Search Quality Strategist, Google Irland
Was Crawl-Budget für Googlebot bedeutet
Montag, 16. Januar 2017
In letzter Zeit machten verschiedene Definitionen für "Crawl Budget" bzw. "Crawling-Budget" die Runde. Allerdings haben wir bis jetzt keine treffende Bezeichnung für das, was mit "Crawling-Budget" aus externer Sicht gemeint ist. Mit diesem Post möchten wir diesen Begriff und seine Bedeutung für den Googlebot genauer erläutern.
In der Regel müssen sich Publisher um das im Folgenden beschriebene Crawling-Budget keine Gedanken machen. Wenn neue Seiten tendenziell am Tag ihrer Veröffentlichung gecrawlt werden, muss sich der Webmaster nicht um das Crawling-Budget kümmern. Außerdem wird eine Website mit weniger als ein paar Tausend URLs meistens effizient gecrawlt.
Die Priorisierung, was wann gecrawlt werden soll und wie viele Ressourcen der Server, der die Website hostet, für das Crawling bereitstellen kann, ist eher für größere Websites wichtig bzw. für Websites, die zum Beispiel Seiten automatisch auf der Grundlage von URL-Parametern erstellen.
Begrenzung der Crawling-Frequenz
Der Googlebot ist ein verantwortungsvoller Akteur im Web. Seine wichtigste Aufgabe ist das Crawling, ohne dabei die Nutzererfahrung auf der betreffenden Website zu beeinträchtigen. Mit der sogenannten "Crawling-Frequenz" wird die maximale Abrufrate für eine bestimmte Website begrenzt.
Einfach ausgedrückt ist dies die Anzahl der gleichzeitigen parallelen Verbindungen, die der Googlebot zum Crawlen der Website nutzen kann, sowie die Zeit, die er zwischen den Abrufvorgängen warten muss. Die Crawling-Frequenz kann sich abhängig von den folgenden beiden Faktoren erhöhen oder verringern:
Crawling-Kapazität: Wenn die Website über einen bestimmten Zeitraum schnell reagiert, erhöht sich die Frequenz, sodass mehr Verbindungen für das Crawling genutzt werden können. Wenn die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich das Limit und der Googlebot crawlt weniger.
In der Search Console festgelegte Begrenzung
: Website-Inhaber können das Crawling ihrer Website durch den Googlebot reduzieren. Eine Einstellung auf höhere Werte erhöht jedoch nicht automatisch das Crawling.
Crawling-Bedarf
Wenn für das Indexieren kein Bedarf besteht, geht nur geringe Aktivität vom Googlebot aus, auch wenn das Limit der Crawling-Frequenz noch nicht erreicht ist. Zum Feststellen des Crawling-Bedarfs sind die folgenden beiden Faktoren ausschlaggebend:
Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, um sie in unserem Index auf dem neuesten Stand zu halten.
Veralteter Status: Unsere Systeme versuchen zu verhindern, dass sich veraltete URLs im Index befinden.
Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.
Crawling-Frequenz und Crawling-Bedarf zusammen ergeben das Crawling-Budget. Nach unserer Definition ist damit also die Anzahl der URLs gemeint, die der Googlebot crawlen kann und will.
Faktoren, die sich auf das Crawling-Budget auswirken
Gemäß unserer Analyse kann es sich negativ auf das Crawling und die Indexierung einer Website auswirken, wenn zahlreiche URLs mit geringem Mehrwert vorhanden sind. Nach unseren Erkenntnissen können URLs mit geringem Mehrwert in die folgenden, nach ihrer Bedeutung aufgeführten Kategorien unterteilt werden:
Facettierte Navigation
und
Sitzungskennungen
Duplizierte Inhalte auf der Website
Soft Error-Seiten
Gehackte Seiten
Unbegrenzte Bereiche
und Proxys
Inhalte von geringer Qualität und Spam
Die Verschwendung von Serverressourcen für derartige Seiten geht zulasten von Crawling-Aktivitäten von Seiten, die tatsächlichen Mehrwert haben. Dadurch werden gute Inhalte auf einer Website unter Umständen erst mit deutlicher Verzögerung gefunden.
Wichtige Fragen
Das Crawling ist der Einstiegspunkt für Websites in die Suchergebnisse von Google. Effizientes Crawling hilft bei der Indexierung einer Website in der Google-Suche.
F: Hat die Geschwindigkeit der Website Einfluss auf mein Crawling-Budget? Wie sieht es mit Fehlern aus?
A: Je schneller eine Website ist, desto besser ist die Nutzererfahrung und desto höher ist auch die Crawling-Frequenz. Für den Googlebot ist eine schnelle Website ein Zeichen für gut funktionierende Server. So kann er mehr Inhalte über die gleiche Anzahl von Verbindungen abrufen. Auf der anderen Seite deuten zahlreiche 5xx-Fehler oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich.
Wir empfehlen, den
Crawling-Fehlerbericht in der Search Console
zu beachten und die Anzahl der Serverfehler möglichst gering zu halten.
F: Ist das Crawling ein Faktor für das Ranking?
A: Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. Google nutzt Hunderte Signale für das Ranking der Ergebnisse. Das Crawling ist zwar notwendig, um in den Ergebnissen zu erscheinen, aber kein Ranking-Signal.
F: Werden alternative URLs und eingebettete Inhalte in das Crawling-Budget eingerechnet?
A: Generell wird jede URL, die der Googlebot crawlt, in das Crawling-Budget einer Website eingerechnet. Alternative URLs wie etwa AMP oder hreflang sowie eingebettete Inhalte wie CSS und JavaScript müssen unter Umständen gecrawlt werden und fließen in das Crawling-Budget einer Website ein. Ebenso können sich lange Weiterleitungsketten negativ auf das Crawling auswirken.
F: Kann ich den Googlebot mit der Anweisung "crawl-delay" steuern?
A: Die nicht standardmäßige Robots.txt-Anweisung "crawl-delay" wird vom Googlebot nicht verarbeitet.
F: Hat die "nofollow"-Anweisung einen Einfluß auf das Crawl Budget?
A: Je nachdem. Jede URL, die gecrawlt wird, beeinflusst das Crawl Budget, also selbst wenn eure Seite eine URL mit "nofollow" auszeichnet, kann sie ja dennoch gecrawlt werden, falls z. B. eine andere Seite eurer Website oder eine andere Seite im Web darauf verweist und kein "nofollow" enthält.
Weitere Informationen zum Optimieren des Crawlings eurer Website findet ihr in unserem Blogpost zur
Crawling-Optimierung
aus dem Jahr 2009, der immer noch aktuell ist. Eure Fragen
könnt ihr in den Foren stellen
.
Post von
Gary
, Crawling- und Indexing-Team
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster