Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Websites vor nutzergeneriertem Spam schützen
Donnerstag, 26. Januar 2017
Als Websiteinhaber habt ihr bestimmt schon einmal automatisch generierte Inhalte in Kommentaren oder Forenbeiträgen gesehen. Wenn solche Inhalte auf euren Seiten erscheinen, beeinträchtigt dies nicht nur die Nutzererfahrung auf der Website, sondern kann auch dazu führen, dass die Website bei Google und anderen Suchmaschinen mit Inhalten in Verbindung gebracht wird, mit denen ihr nichts zu tun haben möchtet.
In diesem Blogpost geben wir euch hilfreiche Tipps, wie ihr mit dieser Art von Spam auf eurer Website oder in eurem Forum umgehen könnt.
Manche Spammer missbrauchen Websites anderer, indem sie irreführende Inhalte und Links darauf posten, um so mehr Traffic auf ihrer eigenen Seite zu erhalten. Hier einige Beispiele:
Kommentare und Forenbeiträge können als gute Informationsquelle dienen und Nutzer der Website optimal in Diskussionen einbeziehen. Diese wertvollen Inhalte sollten nicht durch automatisch generierte Keywords und Links von Spammern begraben werden.
Es gibt viele Möglichkeiten, wie ihr die Foren und Kommentare auf euren Websites sichern könnt, sodass sie für Spammer uninteressant sind:
Achtet darauf, dass die Software eurer Foren immer aktuell ist und ihr die neuesten Patches verwendet.
Nehmt euch die Zeit, eure Software regelmäßig zu aktualisieren, und achtet dabei besonders auf wichtige Sicherheitsupdates. Spammer nutzen Sicherheitslücken in Blogs, auf Pinnwänden und in anderen Content-Management-Systemen aus.
Fügt CAPTCHAs hinzu.
Anhand von
CAPTCHAs
können Nutzer nachweisen, dass sie Menschen sind und es sich nicht um ein automatisches Skript handelt. Ihr könnt dazu Dienste wie
reCAPTCHA
,
Securimage
und
Jcaptcha
nutzen.
Blockiert verdächtige Inhalte.
In vielen Foren gibt es Zeitlimits zwischen Posts. Außerdem gibt es Plug-ins, mit denen nach übermäßigem Traffic von einer einzelnen IP-Adresse oder Proxys und anderen Aktivitäten, die wahrscheinlich von einem Bot und nicht von einem Menschen erzeugt werden, gesucht werden kann. Diese Konfiguration ist beispielsweise auf
phpBB
,
Simple Machines
,
myBB
und vielen anderen Foren-Plattformen möglich.
Überprüft täglich die Nutzer, die in euren Foren am meisten posten.
Falls sich ein Nutzer erst kürzlich angemeldet hat und besonders viel postet, solltet ihr das Profil überprüfen, um sicherzugehen, dass es sich bei den Posts und Beiträgen nicht um Spam handelt.
Eventuell solltet ihr bestimmte Arten von Kommentaren deaktivieren.
Beispielsweise ist es empfehlenswert, sehr alte Forenbeiträge zu schließen, bei denen keine seriösen Antworten mehr zu erwarten sind.
Wenn ihr eure Foren in Zukunft nicht mehr kontrollieren möchtet und Nutzer darin nicht mehr interagieren, könnt ihr den Missbrauch durch Spammer verhindern, indem ihr Posts komplett sperrt.
Macht euch die Moderationsfunktionen zunutze.
Ihr könnt Funktionen aktivieren, durch die Nutzer erst dann Links posten dürfen, wenn sie sich als vertrauenswürdig erwiesen haben, oder durch die Kommentare, welche Links enthalten, moderiert werden müssen.
Wenn möglich solltet ihr die Einstellungen so ändern, dass anonyme Posts verboten werden und Posts von neuen Nutzern erst bestätigt werden müssen, bevor sie öffentlich sichtbar sind. Bei dieser Arbeit können euch Moderatoren sowie Freunde, Kollegen und andere vertrauenswürdige Nutzer unterstützen. Überprüft neue Nutzer in euren Foren, indem ihr euch deren Posts und Aktivitäten im Forum anseht.
Setzt Begriffe auf die schwarze Liste, die ganz offensichtlich Spam sind.
Blockiert unangemessene Kommentare, indem ihr eine schwarze Liste mit Begriffen anlegt, die offensichtlich Spam sind (z. B. illegales Streaming oder Begriffe aus der Pharmabranche). Fügt häufige Begriffe aus Spam-Posts, die unangemessen sind, nichts mit den Forenthemen zu tun haben und nur von Spammern verwendet werden hinzu. Mit integrierten Funktionen und Plug-ins können Kommentare als Spam markiert oder gelöscht werden.
Nutzt das Attribut "nofollow" für Links im Kommentarfeld.
Dadurch werden Spammer von euren Websites ferngehalten. Viele Blogwebsites, wie zum Beispiel Blogger, fügen dieses Attribut automatisch zu jedem veröffentlichten Kommentar hinzu.
Verwendet automatische Systeme zum Schutz eurer Websites.
Umfassende Systeme wie
Akismet, das ein Plug-in für viele Blogs und Foren hat,
sind einfach zu installieren und nehmen euch die meiste Arbeit ab.
Ausführliche Informationen zu diesen Themen findet ihr in unseren Hilfeartikeln
Richtlinien zu nutzergeneriertem Spam
und
Methoden zum Schutz vor Spamkommentaren
. Wenn ihr Hilfe benötigt, könnt ihr auch unser
Forum für Webmaster
besuchen.
Post von Anouar Bendahou, Search Quality Strategist, Google Irland
Was Crawl-Budget für Googlebot bedeutet
Montag, 16. Januar 2017
In letzter Zeit machten verschiedene Definitionen für "Crawl Budget" bzw. "Crawling-Budget" die Runde. Allerdings haben wir bis jetzt keine treffende Bezeichnung für das, was mit "Crawling-Budget" aus externer Sicht gemeint ist. Mit diesem Post möchten wir diesen Begriff und seine Bedeutung für den Googlebot genauer erläutern.
In der Regel müssen sich Publisher um das im Folgenden beschriebene Crawling-Budget keine Gedanken machen. Wenn neue Seiten tendenziell am Tag ihrer Veröffentlichung gecrawlt werden, muss sich der Webmaster nicht um das Crawling-Budget kümmern. Außerdem wird eine Website mit weniger als ein paar Tausend URLs meistens effizient gecrawlt.
Die Priorisierung, was wann gecrawlt werden soll und wie viele Ressourcen der Server, der die Website hostet, für das Crawling bereitstellen kann, ist eher für größere Websites wichtig bzw. für Websites, die zum Beispiel Seiten automatisch auf der Grundlage von URL-Parametern erstellen.
Begrenzung der Crawling-Frequenz
Der Googlebot ist ein verantwortungsvoller Akteur im Web. Seine wichtigste Aufgabe ist das Crawling, ohne dabei die Nutzererfahrung auf der betreffenden Website zu beeinträchtigen. Mit der sogenannten "Crawling-Frequenz" wird die maximale Abrufrate für eine bestimmte Website begrenzt.
Einfach ausgedrückt ist dies die Anzahl der gleichzeitigen parallelen Verbindungen, die der Googlebot zum Crawlen der Website nutzen kann, sowie die Zeit, die er zwischen den Abrufvorgängen warten muss. Die Crawling-Frequenz kann sich abhängig von den folgenden beiden Faktoren erhöhen oder verringern:
Crawling-Kapazität: Wenn die Website über einen bestimmten Zeitraum schnell reagiert, erhöht sich die Frequenz, sodass mehr Verbindungen für das Crawling genutzt werden können. Wenn die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich das Limit und der Googlebot crawlt weniger.
In der Search Console festgelegte Begrenzung
: Website-Inhaber können das Crawling ihrer Website durch den Googlebot reduzieren. Eine Einstellung auf höhere Werte erhöht jedoch nicht automatisch das Crawling.
Crawling-Bedarf
Wenn für das Indexieren kein Bedarf besteht, geht nur geringe Aktivität vom Googlebot aus, auch wenn das Limit der Crawling-Frequenz noch nicht erreicht ist. Zum Feststellen des Crawling-Bedarfs sind die folgenden beiden Faktoren ausschlaggebend:
Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, um sie in unserem Index auf dem neuesten Stand zu halten.
Veralteter Status: Unsere Systeme versuchen zu verhindern, dass sich veraltete URLs im Index befinden.
Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.
Crawling-Frequenz und Crawling-Bedarf zusammen ergeben das Crawling-Budget. Nach unserer Definition ist damit also die Anzahl der URLs gemeint, die der Googlebot crawlen kann und will.
Faktoren, die sich auf das Crawling-Budget auswirken
Gemäß unserer Analyse kann es sich negativ auf das Crawling und die Indexierung einer Website auswirken, wenn zahlreiche URLs mit geringem Mehrwert vorhanden sind. Nach unseren Erkenntnissen können URLs mit geringem Mehrwert in die folgenden, nach ihrer Bedeutung aufgeführten Kategorien unterteilt werden:
Facettierte Navigation
und
Sitzungskennungen
Duplizierte Inhalte auf der Website
Soft Error-Seiten
Gehackte Seiten
Unbegrenzte Bereiche
und Proxys
Inhalte von geringer Qualität und Spam
Die Verschwendung von Serverressourcen für derartige Seiten geht zulasten von Crawling-Aktivitäten von Seiten, die tatsächlichen Mehrwert haben. Dadurch werden gute Inhalte auf einer Website unter Umständen erst mit deutlicher Verzögerung gefunden.
Wichtige Fragen
Das Crawling ist der Einstiegspunkt für Websites in die Suchergebnisse von Google. Effizientes Crawling hilft bei der Indexierung einer Website in der Google-Suche.
F: Hat die Geschwindigkeit der Website Einfluss auf mein Crawling-Budget? Wie sieht es mit Fehlern aus?
A: Je schneller eine Website ist, desto besser ist die Nutzererfahrung und desto höher ist auch die Crawling-Frequenz. Für den Googlebot ist eine schnelle Website ein Zeichen für gut funktionierende Server. So kann er mehr Inhalte über die gleiche Anzahl von Verbindungen abrufen. Auf der anderen Seite deuten zahlreiche 5xx-Fehler oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich.
Wir empfehlen, den
Crawling-Fehlerbericht in der Search Console
zu beachten und die Anzahl der Serverfehler möglichst gering zu halten.
F: Ist das Crawling ein Faktor für das Ranking?
A: Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. Google nutzt Hunderte Signale für das Ranking der Ergebnisse. Das Crawling ist zwar notwendig, um in den Ergebnissen zu erscheinen, aber kein Ranking-Signal.
F: Werden alternative URLs und eingebettete Inhalte in das Crawling-Budget eingerechnet?
A: Generell wird jede URL, die der Googlebot crawlt, in das Crawling-Budget einer Website eingerechnet. Alternative URLs wie etwa AMP oder hreflang sowie eingebettete Inhalte wie CSS und JavaScript müssen unter Umständen gecrawlt werden und fließen in das Crawling-Budget einer Website ein. Ebenso können sich lange Weiterleitungsketten negativ auf das Crawling auswirken.
F: Kann ich den Googlebot mit der Anweisung "crawl-delay" steuern?
A: Die nicht standardmäßige Robots.txt-Anweisung "crawl-delay" wird vom Googlebot nicht verarbeitet.
F: Hat die "nofollow"-Anweisung einen Einfluß auf das Crawl Budget?
A: Je nachdem. Jede URL, die gecrawlt wird, beeinflusst das Crawl Budget, also selbst wenn eure Seite eine URL mit "nofollow" auszeichnet, kann sie ja dennoch gecrawlt werden, falls z. B. eine andere Seite eurer Website oder eine andere Seite im Web darauf verweist und kein "nofollow" enthält.
Weitere Informationen zum Optimieren des Crawlings eurer Website findet ihr in unserem Blogpost zur
Crawling-Optimierung
aus dem Jahr 2009, der immer noch aktuell ist. Eure Fragen
könnt ihr in den Foren stellen
.
Post von
Gary
, Crawling- und Indexing-Team
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster