Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Datennutzung zur Bekämpfung von Webspam
Dienstag, 1. Juli 2008
Als Leiter des Google Webspam Teams ist es meine Aufgabe sicherzustellen, dass eure Suchergebnisse so relevant und informativ wie möglich sind. Als Webspam bezeichnen wir den Schrott, den ihr in den Suchergebnissen sehen könnt, wenn es Websites gelingt, mittels Tricks eine hohe Position in den Suchergebnissen zu erschleichen oder anderweitig gegen unsere
Qualitätsrichtlinien
verstoßen. Falls ihr noch nie Webspam gesehen habt, findet ihr hier ein gutes Beispiel dafür, was sich hinter einem Link verbergen kann, der zu Spam führt (klickt auf das Bild für eine größere Version).
Es ist offensichtlich, wie wenig hilfreich eine solche Seite ist. Das Beispiel beinhaltet so gut wie keinen organischen Content und bietet kaum nützliche Informationen für die User. Wir arbeiten hart daran, dass ihr solche Suchergebnisse nur selten zu Gesicht bekommt. Stellt euch vor, wie frustrierend es für euch wäre, auf einen Link in unseren Suchergebnissen zu klicken und schließlich auf einer derartigen Site zu landen.
Heutzutage begegnet den Suchenden solch offensichtlicher Spam nur noch selten in den Ergebnissen. Webspam war noch ein wesentlich größeres Problem, bevor Google populär wurde und bevor es uns gelang, effektive Anti-Spam-Methoden zu entwickeln. Webspam kann generell recht frustrierend sein, wenn beispielsweise die Suche nach dem eigenen Namen als Ergebnis lauter Links zu Seiten mit pornografischem Content liefert. Es gibt jedoch auch zahlreiche Suchvorgänge, bei denen es noch viel wichtiger ist, relevante Suchergebnisse zu erhalten, und wo Spam ein ernstes Problem darstellt. Wenn z. B. eine Suche nach
Prostatakrebs
überwiegend Spam anstelle von relevanten Links liefert, dann mindert das erheblich den Nutzen einer Suchmaschine als hilfreiches Tool.
Die Logs aus früheren Suchvorgängen sind ein Werkzeug, das wir nutzen, um Webspam zu bekämpfen und sauberere und relevantere Ergebnisse zu liefern. Archivierte Daten wie z. B. IP-Adressen und Cookie-Informationen ermöglichen es uns, Bewertungsgrundlagen zu erstellen, anhand derer wir die verschiedenen Aspekte unserer Suchqualität messen können (wie z. B. Indexgröße und Reichweite, die "Frische" der Ergebnisse und Spam).
Wann immer wir eine neue Bewertungsgrundlage erstellen, ist es wichtig, dass wir dazu unsere archivierten Daten aus früheren Suchanfragen oder Ergebnisseiten zur Berechnung der neuen Spam-Daten nutzen. Wir nutzen unsere archivierten Suchdaten, um einen Blick in die Vergangenheit zu werfen, damit wir ermitteln können, wie gut wir bei Suchanfragen von vor einigen Monaten waren. Wenn wir eine neue Bewertungsgrundlage erstellen, um eine neue Art von Spam genauer zu erfassen, dann messen wir nicht nur unsere diesbezüglichen Fortschritte, sondern werten auch die archivierten Daten aus, um festzustellen, wie gut wir mit dieser Art von Spam in den vorigen Monaten und Jahren umgegangen sind.
Die Informationen bezüglich IP-Adresse und Cookies sind für uns wichtig, da sie uns dabei helfen, die oben beschriebenen Methoden nur auf Suchanfragen von "echten" Usern anzuwenden - im Gegensatz zu Suchanfragen, die z. B. durch Bots generiert wurden. Wenn beispielsweise ein Bot ununterbrochen identische Suchanfragen an Google richtet, dann sollten diese eher vernachlässigt werden, wenn wir ermitteln, wie viel Spam unsere User zu Gesicht bekommen. Dies alles – archivierte Suchdaten, IP-Adressen und Cookie-Daten – sorgt dafür, dass eure Suchergebnisse sauberer und relevanter werden.
Falls ihr glaubt, das Problem des Webspam wäre bereits gelöst, dann irrt ihr euch. Letztes Jahr hatten wir mit einem riesigen Anstieg von chinesischen Spam-Domains zu kämpfen. Einige Spammer kauften riesige Mengen billiger .cn-Domains und packten sie voll mit
Schreibfehlern und pornografischen Begriffen
. Die eingefleischten Webmaster unter euch können sich wahrscheinlich an diverse Blogposts darüber erinnern, aber die meisten User haben davon überhaupt nichts mitbekommen. Der Grund, weshalb die meisten User unserer Suche diese ungewöhnlichen Suchergebnisse gar nicht bemerkten, ist, dass wir den .cn-Spam frühzeitig erkannt und diesem mit schnell eingeleiteten Entwicklungsmaßnahmen entgegengewirkt haben. Ohne die Logdaten, mit deren Hilfe wir mehr über die Geschwindigkeit und den Umfang des Problems erfahren konnten, wären sicher deutlich mehr Google-User von dieser Spam-Attacke betroffen gewesen.
Im Idealfall braucht die große Mehrzahl unserer User gar nicht zu wissen, dass es bei Google ein Webspam Team gibt. Wenn wir unsere Arbeit gut machen, dann seht ihr vielleicht von Zeit zu Zeit mal ein paar Resultate von minderer Qualität, aber irreführende JavaScript-Weiterleitungen, unerwünschte pornografische Inhalte, Seiten mit unzusammenhängendem Kauderwelsch oder andere Arten von Spam bleiben euch verborgen. Eure archivierten Suchanfragen helfen uns, neue Spam-Trends zu erkennen und an entsprechenden Gegenmaßnahmen zu arbeiten, noch bevor der Spam die Qualität eurer Sucherfahrung mindert.
Using data to fight webspam (English version)
Post von Matt Cutts, Software-Ingenieur (Übersetzung von Sven, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster