Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Wie bestimmt Google die kanonische Quelle von Content im Web?
Montag, 31. Oktober 2011
In Matt Cutts' heutiger Video-Antwort dreht es sich um das Thema Duplicate Content, welches viele von euch immer wieder beschäftigt. Matt Cutts erklärt, welche Signale Google benutzt, um zwischen identischen Inhalten auf verschiedenen Websites zu unterscheiden und den Urheber festzustellen.
Die heutige Frage kommt aus Chicago, Illinois. Willy F. möchte wissen: "Wie bestimmt Google die kanonische (canonical) Quelle von Inhalten?"
Das ist eine gute Frage. Wir hatten immer unterschiedliche Antworten darauf, da wir ständig an neuen Algorithmen und Methoden arbeiten, um genau zu bestimmen, woher Inhalte ursprünglich stammen. Ich möchte euch die Signale vorstellen, die wir dazu verwenden. Ein Signal ist beispielsweise, wann und wo wir Content zum ersten Mal gesehen haben. Wenn Inhalte verfasst und veröffentlicht und von uns gecrawlt werden und zwei Jahre später an einer anderen Stelle wieder auftauchen, ist sehr wahrscheinlich unser erster Fundort die Quelle.
Es gibt viele Blogs und Content-Management-Systeme, die ping-fähig sind, wie WordPress oder Blogger. Sobald ihr einen Beitrag postet, aktualisiert oder veröffentlicht, könnt ihr einen Ping an Blog- und Echtzeit-Suchmaschinen oder an Google senden. Damit können wir den Zeitpunkt, zu dem der Beitrag gepostet wurde, eindeutiger bestimmen und ihn somit unter identischen Inhalten identifizieren.
Dann gibt es natürlich noch PageRank. Bei identischem Content wird man der etablierten Website mit dem guten Ruf die Urheberschaft zuschreiben, und nicht etwa einer kurzlebigen Website, die man noch nie gesehen hat, weil sie ganz neu ist, und die einen etwas dubiosen und minderwertigen Eindruck macht.
rel="canonical" ist natürlich ein sehr eindeutiges Signal, den bevorzugten Standort für Inhalte zu kennzeichnen. Eine weniger explizite Methode stellt rel="author" dar. Mit diesem Attribut könnt ihr im Web kennzeichnen, dass Inhalte von euch stammen, oder auf euer Autorenprofil verweisen. Ihr könnt also mit einem Hinweis zeigen, woher Inhalte stammen und ob sie aus bekannten Quellen kommen.
Theoretisch kann man auch Signale auf Website-Ebene verwenden. Wenn wir denken, dass eine bestimmte Website allgemein viel kopiert, und der selbe auf dieser und auf einer anderen Website auftaucht, denken wir eher nicht, dass die Website mit dem vielen Kopierten die Quelle ist, sondern die Website, die schon über längere Zeit einzigartige Inhalte hervorgebracht hat.
Es sind also viele Faktoren denkbar. Es ist so knifflig, da der Googlebot das Web gewissermaßen nur in Stichproben crawlt. Das Web ist unendlich und kann sich innerhalb weniger Millisekunden verändern. Deshalb ist es schwer, beim Crawlen herauszufinden, wann und wo genau Inhalte zum ersten Mal aufgetaucht sind. Wir versuchen dabei, unser Bestes zu geben. Das gelingt uns nicht immer, und dann freuen wir uns über euer Feedback. Es gibt jedenfalls viele verschiedene Hinweise, Signale und Möglichkeiten, um die kanonische bzw.ursprüngliche Quelle von Inhalten zu bestimmen.
Veröffentlicht von Daniela Loesser, Search Quality Team
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster