Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
PDFs in Google-Suchergebnissen
Freitag, 23. September 2011
Letzte Woche haben wir hier einen
Videobeitrag von Matt Cutts
veröffentlicht, indem er erklärt welche Unterschiede zwischen der Indexierung von PDFs und HTML bestehen. Heute gehen wir detailliert auf Fragen zu dem Thema ein, die uns häufig im Webmaster-Hilfeforum begegnen.
Unser Ziel besteht darin, Informationen weltweit zu organisieren und sie universell zugänglich und nutzbar zu machen. Bei diesem ambitionierten Unterfangen stoßen wir häufig auf andere Formate als HTML, etwa PDFs, Tabellen oder Präsentationen. Unsere Algorithmen werden durch diese unterschiedlichen Dateitypen jedoch nicht abgebremst. Wir arbeiten intensiv an der Extraktion der relevanten Inhalte, um entsprechende Indexe für unsere Suchergebnisse zu erstellen. Wie funktioniert aber die Indexerstellung für diese Dateitypen? Welche Richtlinien gelten für diese Dateien, die weit vom HTML-Standard abweichen? Was passiert, wenn ein Webmaster nicht möchte, dass wir sie indexieren?
Google erstellte 2001 erstmals Indexe für PDF-Dateien
und hat bis jetzt
mehrere hundert Millionen PDF-Dateien
indexiert. Wir haben die am häufigsten gestellten Fragen zur Indexerstellung aus PDFs gesammelt. Die Antworten findet ihr hier:
F: Kann Google jede Art von PDF-Dateien indexieren?
A: Im Prinzip können wir Textinhalte in jeder beliebigen Sprache aus PDF-Dateien indexieren. Die Datei kann verschiedene Zeichencodierungen enthalten, darf jedoch nicht passwortgeschützt oder verschlüsselt sein. Sollte der Text als Bild eingebettet sein, können wir diese Bilder zur Extraktion des Textes mit
OCR-Algorithmen
bearbeiten. Die Faustregel lautet: Wenn der Text aus einem PDF-Dokument kopiert und in ein Standard-Textdokument eingefügt werden kann, ist die Indexierung des Texts möglich.
F: Werden Bilder in PDF-Dateien indexiert?
A: Derzeit werden Bilder nicht indexiert. Zur Indexierung eurer Bilder solltet ihr entsprechende HTML-Seiten erstellen. Weitere Informationen darüber, wie ihr die Wahrscheinlichkeit einer Anzeige eurer Bilder in unseren Suchergebnissen erhöhen könnt, findet ihr in unserer
Webmaster-Tools-Hilfe
.
F: Wie werden Links in PDF-Dokumenten behandelt?
A: In der Regel werden Links in PDF-Dateien ähnlich wie Links in HTML behandelt. Sie können PageRank und andere Indexierungssignale weitergeben und wir folgen ihnen möglicherweise, nachdem die PDF-Datei gecrawlt wurde. Es ist derzeit nicht möglich,
"nofollow"
für Links innerhalb von PDF-Dokumenten zu verwenden.
F: Wie kann ich es verhindern, dass meine PDF-Datei in den Suchergebnissen angezeigt wird bzw. wie kann ich sie nachträglich daraus entfernen?
A: Die einfachste Methode, um zu vermeiden, dass eure PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags "noindex" im HTTP-Header, mit dem die Datei bereitgestellt wird. Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn ihr das X-Robot-Tag mit der Anweisung "noindex" verwendet. Für eine schnellere Entfernung könnt ihr das Tool zum
Entfernen von URLs in den Google Webmaster-Tools
verwenden.
F: Können PDF-Dateien in den Suchergebnissen hoch eingestuft werden?
A: Klar! Das Ranking für PDF-Dateien gleicht in der Regel dem Ranking anderer Websites. Zum Beispiel werden in den Suchergebnissen für [
mortgage market review
], [
irs form 2011
] oder [
paracetamol expert report
] zum Zeitpunkt der Veröffentlichung dieses Posts (im
englischsprachigen Blog
) PDF-Dokumente ganz oben angezeigt. Dies ist aufgrund ihres Inhalts, ihrer Einbettung und Verlinkung von anderen Webseiten möglich.
F: Wird es als duplizierter Inhalt angesehen, wenn ich sowohl eine HTML- als auch PDF-Version meiner Seiten habe?
A: Wir empfehlen, Inhalte wenn möglich immer nur in einer Version bereitzustellen. Sollte das nicht möglich sein, legt am besten eure bevorzugte Version fest, indem ihr die URL dieser Version in eurer XML-Sitemap oder die autorisierte URL im HTML-Code oder
HTTP-Header
der PDF-Datei angebt.
Weitere Tipps zur Autorisierung
findet ihr in der Webmaster-Tools-Hilfe.
F: Wie kann ich die in den Suchergebnissen angezeigten Titel meines PDF-Dokuments beeinflussen?
A: Wir verwenden hauptsächlich zwei Elemente zur Bestimmung der angezeigten Titel: die Metadaten des Titels in der Datei und den Ankertext von Links, die auf die PDF-Datei verweisen. Aktualisiert am besten beide Elemente, damit macht ihr es unseren Algorithmen einfacher, den richtigen Titel zu ermitteln.
In der
Webmaster-Tools-Hilfe
findet ihr weitere Tipps zu den Inhaltstypen, die indexiert werden können. Solltet ihr Feedback oder Fragen haben, teilt uns dies bitte über das
Webmaster-Hilfeforum
mit.
Gepostet von Gary Illyes, Webmaster Trends Analyst (Veröffentlich von Dominik Zins, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster