Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Crawling von HTML-Formularen
Montag, 14. April 2008
Google ist ständig bemüht, neue Ideen zur Verbesserung der Erfassung des Webs zu testen. Dabei wenden wir bereits einige geschickte Techniken an, wir scannen beispielsweise JavaScript und Flash-Dateien, um so Links zu neuen Webseiten zu entdecken. Heute möchten wir euch eine weitere neue Technik vorstellen, mit der wir seit kurzem experimentieren.
In den letzten Monaten haben wir zahlreiche HTML-Formulare untersucht, um so neue Webseiten und URLs zu ermitteln, die wir ansonsten nicht finden und unseren Usern in der Google-Suche bereitstellen können. Genauer gesagt bedeutet dies, falls wir ein <FORM>-Element auf einer nützlichen Site finden, kann es sein, dass wir eine geringe Anzahl an Anfragen an das Formular senden. Bei Textfeldern verwenden unsere Computer automatisch Worte aus dem Inhalt der jeweiligen Site - bei Auswahl-Menüs, Checkboxen und Radiobuttons wählen wir eine der verfügbaren Optionen im HTML-Code. Wenn wir entsprechende Eingabewerte gewählt haben, erstellen wir URLs, die typischen Nutzeranfragen im Formular entsprechen, und versuchen dann, diese URLs zu crawlen. Falls wir danach davon ausgehen können, dass die Seite, welche auf unsere Anfrage hin geliefert wurde, eine gültige Seite ist und außerdem interessant erscheint und noch nicht in unserem Index enthalten ist, dann werden wir diese Seite möglicherweise ebenfalls in unseren Index aufnehmen, so wie das bei anderen Webseiten auch der Fall ist.
Natürlich halten wir uns bei diesem Experiment an die guten Umgangsformen im Internet. Nur eine kleine Anzahl besonders nützlicher Seiten wird diesem Verfahren unterzogen und unser Crawler, der stets
freundliche Googlebot
, hält sich immer an die robots.txt-Datei und die nofollow- und noindex-Anweisungen. Dies bedeutet, dass wir, wenn ein Formular in der robots.txt-Datei vom Crawling ausgeschlossen wurde, keine URLs crawlen, die durch dieses Formular erzeugt werden.
Außerdem crawlen wir ausschließlich Formulare, welche die GET-Methode verwenden, und vermeiden Formulare, die jegliche Art von Informationen seitens des Users erfordern. Beispielsweise lassen wir Formulare aus, die eine Passwort-Eingabe erfordern oder Begriffe verwenden, die gewöhnlich mit persönlichen Daten in Verbindung gebracht werden, wie z. B. Logins, User-IDs, Kontakt-Adressen usw. Außerdem nehmen wir Rücksicht auf die Auswirkungen eines derartigen Crawlings auf eine Website und begrenzen dieses deshalb auf eine geringe Anzahl an Anfragen je Site.
Die Webseiten, die wir in diesem erweiterten Crawling entdecken, fallen nicht zu Lasten der regulären Seiten einer Site, die ohnehin gecrawlt werden. Somit ergibt sich auch keine Änderung des PageRanks für die anderen Seiten. Genaugenommen wird dadurch lediglich die Sichtbarkeit eurer Site für Google erhöht. Diese Neuerung hat ebenfalls keinerlei bedeutenden Einfluss auf das Crawling und Ranking oder die Auswahl anderer Webseiten.
Dieses Experiment ist ein Teil von Googles umfassendem Bemühen, die Abdeckung des Internets zu erhöhen. Tatsächlich ist bereits seit längerem bekannt, dass HTML-Formulare einen Zugang zu großen Datenbeständen bieten, die gewöhnlich außerhalb der Reichweite von Suchmaschinen liegen. Die Begriffe "Deep Web", "Hidden Web" (verstecktes Web) oder "Invisible Web" (unsichtbares Web) wurden gemeinhin verwendet, um derartigen Content zu bezeichnen, der den Usern von Suchmaschinen bislang verborgen blieb. Indem wir auch HTML-Formulare crawlen (und dabei die robots.txt-Datei beachten), sind wir in der Lage, die User unserer Suchmaschine zu Inhalten zu führen, die ansonsten schwer in den Suchergebnissen zu finden wären. Damit bieten wir Webmastern und Usern ein besseres und umfassenderes Sucherlebnis.
Crawling through HTML forms (English Version)
Post von Jayant Madhavan und Alon Halevy, Crawling and Indexing Team (Übersetzung von Sven, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
2019
Dez.
Nov.
Okt.
Sept.
Juni
Mai
Feb.
Jan.
2018
Dez.
Nov.
Okt.
Sept.
Juli
Juni
Mai
Apr.
Feb.
Jan.
2017
Dez.
Nov.
Juni
Apr.
März
Jan.
2016
Nov.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Jan.
2015
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Mai
Apr.
März
Feb.
Jan.
2014
Nov.
Okt.
Sept.
Aug.
Juni
Mai
Apr.
März
Feb.
Jan.
2013
Dez.
Nov.
Okt.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2012
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2011
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2010
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2009
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2008
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feb.
Jan.
2007
Dez.
Nov.
Okt.
Sept.
Aug.
Juli
Juni
Mai
Apr.
März
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster