Webmaster-Zentrale Blog
Offizielle Informationen zum Crawling und zur Indexierung von Webseiten und News für Webmaster
Crawling von HTML-Formularen
Montag, 14. April 2008
Google ist ständig bemüht, neue Ideen zur Verbesserung der Erfassung des Webs zu testen. Dabei wenden wir bereits einige geschickte Techniken an, wir scannen beispielsweise JavaScript und Flash-Dateien, um so Links zu neuen Webseiten zu entdecken. Heute möchten wir euch eine weitere neue Technik vorstellen, mit der wir seit kurzem experimentieren.
In den letzten Monaten haben wir zahlreiche HTML-Formulare untersucht, um so neue Webseiten und URLs zu ermitteln, die wir ansonsten nicht finden und unseren Usern in der Google-Suche bereitstellen können. Genauer gesagt bedeutet dies, falls wir ein <FORM>-Element auf einer nützlichen Site finden, kann es sein, dass wir eine geringe Anzahl an Anfragen an das Formular senden. Bei Textfeldern verwenden unsere Computer automatisch Worte aus dem Inhalt der jeweiligen Site - bei Auswahl-Menüs, Checkboxen und Radiobuttons wählen wir eine der verfügbaren Optionen im HTML-Code. Wenn wir entsprechende Eingabewerte gewählt haben, erstellen wir URLs, die typischen Nutzeranfragen im Formular entsprechen, und versuchen dann, diese URLs zu crawlen. Falls wir danach davon ausgehen können, dass die Seite, welche auf unsere Anfrage hin geliefert wurde, eine gültige Seite ist und außerdem interessant erscheint und noch nicht in unserem Index enthalten ist, dann werden wir diese Seite möglicherweise ebenfalls in unseren Index aufnehmen, so wie das bei anderen Webseiten auch der Fall ist.
Natürlich halten wir uns bei diesem Experiment an die guten Umgangsformen im Internet. Nur eine kleine Anzahl besonders nützlicher Seiten wird diesem Verfahren unterzogen und unser Crawler, der stets
freundliche Googlebot
, hält sich immer an die robots.txt-Datei und die nofollow- und noindex-Anweisungen. Dies bedeutet, dass wir, wenn ein Formular in der robots.txt-Datei vom Crawling ausgeschlossen wurde, keine URLs crawlen, die durch dieses Formular erzeugt werden.
Außerdem crawlen wir ausschließlich Formulare, welche die GET-Methode verwenden, und vermeiden Formulare, die jegliche Art von Informationen seitens des Users erfordern. Beispielsweise lassen wir Formulare aus, die eine Passwort-Eingabe erfordern oder Begriffe verwenden, die gewöhnlich mit persönlichen Daten in Verbindung gebracht werden, wie z. B. Logins, User-IDs, Kontakt-Adressen usw. Außerdem nehmen wir Rücksicht auf die Auswirkungen eines derartigen Crawlings auf eine Website und begrenzen dieses deshalb auf eine geringe Anzahl an Anfragen je Site.
Die Webseiten, die wir in diesem erweiterten Crawling entdecken, fallen nicht zu Lasten der regulären Seiten einer Site, die ohnehin gecrawlt werden. Somit ergibt sich auch keine Änderung des PageRanks für die anderen Seiten. Genaugenommen wird dadurch lediglich die Sichtbarkeit eurer Site für Google erhöht. Diese Neuerung hat ebenfalls keinerlei bedeutenden Einfluss auf das Crawling und Ranking oder die Auswahl anderer Webseiten.
Dieses Experiment ist ein Teil von Googles umfassendem Bemühen, die Abdeckung des Internets zu erhöhen. Tatsächlich ist bereits seit längerem bekannt, dass HTML-Formulare einen Zugang zu großen Datenbeständen bieten, die gewöhnlich außerhalb der Reichweite von Suchmaschinen liegen. Die Begriffe "Deep Web", "Hidden Web" (verstecktes Web) oder "Invisible Web" (unsichtbares Web) wurden gemeinhin verwendet, um derartigen Content zu bezeichnen, der den Usern von Suchmaschinen bislang verborgen blieb. Indem wir auch HTML-Formulare crawlen (und dabei die robots.txt-Datei beachten), sind wir in der Lage, die User unserer Suchmaschine zu Inhalten zu führen, die ansonsten schwer in den Suchergebnissen zu finden wären. Damit bieten wir Webmastern und Usern ein besseres und umfassenderes Sucherlebnis.
Crawling through HTML forms (English Version)
Post von Jayant Madhavan und Alon Halevy, Crawling and Indexing Team (Übersetzung von Sven, Search Quality)
Labels
#NoHacked
2
2017
1
Accessibility
13
AJAX
1
AMP
7
Android
2
api
1
App-Indexierung
3
Best Practices
99
Bildersuche
2
captcha
1
Chrome
4
Code
12
Crawling
1
Crawling und Indexierung
126
Diskussionsforum
15
Duplicate Content
17
Dynamic Rendering
1
Einsteiger
8
Event
1
events
1
Feedback
1
Geo-Targeting
11
Google Analytics
6
Google Dance
1
Google News
1
Google Places
4
Google-Assistant
1
Google-Suche
59
Google+
9
Hacking
16
Hangouts
1
https
3
JavaScript
3
Kanonische URL
1
Kommentare
1
Konferenz
19
Lighthouse
3
Links
18
Malware
17
Mobile
38
Mobile-first indexing
1
Nachrichten-Center
16
Optimisation
3
PageSpeed Insights
2
Penalties
1
Performance
3
Ranking
1
reCaptcha v3
1
Rendering
2
Rich Snippets
18
Richtlinien für Webmaster
36
robots.txt
7
Safe Browsing
5
Search Console
19
Search Results
1
Security
4
Seitenzugriff
1
SEO
4
Sicherheit
38
Site Clinic
5
Sitemaps
30
Spam Report
9
SSL
1
Structured Data
8
Tools und Gadgets
17
Verschlüsselung
1
Video
132
Webmaster blog
1
Webmaster Community
1
Webmaster-Academy
1
Webmaster-Tools
154
webspam
3
Archiv
2020
Nov
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
2019
Dez
Nov
Okt
Sep
Jun
Mai
Feb
Jan
2018
Dez
Nov
Okt
Sep
Jul
Jun
Mai
Apr
Feb
Jan
2017
Dez
Nov
Jun
Apr
Mär
Jan
2016
Nov
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Jan
2015
Dez
Nov
Okt
Sep
Aug
Jul
Mai
Apr
Mär
Feb
Jan
2014
Nov
Okt
Sep
Aug
Jun
Mai
Apr
Mär
Feb
Jan
2013
Dez
Nov
Okt
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2012
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2011
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2010
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2009
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2008
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feb
Jan
2007
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mär
Feed
Forum für Webmaster
Webmaster-Sprechstunden
Webmaster-Tools-Hilfe
Developers-Site für Webmaster