Host: example.comConnection: Keep-aliveAccept: */*From: googlebot(at)googlebot.comUser-Agent: Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)Accept-Encoding: gzip,deflate
Website: Ich bin sehr komplex. Ich habe viele Dateitypen. Deine Header sagen "Accept: */*". Indexierst du alle URLs oder werden bestimmte Dateiendungen automatisch gefiltert?Googlebot: Das kommt darauf an, wonach ich Ausschau halte.Wenn ich für die reguläre Websuche unterwegs bin und Links zu MP3-Dateien und Videos sehe, dann lade ich diese wahrscheinlich nicht herunter. Wenn ich ein JPG sehe, dann behandle ich es auch anders als einen HTML- oder einen PDF-Link. Beispielsweise ist mit großer Wahrscheinlichkeit anzunehmen, dass sich JPGs nicht so oft ändern wie HTML, also checke ich das JPG weniger häufig, um Bandbreite zu sparen. Bin ich unterdessen dabei, als gelehrter Google Scholar nach Links zu schauen, dann bin ich viel interessierter an dem PDF-Artikel als an der JPG-Datei. Es lenkt einen Gelehrten einfach zu sehr ab, Doodles (wie JPGs) and Videos von Skateboard fahrenden Hunden herunterzuladen, findest du nicht?Website: Ja, das stimmt. Ich bewundere deine Disziplin – ich liebe Doodles (JPGs) und kann ihnen kaum widerstehen.
Googlebot: Ich auch, ich bin nicht immer so schulmeisterlich. Wenn ich für die Bildsuche crawle, dann bin ich äußerst interessiert an JPGs. Für News-Ergebnisse schaue ich hauptsächlich nach HTML und nahe liegenden Bildern.
Es gibt auch viele Dateiendungen (exe, dll, zip, dmg…), die oft zu groß und weniger nützlich für eine Suchmaschine sind.
Website: Wenn du meine URL siehst, würdest du sie (wimmer wimmer) abweisen, nur weil sie eine unbekannte Dateiendung enthält?
Googlebot: Website, lass mich ein bisschen weiter ausholen. Nachdem ich eine Datei heruntergeladen habe, benutze ich den Content-Type-Header, um zu prüfen, ob sie wirklich HTML, ein Bild, Text oder etwas anderes ist. Für spezielle Datentypen wie PDF-Dateien, Word-Dokumente oder Excel-Tabellen vergewissere ich mich, dass sie ein gültiges Format haben und extrahiere den Text-Content. Vielleicht haben sie einen Virus; man weiß ja nie. Wenn das Dokument oder der Datentyp richtig vermurkst sind, dann kann ich normalerweise nicht viel tun, außer den Content zu verwerfen.
Wenn ich also URLs wie http://www.example.com/page1.LOL111 mit einer unbekannten Dateiendung crawle, dann beginne ich wahrscheinlich mit dem Herunterladen. Falls ich den Content-Typ nicht aus dem Header erschließen kann, oder falls es ein Format ist, das wir nicht indexieren (z. B. mp3), dann lasse ich sie in Ruhe. Ansonsten fahren wir mit dem Indexieren fort.
Website: Entschuldige, dass ich dich unter die Lupe nehme, Googlebot, aber mir ist aufgefallen, dass deine Accept-Encoding-Header sagen:
Accept-Encoding: gzip,deflateKannst du mir diese Header erklären?
Googlebot: Klar. Alle großen Suchmaschinen und Webbrowser unterstützen die gzip-Komprimierung des Contents, um Bandbreite zu sparen. Andere Angaben, die du an dieser Stelle sehen könntest, sind unter anderem "x-gzip" (dasselbe wie "gzip"), "deflate" (das wir ebenfalls unterstützen) und "identity".