Google-Missverständnisse: „im Index“ != „gespidert“

Published 2005-09-25, 12:51

Eines der größten Missverständnisse überhaupt bei Google ist sein Verhalten bei Seiten, die nicht mehr existieren oder per robots.txt aus der Suchmaschine ausgeschlossen wurden. Auch ich habe hier Probleme die richtigen Bezeichnungen zu finden, werde es aber mal versuchen.

Ich sehe auch immer noch Seiten im Index von Google, die es seit über einem Jahr nicht mehr gibt!!! Google zeigt sogar Seiten noch an, die auf dem Server gar nicht mehr vorhanden sind!!!

Wenn jemand so etwas in einem Forum schreibt, kann man mit ziemlicher Sicherheit davon ausgehen dass er eine site:-Abfrage seiner Domain gemacht hat, also alle Google bekannten Seiten seiner Domain aufgelistet haben wollte. Dort tauchen nun manchmal eine Menge URLs auf, die eigentlich schon lange nicht mehr erreichbar sind oder per robots.txt von der Aufnahme in den Index ausgeschlossen wurden. Das ist völlig okay, man muss dazu nur verstehen wie der Googlebot sich durch das Internet hangelt und wie Google mit den Daten umgeht.

Das erste und oberste Ziel des Bots ist es, neue URLs in den Index zu bringen. Sieht er irgendwo einen Link zu einer Seite, nimmt er diese URL ungeprüft in seinen Datenbestand auf – die URL ist nun im Index und kann auch bei site:-Abfragen auftauchen.

Erst danach macht er sich die Arbeit die robots.txt für diese Domain anzufordern und, wenn erlaubt, die Seite zu besuchen und die Seiteninhalte in seinen Datenpool aufzunehmen – die Seite ist nun gespidert. Wenn er darf legt er auch eine Cache-Version der Seite auf den Google-Servern ab.

Der große Unterschied zwischen den beiden Arten ist das Verhalten von Google bei normalen Anfragen. Seiten, die lediglich im Index sind, jedoch noch nicht gespidert, werden bei normalen Keyword-Abfragen bei Google nicht angezeigt – lediglich bei site:-Abfragen. Google hat ja auch (noch) keine Daten zum Inhalt der Seite die durchsucht werden könnten.

Erst wenn der Bot definitiv etwas über den Inhalt der Seite weiß, nimmt er sie auch in die normalen Suchergebnisse auf. Dann ist auch ein Snippet der Seiteninhalte verfügbar und der Inhalt kann durchsucht und bewertet werden.

Auch bei alten, nicht mehr erreichbaren URLs verhält sich der Bot ähnlich. Bekommt er bei einem Besuch der URL einen Status 404 – Not Found zurückgeliefert verschwindet die Seite meist aus den normalen Suchergebnissen – bleibt aber durchaus noch ein paar Jahre bei der site:-Abfrage stehen und wird auch hin und wieder vom Bot besucht – die Seite könnte ja wieder online kommen und neue Inhalte präsentieren.

Topic(s): Google, Kram 10 comments - :)

Diskussion zum Artikel

» Selbst kommentieren

( 1 )

ca. 90% meiner 404er Seiten die noch im Index sind, sind nicht nur über die Site Abfrage zu finden, sondern auch über die normale Keywordrecherche. Es handelt sich bei diesen Seiten meist um Testseiten die dann irgendwann wieder gelöscht wurden.

So habe ich z.B. eine Seite von der noch 248 Seiten im Index sind die aber bereits seit Februar gelöscht sind, einige dieser Seiten erfreuen sich Top Platzierungen bishin zu TOP 5 Plätzen für teilweise gut umkämpfte Keys. Bestücke ich diese Seiten dnn mit passendem Inhalt (Affiliate) sind sie meist nach ein paar Wochen verschwunden bzw. verlieren Ihre guten Positionen, auch eine Umleitung bringt selbiges Ergebniss.

Kommentar by Mario am 25. September 2005
( 2 )

Hat der Googlebot die Seiten seither nochmal besucht? Also seit die Seiten einen 404er liefern?

Kommentar by Jan am 25. September 2005
( 3 )

ja hat er, zwar nicht mehr so häufig, aber er schaut vorbei

Kommentar by Mario am 25. September 2005
( 4 )

Nicht gespiderte URLs bei Google sind ja auch leicht daran zu erkennen, daß sie lediglich mit der URL gelistet sind (kein Titel, keine Beschreibung).

Ansonsten stimme ich Mario zu, habe auch solche Fälle.

Interessant finde ich in dem Zusammenhang auch die „Supplemental Results“, die ja in der Regel garnicht mehr gespidert werden, die wird man dann wohl nur noch über die URL-Console los.

Kommentar by Franz Arians am 25. September 2005
( 5 )

Wenn ich meine robots.txt über das google Tool neu submite habe ich keine Probleme mehr mit toten Seiten. Evtl. sind eure Seiten ja noch irgendwo verlinkt.
http://services.google.com:8882/urlconsole/controller?cmd=reload&lastcmd=login

Kommentar by axel am 14. Oktober 2005
( 6 )

[…] Jan Piotrowski Re: blog.outer-court.com/archive/2 … Hey Philipp, ich bin da anderer Meinung und hatte dazu in meinem Blog auch schonmal was geschrieben, aber eben auf Deutsch: betamode.de/2005/09/25/google- … Ich sehe das Verhalten von Google also nicht als falsch an, wenn deine Testseite nun aber in den normalen Suchergebnissen auftauchen sollte sieht das nat�rlich anders aus. Davon gehe ich aber nicht aus. Mal schaun… […]

Pingback by Google Disrespecting Robots.txt? - Google Blogoscoped Forum am 29. Oktober 2005
( 7 )

Wobei bloss die Tatsache, dass es mit der eigenen Seite funktioniert hat, auch nicht automatisch bedeutet, dass es bei den anderen auch so ist oder sein sollte 🙂

Kommentar by Mark am 5. November 2005
( 8 )

[…] (Ich erinnere an: http://betamode.de/2005/09/25/google-missverstaendnisse-im-index-vs-gespidert/) […]

Pingback by Google und die robots.txt - Experiment- » Suchmaschinen News am 15. November 2005
( 9 )

Der Unterschied zwischen gespidert und im Index von Google….

Ich stolperte die Tage über diesen Artikel, der den Unterschied zwischen gespidert und im Index zu erklären versucht. Demnach würde eine Abfrage per site:domain.de die Anzahl der URLs im Index zurückliefern, die aber nicht notwend…

Trackback by www.JerryWho.de am 18. Januar 2007
( 10 )

Hallo
Hab ich schon gedacht, aber da ich nicht so fit darin bin, mich nicht so getraut was zu ändern.Also jetzt nach so viel input werd ich es angehen.

Kommentar by Francois am 16. Januar 2008

Selbst kommentieren

Trackback-URI, Kommentarfeed. XML-Feed

betamode