Google-Missverständnisse: „im Index“ != „gespidert“

Published 2005-09-25, 12:51

Eines der größten Missverständnisse überhaupt bei Google ist sein Verhalten bei Seiten, die nicht mehr existieren oder per robots.txt aus der Suchmaschine ausgeschlossen wurden. Auch ich habe hier Probleme die richtigen Bezeichnungen zu finden, werde es aber mal versuchen.

Ich sehe auch immer noch Seiten im Index von Google, die es seit über einem Jahr nicht mehr gibt!!! Google zeigt sogar Seiten noch an, die auf dem Server gar nicht mehr vorhanden sind!!!

Wenn jemand so etwas in einem Forum schreibt, kann man mit ziemlicher Sicherheit davon ausgehen dass er eine site:-Abfrage seiner Domain gemacht hat, also alle Google bekannten Seiten seiner Domain aufgelistet haben wollte. Dort tauchen nun manchmal eine Menge URLs auf, die eigentlich schon lange nicht mehr erreichbar sind oder per robots.txt von der Aufnahme in den Index ausgeschlossen wurden. Das ist völlig okay, man muss dazu nur verstehen wie der Googlebot sich durch das Internet hangelt und wie Google mit den Daten umgeht.

Das erste und oberste Ziel des Bots ist es, neue URLs in den Index zu bringen. Sieht er irgendwo einen Link zu einer Seite, nimmt er diese URL ungeprüft in seinen Datenbestand auf – die URL ist nun im Index und kann auch bei site:-Abfragen auftauchen.

Erst danach macht er sich die Arbeit die robots.txt für diese Domain anzufordern und, wenn erlaubt, die Seite zu besuchen und die Seiteninhalte in seinen Datenpool aufzunehmen – die Seite ist nun gespidert. Wenn er darf legt er auch eine Cache-Version der Seite auf den Google-Servern ab.

Der große Unterschied zwischen den beiden Arten ist das Verhalten von Google bei normalen Anfragen. Seiten, die lediglich im Index sind, jedoch noch nicht gespidert, werden bei normalen Keyword-Abfragen bei Google nicht angezeigt – lediglich bei site:-Abfragen. Google hat ja auch (noch) keine Daten zum Inhalt der Seite die durchsucht werden könnten.

Erst wenn der Bot definitiv etwas über den Inhalt der Seite weiß, nimmt er sie auch in die normalen Suchergebnisse auf. Dann ist auch ein Snippet der Seiteninhalte verfügbar und der Inhalt kann durchsucht und bewertet werden.

Auch bei alten, nicht mehr erreichbaren URLs verhält sich der Bot ähnlich. Bekommt er bei einem Besuch der URL einen Status 404 – Not Found zurückgeliefert verschwindet die Seite meist aus den normalen Suchergebnissen – bleibt aber durchaus noch ein paar Jahre bei der site:-Abfrage stehen und wird auch hin und wieder vom Bot besucht – die Seite könnte ja wieder online kommen und neue Inhalte präsentieren.

Google URL-Console (URL-Konsole)

Published 2005-09-25, 12:10

http://services.google.com:8882/urlconsole/controller

Notiz für mich selbst und alle anderen, die erfolglos versucht haben danach zu googlen.

Wie Google Webseiten NICHT bewertet

Published 2005-09-25, 00:05

Reißerische Übersschrift für einen Beitrag der eigentlich auch gut ein Kommentar bei Robert hätte sein können, ich würd mich jedoch freuen wenn auch noch ein paar weitere Leute die Diskussion mitbekommen, hier nun also als Post.

Lorelle hat sich ein schon etwas älteres Patent zur Suchtechnologie von Google ein wenig näher angeschaut und analysiert. Robert ist irgendwie darauf gestoßen und verweist in seinem Blog mit den Worten „wie Google eine Webseite bewertet“ darauf.

Der Beitrag bei Lorelle ist sicherlich gut gemacht und geht auch sehr gut auf das Patent ein. Es ist hier meiner Meinung nach jedoch immer gefährlich zu sagen: „Google arbeitet nach diesem Muster“. Die Analyse basiert nur auf einem Patent, das Google veröffentlicht hat, sprich auf einer Technik, die sie theoretisch für sinnvoll befinden. Dies sagt aber (leider) gar nichts darüber aus welche dieser Techniken Google denn nun wirklich einsetzt – und was nur Träumerei eines Engineer ist.

Durch diese falsche Annahme kommt es dann leider zu Aussagen wie der folgenden:

Google keeps track of how long visitors stay on your site and from what pages they exit your site.

Hat der Nutzer jedoch keine Google Toolbar installiert, hat Google keinerlei Möglichkeit zu sagen wie lange der Nutzer auf einzelnen Webseiten verbleibt oder nach welcher Seite der die Website wieder verlässt – das steht nur in den Logfiles des Servers auf dem die Seite gehostet ist – auf die Google keinen Zugriff hat.

Solche Ungenauigkeiten ziehen sich leider durch die ganze Analyse und werden als harte Fakten verkauft, und das ist eben nicht ganz richtig. Schlussendlich lesen das dann ein paar hundert Leute, die nicht wirklich Ahnung von der Materie haben, glauben es und erzählen es weiter. Und ehe man es sich versieht wird dann überall geschrieben, die SEO-Gemeinde sei der Meinung, dass kurze Aufenthaltszeiten auf Webseiten für einen Rauswurf bei Google verantwortlich sein könnten.

Ich hoffe, dass ich das mit diesem Posting nun abwenden konnte 🙂

Nachtrag: Das ist übrigens nicht die einzige Ungenauigkeit in dem Beitrag von Lorelle, da gibt es noch einiges mehr was ich so nicht wirklich stehen lassen würde oder bisher nicht ganz verstanden habe. Mir fehlt aber die Zeit das alles genau zu lesen und zu analysieren.

Warum Google Weblogs nicht aus der normalen Suche verbannen wird

Published 2005-09-22, 23:24

Dieser Beitrag war eigentlich sehr sehr lang und noch viel durchdachter, als lang. Dann ging was schief und alles war weg – trotz WordPress-Plugin, das so was eigentlich verhindern sollte. Doofes Plugin. Deshalb nur in „Kurzform“.

Ich antworte hier indirekt auf folgende 3 Beiträge:
http://www.connectedmarketing.de/cm/2005/09/nachtrag_zu_goo.html
http://www.basicthinking.de/blog/2005/09/22/google-blog-search-untergang-der-blogs/
http://www.suchmaschinen-optimierung-seo.info/sosblog/2005/09/22/google-suche-vs-blog-suche/
Vorher die 3 also am besten durchlesen – – – Fertig? Dann weiter…

Ich bin der Meinung, dass Google Weblogs nicht aus der normalen Suche verbannen wird. Hier meine Gründe für diese Annahme:

Ein Suchender geht nicht zu Google, weil er eine tolle Webseite finden möchte. Er sucht Inhalte. Inhalte, die irgend ein Bedürfnis befriedigen, sei es das nach Information, Unterhaltung, oder was auch immer. Ihm ist absolut egal ob dieser Inhalt von einer Zeitung, einer privaten Webseite oder einem Weblog geliefert werden. So lange sein Bedürfnis befriedigt wird, ist er zufrieden und wird weiterhin Google benutzen.

Google’s Ziel ist es also, Inhalte auszuliefern, die möglicherweise das Bedürfnis des Suchenden befriedigen. Spamseiten, die nur Links zu Partnerprogrammen beinhalten, tun das eher selten. Auch bloße Linksammlungen schaffen das eher weniger, und so werden sie mit den Spamseiten aus dem Index genommen oder tauchen auf jeden Fall nicht als Suchergebnis auf. Das sind jetzt nur Beispiele um das System zu verdeutlichen, ich bin sicher da gibt es noch tausende andere Sachen und meine Annahme trifft sicher auch nicht auf alle Linksammlungen zu.

In die Kategorie der eher sinnlosen Seiten fallen auch die „Werbebannerblogs“ die Robert erwähnt. Sie fallen in die Kategorie von Webseiten die Google seinen Besuchern nie präsentieren möchte. Also werden diese früher oder später aus den Suchergebnissen verschwinden. Mehr oder weniger, dass es nicht ganz gelingen wird ist klar, billige Doorwaypages (Brückenseiten die direkt zu anderen Seiten weiterleiten, die eigentlich gar nicht wirklich was mit dem gesuchten zu tun haben) funktionieren auch heute noch – aber es ist sicherlich schwerer geworden als noch vor 3 Jahren den Index damit zuzuspammen.

Normale Weblogs hingegen sind nützlich für den Suchenden wenn sie die passenden Inhalte bieten. Und Weblogs bieten Inhalte, eine ganze Menge sogar. Damit hat Google auch ein Interesse sie dem Suchenden zu präsentieren, denn das macht ihn ja glücklich.

Warum hat Google dann überhaupt eine Blogsuche geschaffen?

Um ein spezielles Bedürfnis der Nutzer zu befriedigen, nämlich nur Inhalte aus Weblogs zu durchsuchen. Weblogs als Container von Inhalten sind speziell und interessant genug um vom Nutzer separat betrachtet und durchsucht zu werden. Genauso verhält es sich bei Onlineshops – hier hat Google seinen Dienst Froogle geschaffen, und die Shops trotzdem nicht aus dem Hauptindex verbannt. Denn wenn jemand auf der Suche nach einer Einkaufsmöglichkeit ist dann sind diese in den Hauptergebnissen immer noch absolut am richtigen Platz.

Warum sind Blogs dann so unverschämt gut gelistet bei Google?

Von wegen unverschämt – sie sind gut gelistet weil sie gut sind. Sie sind gut vernetzt, haben sauberen und guten Quellcode und bieten nebenbei noch gute Inhalte an. Wieso sollte dann ein Blog nicht vor der NewYorkTimes stehen dürfen wenn es den Suchenden glücklich macht? Ich erinnere nochmal dran, Weblogs sind nur Container für Inhalte. Und wer die Inhalt besser präsentiert, darf eben auch damit rechnen dass er davon ein wenig zurückbekommt.

Ja und nu?

Ja nix – Google spielt bei der Blogsuche ein wenig mit unseren RSS- und Atom-Feeds herum und schaut was man draus machen kann, ob die Nutzer damit glücklich werden. Wir haben weiterhin unsere tollen Platzierungen bei der normalen Google-Suche – weil wir tollen Quellcode und viele Links haben. (Okay, das mit dem Quellcode nehm ich ma zurück für Betamode, seh ich grade…).

Und falls ich doch falsch liege, lösch ich einfach den Beitrag hier und sag, den hätte es nie gegeben 🙂

19 queries. 0,091 seconds.