Google-Missverständnisse: „im Index“ != „gespidert“

Published 2005-09-25, 12:51

Eines der größten Missverständnisse überhaupt bei Google ist sein Verhalten bei Seiten, die nicht mehr existieren oder per robots.txt aus der Suchmaschine ausgeschlossen wurden. Auch ich habe hier Probleme die richtigen Bezeichnungen zu finden, werde es aber mal versuchen.

Ich sehe auch immer noch Seiten im Index von Google, die es seit über einem Jahr nicht mehr gibt!!! Google zeigt sogar Seiten noch an, die auf dem Server gar nicht mehr vorhanden sind!!!

Wenn jemand so etwas in einem Forum schreibt, kann man mit ziemlicher Sicherheit davon ausgehen dass er eine site:-Abfrage seiner Domain gemacht hat, also alle Google bekannten Seiten seiner Domain aufgelistet haben wollte. Dort tauchen nun manchmal eine Menge URLs auf, die eigentlich schon lange nicht mehr erreichbar sind oder per robots.txt von der Aufnahme in den Index ausgeschlossen wurden. Das ist völlig okay, man muss dazu nur verstehen wie der Googlebot sich durch das Internet hangelt und wie Google mit den Daten umgeht.

Das erste und oberste Ziel des Bots ist es, neue URLs in den Index zu bringen. Sieht er irgendwo einen Link zu einer Seite, nimmt er diese URL ungeprüft in seinen Datenbestand auf – die URL ist nun im Index und kann auch bei site:-Abfragen auftauchen.

Erst danach macht er sich die Arbeit die robots.txt für diese Domain anzufordern und, wenn erlaubt, die Seite zu besuchen und die Seiteninhalte in seinen Datenpool aufzunehmen – die Seite ist nun gespidert. Wenn er darf legt er auch eine Cache-Version der Seite auf den Google-Servern ab.

Der große Unterschied zwischen den beiden Arten ist das Verhalten von Google bei normalen Anfragen. Seiten, die lediglich im Index sind, jedoch noch nicht gespidert, werden bei normalen Keyword-Abfragen bei Google nicht angezeigt – lediglich bei site:-Abfragen. Google hat ja auch (noch) keine Daten zum Inhalt der Seite die durchsucht werden könnten.

Erst wenn der Bot definitiv etwas über den Inhalt der Seite weiß, nimmt er sie auch in die normalen Suchergebnisse auf. Dann ist auch ein Snippet der Seiteninhalte verfügbar und der Inhalt kann durchsucht und bewertet werden.

Auch bei alten, nicht mehr erreichbaren URLs verhält sich der Bot ähnlich. Bekommt er bei einem Besuch der URL einen Status 404 – Not Found zurückgeliefert verschwindet die Seite meist aus den normalen Suchergebnissen – bleibt aber durchaus noch ein paar Jahre bei der site:-Abfrage stehen und wird auch hin und wieder vom Bot besucht – die Seite könnte ja wieder online kommen und neue Inhalte präsentieren.

Topic(s): Google, Kram 10 comments - :)

Google URL-Console (URL-Konsole)

Published 2005-09-25, 12:10

http://services.google.com:8882/urlconsole/controller

Notiz für mich selbst und alle anderen, die erfolglos versucht haben danach zu googlen.

Topic(s): Google, Notiz 3 comments - :)

Wie Google Webseiten NICHT bewertet

Published 2005-09-25, 00:05

Reißerische Übersschrift für einen Beitrag der eigentlich auch gut ein Kommentar bei Robert hätte sein können, ich würd mich jedoch freuen wenn auch noch ein paar weitere Leute die Diskussion mitbekommen, hier nun also als Post.

Lorelle hat sich ein schon etwas älteres Patent zur Suchtechnologie von Google ein wenig näher angeschaut und analysiert. Robert ist irgendwie darauf gestoßen und verweist in seinem Blog mit den Worten „wie Google eine Webseite bewertet“ darauf.

Der Beitrag bei Lorelle ist sicherlich gut gemacht und geht auch sehr gut auf das Patent ein. Es ist hier meiner Meinung nach jedoch immer gefährlich zu sagen: „Google arbeitet nach diesem Muster“. Die Analyse basiert nur auf einem Patent, das Google veröffentlicht hat, sprich auf einer Technik, die sie theoretisch für sinnvoll befinden. Dies sagt aber (leider) gar nichts darüber aus welche dieser Techniken Google denn nun wirklich einsetzt – und was nur Träumerei eines Engineer ist.

Durch diese falsche Annahme kommt es dann leider zu Aussagen wie der folgenden:

Google keeps track of how long visitors stay on your site and from what pages they exit your site.

Hat der Nutzer jedoch keine Google Toolbar installiert, hat Google keinerlei Möglichkeit zu sagen wie lange der Nutzer auf einzelnen Webseiten verbleibt oder nach welcher Seite der die Website wieder verlässt – das steht nur in den Logfiles des Servers auf dem die Seite gehostet ist – auf die Google keinen Zugriff hat.

Solche Ungenauigkeiten ziehen sich leider durch die ganze Analyse und werden als harte Fakten verkauft, und das ist eben nicht ganz richtig. Schlussendlich lesen das dann ein paar hundert Leute, die nicht wirklich Ahnung von der Materie haben, glauben es und erzählen es weiter. Und ehe man es sich versieht wird dann überall geschrieben, die SEO-Gemeinde sei der Meinung, dass kurze Aufenthaltszeiten auf Webseiten für einen Rauswurf bei Google verantwortlich sein könnten.

Ich hoffe, dass ich das mit diesem Posting nun abwenden konnte 🙂

Nachtrag: Das ist übrigens nicht die einzige Ungenauigkeit in dem Beitrag von Lorelle, da gibt es noch einiges mehr was ich so nicht wirklich stehen lassen würde oder bisher nicht ganz verstanden habe. Mir fehlt aber die Zeit das alles genau zu lesen und zu analysieren.

Topic(s): Google, Kram 5 comments - :)

Sprachverwirrungen

Published 2005-09-23, 13:06

„dankesehr & bitteschön“ oder „dankeschön & bittesehr“?

Topic(s): Kram 1 single comment - :/

Betatest CommentsTrack light

Published 2005-09-23, 01:51

So wie in den Kommentaren zum Beitrag „Gedanken zu: Kommentare, CommentsTrack, Posted Elsewhere“ angekündigt habe ich mich mal hingesetzt und meine dort beschriebene Idee in einem Script umgesetzt.

Continue reading Betatest CommentsTrack light…

Warum Google Weblogs nicht aus der normalen Suche verbannen wird

Published 2005-09-22, 23:24

Dieser Beitrag war eigentlich sehr sehr lang und noch viel durchdachter, als lang. Dann ging was schief und alles war weg – trotz WordPress-Plugin, das so was eigentlich verhindern sollte. Doofes Plugin. Deshalb nur in „Kurzform“.

Ich antworte hier indirekt auf folgende 3 Beiträge:
http://www.connectedmarketing.de/cm/2005/09/nachtrag_zu_goo.html
http://www.basicthinking.de/blog/2005/09/22/google-blog-search-untergang-der-blogs/
http://www.suchmaschinen-optimierung-seo.info/sosblog/2005/09/22/google-suche-vs-blog-suche/
Vorher die 3 also am besten durchlesen – – – Fertig? Dann weiter…

Ich bin der Meinung, dass Google Weblogs nicht aus der normalen Suche verbannen wird. Hier meine Gründe für diese Annahme:

Ein Suchender geht nicht zu Google, weil er eine tolle Webseite finden möchte. Er sucht Inhalte. Inhalte, die irgend ein Bedürfnis befriedigen, sei es das nach Information, Unterhaltung, oder was auch immer. Ihm ist absolut egal ob dieser Inhalt von einer Zeitung, einer privaten Webseite oder einem Weblog geliefert werden. So lange sein Bedürfnis befriedigt wird, ist er zufrieden und wird weiterhin Google benutzen.

Google’s Ziel ist es also, Inhalte auszuliefern, die möglicherweise das Bedürfnis des Suchenden befriedigen. Spamseiten, die nur Links zu Partnerprogrammen beinhalten, tun das eher selten. Auch bloße Linksammlungen schaffen das eher weniger, und so werden sie mit den Spamseiten aus dem Index genommen oder tauchen auf jeden Fall nicht als Suchergebnis auf. Das sind jetzt nur Beispiele um das System zu verdeutlichen, ich bin sicher da gibt es noch tausende andere Sachen und meine Annahme trifft sicher auch nicht auf alle Linksammlungen zu.

In die Kategorie der eher sinnlosen Seiten fallen auch die „Werbebannerblogs“ die Robert erwähnt. Sie fallen in die Kategorie von Webseiten die Google seinen Besuchern nie präsentieren möchte. Also werden diese früher oder später aus den Suchergebnissen verschwinden. Mehr oder weniger, dass es nicht ganz gelingen wird ist klar, billige Doorwaypages (Brückenseiten die direkt zu anderen Seiten weiterleiten, die eigentlich gar nicht wirklich was mit dem gesuchten zu tun haben) funktionieren auch heute noch – aber es ist sicherlich schwerer geworden als noch vor 3 Jahren den Index damit zuzuspammen.

Normale Weblogs hingegen sind nützlich für den Suchenden wenn sie die passenden Inhalte bieten. Und Weblogs bieten Inhalte, eine ganze Menge sogar. Damit hat Google auch ein Interesse sie dem Suchenden zu präsentieren, denn das macht ihn ja glücklich.

Warum hat Google dann überhaupt eine Blogsuche geschaffen?

Um ein spezielles Bedürfnis der Nutzer zu befriedigen, nämlich nur Inhalte aus Weblogs zu durchsuchen. Weblogs als Container von Inhalten sind speziell und interessant genug um vom Nutzer separat betrachtet und durchsucht zu werden. Genauso verhält es sich bei Onlineshops – hier hat Google seinen Dienst Froogle geschaffen, und die Shops trotzdem nicht aus dem Hauptindex verbannt. Denn wenn jemand auf der Suche nach einer Einkaufsmöglichkeit ist dann sind diese in den Hauptergebnissen immer noch absolut am richtigen Platz.

Warum sind Blogs dann so unverschämt gut gelistet bei Google?

Von wegen unverschämt – sie sind gut gelistet weil sie gut sind. Sie sind gut vernetzt, haben sauberen und guten Quellcode und bieten nebenbei noch gute Inhalte an. Wieso sollte dann ein Blog nicht vor der NewYorkTimes stehen dürfen wenn es den Suchenden glücklich macht? Ich erinnere nochmal dran, Weblogs sind nur Container für Inhalte. Und wer die Inhalt besser präsentiert, darf eben auch damit rechnen dass er davon ein wenig zurückbekommt.

Ja und nu?

Ja nix – Google spielt bei der Blogsuche ein wenig mit unseren RSS- und Atom-Feeds herum und schaut was man draus machen kann, ob die Nutzer damit glücklich werden. Wir haben weiterhin unsere tollen Platzierungen bei der normalen Google-Suche – weil wir tollen Quellcode und viele Links haben. (Okay, das mit dem Quellcode nehm ich ma zurück für Betamode, seh ich grade…).

Und falls ich doch falsch liege, lösch ich einfach den Beitrag hier und sag, den hätte es nie gegeben 🙂

Topic(s): Google 5 comments - :)

Google spammt!

Published 2005-09-20, 17:41

…behauptet auf jeden Fall das eigentlich nette ihategoogle.org:
Google’s Spam — an Adsense Conflict of Interest

Recently, in a thread at WebmasterWorld, it was brought to my attention that there is a spider whose user agent points to a certain website: previewgenerator.org

If you go to previewgenerator.org, you will be redirected to an obviously spammy „made for Adsense“ page: http://apps5.oingo.com/apps/domainpark/domainpark.cgi?s=previewgenerator.org&cid=UNFN2124&uid=68.226.216.152

Digging a little further, if you go to http://www.oingo.com, you will be redirected to http://www.appliedsemantics.com/ , which is owned by Google. Furthermore, the domain oingo.com is owned by Google.

Is Google creating spammy pages filled with Adwords/Adsense ads with little other content? Are they running a spider that is perpetrating log spam? Are they truly interested in weeding the spam out of their index?

Okay, nehmen wir das ganze ein wenig auseinander:

  1. Oingo bietet schon eine ziemliche Zeit lang Domainparking-Services (wie zb Sedo es in Deutschland tut) an. Hier kann ein Domaininhaber seine ungenutzten Domains parken und über den Traffic auf der Seite ein paar Cent verdienen da Oingo Werbung einblendet und Teile der Werbeeinnahmen weiterleitet.
  2. Google hat nun die Firma hinter Oingo, Applied Semantics, aufgekauft und damit auch Oingo übernommen.
  3. Trotzdem hat Google mit dem Spider, der da für previewgenerator.org wirbt, absolut gar nichts zu tun. Das ist vermutlich der Webmaster eben dieser Seite, der versucht den Traffic – und damit seinen Verdienst – auf der Seite zu erhöhen.

Fazit: Google is immer noch „not evil“, und ihategoogle könnte ein wenig besser recherchiern. Aber dafür gibts ja mich 🙂

Topic(s): Kram 2 comments - :)

made my day…

Published 2005-09-20, 01:26

Aus meiner Mailbox:

Dazu bitte ich dich, die angehängte Datei auszufüllen und unterschrieben zurückzuschicken (um deiner Kritik vorzugreifen: ein Verfahren mit Online-Akzeptanz des Vertrags ist in Arbeit).

Ich glaube ich mache meine Arbeit recht gut in letzter Zeit 🙂

Topic(s): Kram 2 comments - :)

Keine Vergütung bei Benachrichtigungsfunktion für Vorbestellung

Published 2005-09-18, 18:39

Ich hatte beim Amazon-Partnersupport nachgefragt ob auch Verkäufe, die über eine Vorbestell-Benachrichtigungsemail generiert werden, für den Partner vergütet werden. Als Beispiel die entsprechende Seite für die 2006 erscheinende Konsole Nintendo Revolution.

Leider scheint dies nicht der Fall zu sein, eine Bewerbung lohnt sich also generell erst, sobald die Vorbestellung bei Amazon selbst möglich ist.

Continue reading Keine Vergütung bei Benachrichtigungsfunktion für Vorbestellung…

Cluecraft – Ähm, OpenBC anyone?

Published 2005-09-16, 23:44

Logo Cluecraft
Beim durschschauen von Stellenangeboten bei Stepstone.de bin ich über die Webseite von Cluecraft gestolpert. Das Logo erinnerte mich im Thumbnail so sehr an einen meiner eigenen Entwürfe für ein vergangenes Projekt, dass ich mir das einfach anschauen musste.

Ich finde das Geschäftsmodell bzw den Gedanken hinter Cluecraft sehr seltsam. Auf der Startseite stellt sich Cluecraft folgendermaßen vor:

Willkommen bei Cluecraft, dem Online-Marktplatz, auf dem Geschäftsleute Firmen- und Adressinformationen in Form von virtuellen Visitenkarten austauschen, aktualisieren und verkaufen können. Cluecraft ist ein neuartiges, kollaboratives System durch das die Mitglieder ihre Kontakt- und Adressdatenbanken untereinander austauschen können. Gemeinsam bauen die Mitglieder eine riesige Datenbank mit Firmen- und Kontaktadressen auf und erleichtern dadurch den direkten Zugang zu den Entscheidern in Unternehmen.

Die Funktionsweise wird so erklärt:

Als webbasiertes Modell können Mitglieder sich entweder am Aufbau der Datenbank beteiligen und monatlich 25 neue Kontakte einstellen oder den monatlichen Mitgliedbeitrag von 25€ entrichten. In beiden Fällen erhält das Mitglied Punkte, mit denen neue Kontakte abgerufen werden können. Darüber hinaus können Kunden Punkte erwerben, indem Sie bestehende Kontakte aktualisieren oder indem Sie neue Mitglieder werben. Mitglieder haben die Möglichkeit erworbene Punkte an die Community zu verkaufen und dadurch bares Geld zu verdienen.

Nehmen wir die ganzen Handel- und Verkaufselemente heraus landen wir doch wieder beim guten alten OpenBC, oder habe ich da was falsch verstanden?

Cluecraft bringt hier meiner Meinung nach nur eine sehr unangenehme Komponente neu ins Spiel, den Verkauf von fremden Adressen und Kontaktdaten. Oder ist das bei deutschen Unternehmen so üblich, und ich kenne das Mangels Praxiserfahrung einfach noch nicht?

Topic(s): Kram 1 single comment - :/

20 queries. 1,101 seconds.