Der Google Algorithmus: Machine Learning zur Qualität von Website-Inhalten

Der Panda-Algorithmus von 2011

An dieser Stelle möchte ich kurz was dazu schreiben, wie Google im Jahr 2011 den Panda-Algorithmus eingeführt hat und seitdem die inhaltliche Qualität von Webseiten berücksichtigt. Der Algorithmus wurde von Google wie folgt angekündigt:

Unsere Algorithmen für die Websitequalität sollen Nutzer dabei unterstützen, „qualitativ hochwertige“ Websites zu finden. Dafür verringern sie das Ranking von Inhalten mit geringerer Qualität. Bei der kürzlich eingeführten Änderung an Panda dreht sich alles um die schwierige Aufgabe, die Qualität von Websites algorithmisch zu bewerten.

Google am Freitag, 6. Mai 2011

Die Hinweise in dieser Ankündigung waren ziemlich allgemein. Wie kann ein Algorithmus beurteilen, was „Inhalte mit geringerer Qualität“ sind? Er kann es nicht. Oder zumindest könnte er es nicht einfach so. Um einen solchen Algorithmus zu entwickeln, der etwas so Subjektives wie „Qualität“ beurteilen kann, hat Google mit Testern gerarbeitet und anhand deren Einschätzung den Algorithmus weiter verfeinert. Dieser Prozess ist längst nicht abgeschlossen und wird immer weiter entwickelt. Ich hatte ja schon mal was zu einem späteren Update geschrieben. Um den Prozess jedoch grundsätzlich zu verstehen, beginnen wir hier nochmal ganz am Anfang.

23 Fragen

Google gab den Testern 23 Fragen, die sie zu ausgewählten Seiten beantworten sollten. Deren Antworten wurden dann vom einem maschinellen Lernalgorithmus verarbeitet und als dieser irgendwann genug Informationen gesammelt hatte, was Menschen als gut oder schlecht bewerten, konnte dieser dann selbst diese Unterscheidungen treffen. Googles Panda-Algorithmus hat so ein eigenes Verständnis für Qualität entwickelt. Als dieses Update schließlich live ging, sind die Suchergebnisse bei Google sofort besser geworden und die ganzen Spamseiten fast völlig aus dem Index verschwunden.

Seitdem ist folgende Frage der Heilige Gral im Online-Marketing: Was beachtet der Google-Algorithmus bei der Analyse, wie gut eine Website ist? Ganz genau weiß das niemand! Der Google Algorithmus wurde jedoch so entwickelt, dass er die menschliche Wahrnehmung imitiert. Diese Imitation nahm in den 23 Fragen ihren Anfang. Wenn wir also eine Website erstellen, die bei der Beantwortung dieser Fragen durch Menschen gut abschneidet, dann wird sie wahrscheinlich auch der Google Algorithmus gut platzieren.

Wenn Sie diese Fragen durchgehen können Sie sich fragen, wie wie gut Ihre Website bei dieser Art von Prüfung abschneiden würde und was Sie tun könnten, um sich zu verbessern. Wenn Sie dann diese Änderungen vornehmen, stehen die Chancen gut, dass die Qualitätsalgorithmen von Google Ihre Website besser wahrnehmen und Ihr Ranking verbessern.

Würdet ihr den Informationen in diesem Artikel vertrauen?

Wurde der Artikel von einem Experten oder einem sachkundigen Laien verfasst oder ist er eher oberflächlich?

Gibt es auf der Website doppelte, sich überschneidende oder redundante Artikel zu denselben oder ähnlichen Themen, deren Keywords nur leicht variieren?

Würdet ihr dieser Website eure Kreditkarteninformationen anvertrauen?

Enthält dieser Artikel Rechtschreib-, stilistische oder sachliche Fehler?

Entsprechen die Themen den echten Interessen der Leser der Website oder werden auf der Website vor allem Inhalte generiert, mit denen ein gutes Ranking in Suchmaschinen erzielt werden soll?

Enthält der Artikel Originalinhalte oder -informationen, eigene Berichte, eigene Forschungsergebnisse oder eigene Analysen?

Bietet die Seite einen Mehrwert verglichen mit anderen Seiten in den Suchergebnissen?

In welchem Maß werden die Inhalte einer Qualitätskontrolle unterzogen?

Werden in dem Artikel unterschiedliche Standpunkte berücksichtigt?

Ist die Website eine anerkannte Quelle für das entsprechende Thema?

Stammen die Inhalte aus einer Massenproduktion oder von einer größeren Zahl externer Autoren bzw. werden sie über ein großes Netzwerk von Websites verbreitet, sodass einzelnen Seiten oder Websites eher weniger Aufmerksamkeit oder Sorgfalt gewidmet wird?

Wurde der Artikel sorgfältig redigiert oder scheint er eher sorglos oder hastig erstellt worden zu sein?

Hättet ihr bei gesundheitsbezogenen Suchanfragen Vertrauen in die Informationen dieser Website?

Würdet ihr diese Website als kompetente Quelle erkennen, wenn sie namentlich erwähnt würde?

Bietet dieser Artikel eine vollständige oder umfassende Beschreibung des Themas?

Enthält dieser Artikel aufschlussreiche Analysen oder interessante Informationen, die nicht allgemein bekannt sind?

Würdet ihr diese Seite zu euren Lesezeichen hinzufügen, an Freunde weitergeben oder empfehlen?

Enthält dieser Artikel unverhältnismäßig viele Anzeigen, die vom eigentlichen Inhalt ablenken oder diesen beeinträchtigen?

Könntet ihr euch diesen Artikel in einem Printmagazin, einer Enzyklopädie oder einem Buch vorstellen?

Sind die Artikel kurz oder fehlt es ihnen an Substanz bzw. nützlichen Informationen?

Wurden die Seiten mit großer Sorgfalt und Detailgenauigkeit oder eher sorglos erstellt?

Würden sich Nutzer beschweren, wenn sie Seiten dieser Website sehen?

Google am Freitag, 6. Mai 2011

Was können wir über den Google Algorithmus lernen?

Sie stellen bestimmt fest, dass objektive Fragen wie zum Beispiel „Enthält dieser Artikel Rechtschreibfehler?“ ziemlich einfach beantwortet werden können. Interessanter sind die subjektiven Fragen wie „Würdet ihr den Informationen in diesem Artikel vertrauen?“. Diese sind viel offener für Interpretationen und hier hat der Google Algorithmus wahrscheinlich einen viel größeren Anteil von Machine Learning inne. Wenn wir diese Fragen auf Webseiten anwenden, die momentan sehr gut oder auch schlecht in Suchergebnissen platziert werden, können wir viel darüber lernen, wie der Google Algorithmus tickt und unsere Inhalte weiter verbessern.