|
Der Yahoo-Bonus und seine Auswirkungen auf die Suchmaschinen-Optimierung
Vielfach wird angenommen, das einige Websites von Google eine spezielle Page-Rank-Bewertung erhalten, die einen manuellen Eingriff erfordert und sich nicht direkt aus dem ursprünglichen Page-Rank-Algorithmus ergibt. Zu diesen Websites zählen z.B. die Verzeichnisse Yahoo und Open Directory Project (dmoz.org). Im Rahmen der Suchmaschinen-Optimierung hätte diese Annahme zur Folge, dass ein Eintrag in die genannten Verzeichnisse für den Page-Rank von besonderer Bedeutung ist.

Ein häufig genannter Ansatz für die besondere Bewertung spezieller Websites ist, dass diesen für die iterative Berechnung des Page-Rank ein höherer Startwert zugewiesen wird. Diese mögliche Vorgehensweise soll anhand eines sehr einfachen Beispiels überprüft werden. Wir betrachten ein 2-Seiten-Web, bei dem jede der beiden Seiten jeweils ausschließlich auf die andere verlinkt. Der einen Seite wird ein Startwert von 10 zugewiesen, der anderen ein Startwert von 1. Der Dämpfungsfaktor d wird in diesem Beispiel auf 0.1 gesetzt, da bei einem geringen Dämpfungsfaktor der Page-Rank im Zuge der Iterationen schneller konvergiert. Damit ergeben sich folgende Formeln für die Page-Rank-Berechnung:
PR(A) = 0.9 + 0.1 PR(B) PR(B) = 0.9 + 0.1 PR(A)
Die Page-Rank-Werte ergeben sich im Laufe der Iterationen wie folgt:
| Iteration | PR (A) | PR (B) | | 0 | 1 | 10 | | 1 | 1.9 | 1.09 | | 2 | 1.009 | 1.0009 | | 3 | 1.00009 | 1.000009 |
Es wird unmittelbar ersichtlich, dass die Page-Rank-Werte trotz der Vergabe besonderer Startwerte für die Berechnung jeweils gegen 1 konvergieren, so wie es auch ohne die Vergabe spezieller Startwerte zu erwarten gewesen wäre. Bei ausreichend vielen Iterationen hat somit der Startwert keinerlei Auswirkung auf den Page-Rank. Auswirkungen würden sich lediglich ergeben, wenn nur wenige Iterationen durchgeführt werden. Hier ist allerdings zu bedenken, dass sich etwa in unserem Beispiel die Page-Rank-Relation zwischen den beiden Seiten direkt nach der ersten Iteration umkehrt. Hierzu sei angemerkt, dass für die rekursive Berechnung jeweils die Page-Rank-Werte der aktuellen Iteration und nicht etwa der vorherigen genutzt wurden. Wären die Werte der vorherigen Iteration genutzt worden, würde die Page-Rank-Relation alterieren.
Modifikation des Page-Rank-Algorithmus
Dass eine Zuweisung spezieller Startwerte ohne Auswirkungen bleibt, bedeutet jedoch nicht, dass Websites nicht durch einen Eingriff in den Page-Rank-Algorithmus bevorzugt werden können. So beschreibt Lawrence Page bereits in seiner Patentschrift zum Page-Rank-Verfahren (United States Patent 6,285,999) die Möglichkeit für die besondere Bewertung spezieller Webpages. Der Ausgangspunkt für seine Überlegungen ist, dass der Zufalls-Surfer aus dem Random Surfer Modell zwar mit einer starr festgelegten Wahrscheinlichkeit aufhört, Links zu verfolgen, dann aber im Gegensatz zum ursprünglichen Page-Rank-Algorithmus nicht mehr mit der gleichen Wahrscheinlichkeit eine Webpage für einen erneuten Start seines Surf-Vorgangs auswählt. Es entspricht schließlich dem normalen Verhalten eines Internet-Nutzers, dass er als Ausgangspunkt mit einer höheren Wahrscheinlichkeit etwa eines der genannten Verzeichnisse Yahoo oder ODP wählt.
Damit die besondere Bewertung einzelner Webpages in dieser Form in den ursprünglichen Page-Rank Algorithmus einfließen kann, muss er um einen weiteren Erwartungswert erweitert werden. Die entsprechende Formel hat dann folgendes Aussehen:
PR(A) = E(A) (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Hierbei ist (1-d) jetzt die Wahrscheinlichkeit, mit der der Zufalls-Surfer das Weiterverfolgen von Links abbricht und E(A) die nach der Anzahl der Webpages gewichtete Wahrscheinlichkeit, mit der der Zufalls-Surfer die Seite A danach aufruft. Bei E handelt es sich dabei wiederum um einen Erwartungswert, dessen Durchschnitt über alle Seiten gleich 1 ist, damit der Durchschnitt der Page-Rank-Werte weiterhin gegen 1 konvergiert und nicht etwa durch die besondere Bewertung spezieller Seiten schwankt und somit der Page-Rank einen unregelmäßigen Einfluss auf die Gesamtbewertung von Seiten einnimmt.
In unserem Beispiel liege nach dem Abbruch des Surfvorgangs durch den Zufalls-Surfer die Wahrscheinlichkeit für den Aufruf von Seite A bei 10% und die Wahrscheinlichkeit für den Aufruf von Seite B bei 90%. Damit ist bei einem 2-Seiten-Web E(A)=0.2 und E(B)=1.8. Für die Ermittlung der Page-Rank Werte der beiden Seiten ergeben sich bei einem Dämpfungsfaktor d=0.5 hierdurch die folgenden Gleichungen:
PR(A) = 0.2 × 0.5 + 0.5 × PR(B) PR(B) = 1.8 × 0.5 + 0.5 × PR(A)
Die Lösung dieses Gleichungssystems ergibt die folgenden Page-Rank-Werte:
PR(A) = 11/15 PR(B) = 19/15
Die Summe der beiden Page-Rank-Werte liegt weiterhin bei 2. Die höhere Wahrscheinlichkeit für das Aufrufen von Seite B nach dem Abbruch spiegelt sich in ihrem höheren Page-Rank-Wert wider. Die gleichmäßige Verlinkung der beiden Seiten untereinander vermindert jedoch ganz deutlich die Auswirkung der höheren Aufrufwahrscheinlichkeit auf den Page-Rank.
Es ist also möglich, eine besondere Gewichtung einzelner Seiten in den Page-Rank-Algorithmus einfließen zu lassen, ohne dass dessen Charakter grundsätzlich verändert werden müsste. Fraglich bleibt jedoch, nach welchen Kriterien die Gewichtung erfolgen kann. In der Patentschrift zum Page-Rank-Verfahren nennt Lawrence Page hierzu explizit die Nutzung tatsächlichen Benutzerverhaltens. Daten zum tatsächlichen Nutzerverhalten werden von Google über die Google Toolbar gesammelt. Das besondere hierbei ist, dass nicht einmal allzu große Datenmengen verarbeitet werden müssten, wie dies der Fall wäre, wenn eine Bewertung ausschließlich auf Nutzerverhalten basieren würde. Eine begrenzte Stichprobe wäre durchaus ausreichend, um zumindest die 1.000 oder 10.000 wichtigsten Anlaufstellen im Web zu ermitteln. Der Page-Rank-Algorithmus wäre dann in der Lage, über die Link-Struktur des Webs die Lücken zu füllen.
Die Ausführungen zum Einfließen tatsächlichen Benutzerverhaltens in das Page-Rank-Verfahren sind natürlich pure Spekulation. Ob überhaupt eine besondere Gewichtung spezieller Seiten stattfindet, wird letztlich ein Geheimnis der Google-Verantwortlichen bleiben.
Dennoch Zuweisung bestimmter Startwerte?
Obwohl die Zuweisung bestimmter Startwerte für die Page-Rank-Berechnung bei hinreichend vielen Iterationen wirkungslos für das Ergebnis der Berechnung bleibt, kann eine entsprechende Vorgehensweise durchaus sinnvoll sein.
Wir betrachten hierzu unser 3-Seiten-Beispiel aus den Seiten A, B und C, wobei Seite A sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt lediglich auf Seite C und Seite C wiederum verlinkt auf Seite A. Den Dämfungsfaktor d setzen wir in diesem Falle für die Berechnungen auf 0.75. Hierdurch ergeben sich die folgenden Gleichungen für die iterative Berechnung des Page-Ranks der einzelnen Seiten:
PR(A) = 0.25 + 0.75 PR(C) PR(B) = 0.25 + 0.75 (PR(A) / 2) PR(C) = 0.25 + 0.75 (PR(A) / 2 + PR(B))
Grundsätzlich muss den einzelnen Seiten kein Startwert vor Beginn der Iterationen zugewiesen werden. Sie haben in diesem Falle einen Wert von 0 und es ergibt sich das folgende Bild:
| Iteration | PR(A) | PR(B) | PR(C) | | 0 | 0 | 0 | 0 | | 1 | 0.25 | 0.34375 | 0.60156 | | 2 | 0.70117 | 0.51294 | 0.89764 | | 3 | 0.92323 | 0.59621 | 1.04337 | | 4 | 1.03253 | 0.63720 | 1.11510 | | 5 | 1.08632 | 0.65737 | 1.15040 | | 6 | 1.11280 | 0.66730 | 1.16777 | | 7 | 1.12583 | 0.67219 | 1.17633 | | 8 | 1.13224 | 0.67459 | 1.18054 | | 9 | 1.13540 | 0.67578 | 1.18261 | | 10 | 1.13696 | 0.67636 | 1.18363 | | 11 | 1.13772 | 0.67665 | 1.18413 | | 12 | 1.13810 | 0.67679 | 1.18438 | | 13 | 1.13828 | 0.67686 | 1.18450 | | 14 | 1.13837 | 0.67689 | 1.18456 | | 15 | 1.13842 | 0.67691 | 1.18459 | | 16 | 1.13844 | 0.67692 | 1.18460 | | 17 | 1.13845 | 0.67692 | 1.18461 | | 18 | 1.13846 | 0.67692 | 1.18461 | | 19 | 1.13846 | 0.67692 | 1.18461 | | 20 | 1.13846 | 0.67692 | 1.18461 | | 21 | 1.13846 | 0.67692 | 1.18461 | | 22 | 1.13846 | 0.67692 | 1.18462 |
Bei einer Zuweisung eines Startwertes von 1 ergibt sich das folgende Bild für die Durchführung der Iterationen:
| Iteration | PR(A) | PR(B) | PR(C) | | 0 | 1 | 1 | 1 | | 1 | 1 | 0.625 | 1.09375 | | 2 | 1.07031 | 0.65137 | 1.13989 | | 3 | 1.10492 | 0.66434 | 1.16260 | | 4 | 1.12195 | 0.67073 | 1.17378 | | 5 | 1.13034 | 0.67388 | 1.17928 | | 6 | 1.13446 | 0.67542 | 1.18199 | | 7 | 1.13649 | 0.67618 | 1.18332 | | 8 | 1.13749 | 0.67656 | 1.18398 | | 9 | 1.13798 | 0.67674 | 1.18430 | | 10 | 1.13823 | 0.67684 | 1.18446 | | 11 | 1.13835 | 0.67688 | 1.18454 | | 12 | 1.13840 | 0.67690 | 1.18458 | | 13 | 1.13843 | 0.67691 | 1.18460 | | 14 | 1.13845 | 0.67692 | 1.18461 | | 15 | 1.13845 | 0.67692 | 1.18461 | | 16 | 1.13846 | 0.67692 | 1.18461 | | 17 | 1.13846 | 0.67692 | 1.18461 | | 18 | 1.13846 | 0.67692 | 1.18461 | | 19 | 1.13846 | 0.67692 | 1.18462 |
Wird nunmehr den Seiten ein initialer Page-Rank zugewiesen, der der tatsächlichen Page-Rank-Verteilung etwas mehr entspricht (1.1 für Seite A, 0.7 für Seite B und 1.2 für Seite C), ergibt sich das folgende Bild:
| Iteration | PR(A) | PR(B) | PR(C) | | 0 | 1.1 | 0.7 | 1.2 | | 1 | 1.15 | 0.68125 | 1.19219 | | 2 | 1.14414 | 0.67905 | 1.18834 | | 3 | 1.14126 | 0.67797 | 1.18645 | | 4 | 1.13984 | 0.67744 | 1.18552 | | 5 | 1.13914 | 0.67718 | 1.18506 | | 6 | 1.13879 | 0.67705 | 1.18483 | | 7 | 1.13863 | 0.67698 | 1.18472 | | 8 | 1.13854 | 0.67695 | 1.18467 | | 9 | 1.13850 | 0.67694 | 1.18464 | | 10 | 1.13848 | 0.67693 | 1.18463 | | 11 | 1.13847 | 0.67693 | 1.18462 | | 12 | 1.13847 | 0.67692 | 1.18462 | | 13 | 1.13846 | 0.67692 | 1.18462 |
Es zeigt sich, dass je näher die zugewiesenen Startwerte der tatsächlichen Verteilung kommen, die Page-Rank-Werte offenbar um so schneller konvergieren. Damit wären weniger Iterationen für die Page-Rank-Berechnung erforderlich, was insbesondere angesichts eines stets wachsenden Webs die Lieferung von auf einer aktuelleren Datanbasis gestützten Suchmaschinenergebnissen ermöglichen kann. Ausgangspunkt für eine hinreichend exakte Annahme könnten dabei für Seiten, die bereits den jeweils vorhergegangenen Berechnungszyklus durchlaufen haben, die Page-Rank-Werte aus diesem vorhergegangenen Berechnungszyklus sein. Neu in den Index aufgenommenen Seiten könnte dann ein initialer Page-Rank von 1 zugewiesen werden, der sich dann bereits nach der ersten Iteration sehr schnell dem tatsächlichen Zustand angleicht.
Quelle: pr.efactory.de
|