Zum Hauptinhalt springen
Junior Consultant

Wenn Du Dich mal mit Content Optimierung beschäftigt hast, oder einfach nur mal darüber nachgedacht hast, wie die Welt wohl für den Suchbot von Google aussieht, dann bist Du bestimmt schon mal über den Begriff TF-IDF gestolpert.

Was auf den ersten Blick wie die Abkürzung eines drittklassigen Fußballvereins wirkt, ist eigentlich eine leicht erklärte Sache.

TF-IDF steht für Term Frequency - Inverse Document Frequency und ist eine Metrik, die sowohl für Information-Retrieval, als auch für viele Konzepte im Machine Learning genutzt wird.

Für uns ist TF-IDF natürlich besonders interessant, da es uns einen kleinen Einblick in den Prozess der Dokumentenbewertung von Google gibt. Um die Funktion und den Nutzen von TF-IDF zu verstehen, schauen wir uns das am besten an einem Beispiel an:

Stell Dir vor, Du bist Google. Du hast es geschafft, das Internet nach Inhalten zu crawlen und diese zu speichern. Das Problem ist nun jedoch, wie bewertest Du diese Inhalte? Schließlich willst Du Nutzern ja möglichst nur Forbes hilfreiche und passende Inhalte liefern. Wie gehst Du da am besten vor?

Du könntest jemandem, der nach “Glühweinrezept” sucht, einfach alle Seiten des Indexes mit dem Wort “Glühweinrezept” im Text ausspielen. Statt einer Anleitung, wie man leckeren Glühwein zubereitet, hat der Nutzer jetzt hunderte Seiten voll mit Kurzgeschichten, Über-Uns Seiten von Weihnachtsmarktbetreibern und Shoppingseiten für Zimtstangen. Der Nutzer wäre dann etwas überfordert bei der Aufgabe, die für ihn relevanteste Seite zu finden.

Das stellt Dich vor das Problem des Rankings. Und wenn Du etwas ranken willst, musst Du erstmal die Bedeutung des Dokumentes verstehen (oder wenigstens vortäuschen). In der Realität verwendet Google wahnsinnig viele Faktoren und Variablen um Dokumente zu verstehen und zu bewerten, wir schauen uns das allerdings nur aus TF-IDF Sicht an:

Term Frequency

Wenn Du einfach Suchergebnisse anhand der vorhandenen Terme ausspielst, bringt Dich das nicht weiter. Der nächste Schritt wäre das Zählen dieser Terme. Ein Dokument, in dem 5 Mal das Wort Glühwein vorkommt, sollte doch relevanter sein, als eines mit nur 3 Verwendungen des Wortes, oder?

Leider ist es nicht ganz so einfach. Das häufige Vorkommen eines Termes bedeutet nicht, dass der Text auch relevanter ist. Andernfalls würde eine 6.000 Wörter lange Kurzgeschichte über einen fiktiven Weihnachtsmarkt mit 100-facher Verwendung des Keywords “Glühweinrezept” relevanter sein, als ein richtiges Glühweinrezept, welches das Wort nur 5 Mal auf 200 Worte enthält. Längere Texte bringen zwangsweise mehr Verwendungen eines Termes mit sich.

Hier kommt TF - also die Term Frequency ins Spiel. Bewertet wird ein Dokument nicht nur anhand des Vorkommens eines Wortes, sondern anhand der Frequenz, mit der ein Wort im Vergleich zum Rest des Textes vorkommt. Dafür wird einfach die Anzahl des Wortes durch die Anzahl der Wörter im Text dividiert.

TF = Anzahl des Termes / Gesamtanzahl der Worte

Auf unser Beispiel bezogen heißt das:

  • TF der Kurzgeschichte: 100/6000 = 0.017
  • TF des Glühweinrezepts: 5/200 = 0.025

So wird die Häufigkeit der Verwendung eines Wortes und dessen Relevanz im Verhältnis zur gesamten Wortanzahl des Textes bewertet.

Würde Google nur anhand dessen bewerten, wäre das System allerdings sehr spamanfällig. Schließlich könnte jedes 200 Worte lange Rezept den Term Glühwein einfach noch 20 Mal ans Ende des Textes schreiben.

Um Keyword Stuffing nicht positiv zu bewerten, schaut Google sich die Term Frequency in Relation zu allen anderen Dokumenten an. Wenn die Median Term Frequency (von einem Ergebnis >0 ausgehend) 0,02 ist, Deine allerdings bei 0,5 liegt, ist es für Google ein Indiz dafür, dass in dem Text Keyword Stuffing vorliegt.

Inverse Document Frequency

Mit Term Frequency haben wir nun also eine akkurate Methode, die Relevanz eines Wortes für einen Text zu messen. Wir stehen allerdings immer noch vor dem Problem der Bewertung der Wichtigkeit eines Wortes für das Dokument.

Wenn man einfach zu jedem Wort einen Term Frequency Wert misst und dann die höchsten Werte für die Bewertung nimmt, würde die höchste Relevanz wahrscheinlich unwichtigen Wörtern beigemessen werden. Denn selbst ein gut geschriebenes Glühweinrezept wird immer öfter Wörter wie “ist”, “der” oder “und” enthalten, als es das Wort “Glühweinrezept” enthält. Theoretisch würde mit dieser Methode jedes Dokument für solche ranken.

Das Problem löst allerdings die Inverse Document Frequency. Die Inverse Document Frequency schaut sich an, wie häufig oder selten ein Wort im Gesamtkorpus der Dokumente vorkommt und misst somit die Menge an Gewicht, die einem Wort beigemessen wird.

Berechnet wird das Ganze so:

IDF = log (Anzahl der Dokumente / Anzahl des Termes)

Sagen wir, der Google Index würde nur aus 100 Dokumenten bestehen. 10 davon enthalten das Wort “Glühweinrezept” während 99 das Wort “und” enthalten.

  • IDF “Glühwein” = log 100/10 =1
  • IDF “und” = log 100/99 ≈0.0044

Je dichter die Zahl an Null ist, desto häufiger kommt das Wort vor und desto weniger Gewicht wird diesem beigemessen.

TF-IDF

Zusammengefasst lässt sich das gut an einem Beispiel erkennen.

Unser fiktives Glühweinrezept hat 100 Worte, von denen 5 “Glühweinrezept” und 15 “und” sind. Ausgehend an unserer oben berechneten Inverse Document Frequency, würde unsere Rechnung dann so aussehen:

TF-IDF = Anzahl des Termes / Gesamtanzahl der Worte * log (Anzahl der Dokumente / Anzahl des Termes)

  • tf-idf “Glühweinrezept” = (5/100) * (log 100/10) = 0,05 * 1 = 0,05
  • tf-idf “und” = (15/100) * log(100/99) = 0,15 * 0,0044 = 0.00066

Die Zahlen sind leider etwas unschön, allerdings lässt sich leicht erkennen, dass unser fiktives Glühweinrezept wesentlich relevanter für das Keyword “Glühweinrezept” als für den Begriff “und” ist.

Und da der Wert für die Inverse Document Frequency gleich bleibt, ist unser Glühweinrezept durch den höheren Term Frequency Wert auch weiterhin relevanter als die Kurzgeschichte über einen fiktiven Weihnachtsmarkt.

Was heißt das für Dich?

Heutzutage nutzt Google noch viel ausgefeiltere und komplexere Methoden zur semantischen Analyse von Texten. Dennoch bietet die Betrachtung von TF-IDF nicht nur einen praktischen Einblick in die Welt von Google, sondern kann auch ein nützliches Tool für die Analyse Deiner Inhalte sein.

Speziell mit Tools wie Termlabs kannst Du hier Deine Inhalte analysieren. So kannst Du sehen, wie die Term Frequency Werte Deiner wichtigen Keywords im Vergleich zu den Term Frequency Werten der restlichen Dokumente abschneiden. So kannst Du auch sehen, welche anderen wichtigen Begriffe Deinem Content bisher noch fehlen und ihn möglichst informativ ausführen.

Denke nur immer dran, das Ziel sollte nicht keywordreicher Inhalt, sondern hilfreicher Inhalt für Deine Nutzer sein.

Junior Consultant

Das ist ein Artikel aus unserem Newsletter. Wenn Du jeden Dienstag Morgen schlauer werden möchtest, melde jetzt kostenfrei für den SEO-Newsletter an

Kurze, praxisnahe SEO-Tipps – maximal 1× pro Woche. Keine Werbung, kein Spam.

Deine Daten sind bei uns in guten Händen und werden ausschließlich für diesen Newsletter genutzt.