Okay. Überschriften sind mir schon mal besser gelungen. Aber das Thema ist auch einfach zu spannend.
Ich beschäftige mich ja schon lange intensiver damit, wie eine Suchmaschine funktioniert (Also nicht nur mit Google, sondern auch mit Yandex).
Daher finde ich auch Patente immer spannend. Aktuell macht eines die Runde, das verspricht, mit geringem Aufwand eine deutliche Verbesserung der Ergebnisse erzeugen zu können: End-to-End Query Term Weighting.
Wie so oft mit guten Ideen, ist auch hier die Idee eigentlich einfach: Bei Mehrwortsuchanfragen könnte BERT die Terme gewichten und bestimmte Worte stärker gewichten als andere. Damit könnte beispielsweise bei „Eiscafe mit Nutella-Eis" dafür gesorgt werden, dass „Eiscafe" stärker gewichtet wird, als „mit" und „Eis", aber dass „Nutella" wieder ein etwas höheres Gewicht bekommt.
Das ist insbesondere deshalb einfach zu implementieren, da schon normalerweise die Terme gewichtet werden. Die zentrale Neuerung ist, BERT für die Gewichtung zu nutzen. Diese Gewichtung könnte dann im Rahmen der Query Expansion vorgenommen werden. Hier werden Terme ohnehin schon gewichtet, da Terme im Original-Query höhere Gewichtung haben müssen, als Synonyme.
Ich finde dieses Paper aus mehreren Gründen spannend:
-
Deutliche Verbesserung + Geringer Implementierungsaufwand = Hohe Implementierungswahrscheinlichkeit
-
Es gibt schöne Einblicke darin, wie der Query Expansion Prozess funktioniert und welchen Impact das Query Processing auf die Suchergebnisse haben kann.
-
Es ist für Einsteiger geeignet, die diesen Teil der Suchmaschine besser verstehen wollen.
Sei also kein Tor. Wart nicht ab und lies Dir das kurze Paper einmal durch. Lohnt sich.