Die ganze SEO-Welt redet von BERT. Dawn Anderson hat einen umfangreichen und extrem guten Artikel geschrieben in dem sie den aktuellen Stand von BERT und die Probleme dahinter herleitet und diskutiert. Der zentrale Satz ist gut versteckt:
In two stage ranking there is first full ranking (the initial ranking of all the documents), and then re-ranking (the second stage of just a selection of top results from the first stage).
Der Satz fast sehr gut zusammen, worum es beim Passage Indexing gehen wird und sagt uns auch, worauf wir bei der Optimierung achten müssen. Was meint das: BERT ist auch bei Optimierung sehr teuer in der Ausführung. Daher ist die Basis vorab immer noch eine „ganz einfache“ Bag of Words vorqualifizierte Liste. Und diese Liste wird dann mit den teuren Methoden in eine Reihenfolge gebracht.
Die erste Phase versucht so viele grundsätzlich relevante Dokumente zusammenzutragen, wie möglich. Wenn hier ein paar nicht ganz so relevante dabei sind, dann ist das nicht so wild. Eine solche Liste ist recht einfach skalierbar abzubilden. Wahrscheinlich wird dabei eine Weiterentwicklung von Okapi BM25 genutzt (eine Weiterentwicklung von WDF*IDF).
In der zweiten Phase können aufgrund der kleineren Dokumentenmenge mehr Ressourcen aufgewandt werden, um die Dokumente in eine relevante Reihenfolge zu bringen. Hier spielen dann die üblichen Rankingfaktoren eine deutlich größere Rolle und natürlich auch BERT.
To summarize, efficiency and effectiveness combined are the main driver for two stage ranking processes. Use the most computationally expensive resources on the most important documents to get the greater precision because that’s where it matters most. Full ranking is stage one with reranking as stage two for improvements on the top-K retrieved from the full collection.
Und warum hängt das nun mit Passage Indexing zusammen? Nun ein Grund ist, dass BERT ein Problem mit langen Dokumenten hat. Zum anderen ist das Ranking von Einzelabschnitten ein lang gehegter Wunsch von Google. Eine schnellere Antwort auf die Frage des Nutzers bietet eine bessere User Experience, mehr Suchen und mehr Klicks auf Werbung.
Im Artikel zeigt Dawn anhand verschiedener Paper, welche Performance-Gewinne BERT-basierte Modelle auch für die erste Phasen haben können. Und warum es in der ersten Phase sinnvoll sein kann, nur Einzelabschnitte eines Dokuments zu bewerten.
Dieser Artikel ist ein Brett, aber eines, das sich lohnt zu bohren.