Es gibt Dinge, die kann man durch Lesen lernen. Oft ist es aber hilfreich zu bauen. Diese Woche sind wir über diesen Artikel gestolpert: “Building a full-text search engine in 150 lines of Python code” Keine Angst: Der Artikel liest sich auch klasse, wenn man nicht programmieren kann.
Das tolle am Artikel: Er nimmt einen einmal mit auf die Reise: Wie baut man einen Index, was sind Recall, Precision und Relevancy? Wie funktioniert Stemming und was kann man mit TF/IDF anfangen? Es gibt wenige Artikel, die mit so wenigen Worten so viel transportieren.
Das schönste daran: Es macht Spaß zu überlegen welche Themen denn als nächstes hinzugebaut werden müssten und was Google alles anders macht, um die Ergebnisse besser zu machen:
- Welche Komplexität kommt durch Crawling dazu?
- Hilft Pagerank für Recall, Precision oder Relevanz?
- An welcher Stelle spielt RankBrain in die Gleichung?
Passend dazu: Google hat noch mal ein paar erweiterte Insights dazu gegeben, wie sie Vertipper normalisieren. Bisher war es häufig: Welche Buchstaben liegen auf der Tastatur in der Nähe. Jetzt ist es mehr Machine Learning.
Wir glauben: Eine der größten Errungenschaften der Suchmaschine ist die Normalisierung von Vertippern. Stell Dir vor Du müsstest auf Deiner Seite weiter „Brotosde“, „Optimirung“ und „Schiffhartsgesellschaft“ schreiben.