Brand-Traffic ist kein SEO-Erfolg. Also eigentlich unter Umständen schon, aber das ist eine andere Geschichte. Auf jeden Fall wollen wir Brand-Traffic filtern. Denn gleich ausweisen wie Non-Brand dürfen wir den Traffic auf keinen Fall.
Egal ob wir das in der GSC, in BigQuery oder auf exportierten Daten in Python oder Knime machen: RegEx ist unser Freund. (Levenshtein Distanzen können auch gute Kumpel sein. Aber wirklich verlassen können wir uns nur auf reguläre Ausdrücke.)
Also her mit dem Hack (und der Erklärung):
[brand]{4,6}
Durch die eckigen Klammern [] erzeugen wir eine Zeichenklasse, in der die Buchstaben in beliebiger Reihenfolge kommen können. Durch die geschweiften Klammern {} geben wir an, wie viele Zeichen vorkommen dürfen. Im Beispiel mindestens 4, maximal 6.
Dadurch matchen wir alle Suchanfragen, die "brand" enthalten. Aber auch "branda", "barnd" und ähnliche Buchstabendreher. Die Anzahl der Vertipper bei großen Brands ist erstaunlich.
Wollen wir Produkte mit dazu nehmen, dann wird daraus:
[brand]{4,6}|Produkt1|Produkt2
Oft haben Produkte Ziffern, die wir aggregieren können:
[brand]{4,6}|Produkt[0-9]+|superprodukt[0-9]+
Wenn wir dann noch mal berücksichtigen, dass Menschen sich nicht an die Konvention halten und "Produkt123", "Produkt 123" oder "Produkt- 123" schreiben, dann haben wir:
[brand]{4,6}|Produkt[- ]*[0-9]+|superprodukt[- ]*[0-9]+
Natürlich wollen wir uns das eigentlich noch ein wenig einfacher strukturieren:
[brand]{4,6}|(Produkt|superprodukt)[- ]*[0-9]+
In vielen Fällen können wir damit innerhalb von Minuten einen 80/20 Brandfilter bauen.
Um die Qualität zu evaluieren, führen wir den Filter aus:
Macht er im Test (beispielsweise mit regex101.com) das, was wir wollen?
Sind alle angezeigten Begriffe wirklich Brand-Begriffe? Wie viele False Positives haben wir in den ersten 100/200 Keywords?
Danach schließen wir die RegEx aus. Wie viele Brand-Begriffe finden wir in den ersten 200-500 Keywords, die wir eventuell noch hinzufügen wollen?
Zur Sicherheit prüfen wir noch mal in Verbindung mit der Startseite (die ja den meisten Brand-Traffic bekommt) in beide Richtungen.
Danach müssen wir uns nur noch überlegen, wie groß der Impact der anonymized Queries ist (falls wir das nicht auf Basis von BigQuery Daten machen):
Gesamt-Clicks
\- Summe Clicks mit Regex
\- Summe Clicks mit Ausschluss der Regex
= Dunkelfeld durch anonymized Queries
Ob der Longtail eher Brand oder eher Non-Brand-Traffic ist, ist einzelfallabhängig. Aber wir können nicht einfach die Annahme treffen, dass der Longtail sich verhält, wie der Shorthead.
Überraschend habe ich frische Likes auf einen alten Kommentar auf LinkedIn bekommen. Daher habe ich den Kommentar noch mal für Dich aufgebohrt und bin mir sicher, dass er Dir beim Filtern helfen wird.