Meine heutige Überschrift klingt fast wie "Unwissenheit schützt vor Strafe nicht" - und aus sicht eines Webseitenbetreibers könnte man es auch als Strafe ansehen, wenn wichtige Unterseiten einer Website nicht oder nur sehr schleppend in den Suchindex aufgenommen werden. Tausende unwichtige URLs hingegen ungewollt immer und immer wieder gecrawlt werden, obwohl man mühsam jeden Link zu diesen unerwünschten URLs mit "nofollow" gekennzeichnet hat. John antwortete am 11.01. auf eine Frage eines Benutzers, ob die Kennzeichnung eines Links mit "nofollow" dazu genutzt werden kann, die Indexierung der verlinkten URL zu verhindern mit:
"No. Essentially, nofollow tells us not to pass any PageRank to those pages, but it doesn't mean that we will never index that page. So if you really want a page to be blocked from indexing, make sure it has a noindex on it. Don't rely on us not accidentally running across a random link to that page. So I would not assume that those two are the same."
Übersetzt sagt John:
"Nein. Im Wesentlichen sagt uns nofollow, dass wir keinen PageRank an diese Seiten weitergeben sollen, aber es bedeutet nicht, dass wir diese Seite niemals indizieren werden. Wenn Sie also wirklich möchten, dass eine Seite für die Indizierung gesperrt wird, stellen Sie sicher, dass sie einen noindex enthält."
Zudem hat Google bereits 2020 mitgeteilt, dass Nofollow-Links in Zukunft auch verarbeitet, die dahinter liegenden Seiten gecrawlt und indexiert werden können. Es gilt also Links sinnvoll und mit Bedacht zu setzen. Möchtest Du Links wirklich vor dem Indexieren schützen, so ist auf jeden Fall ein "noindex" in dem Robots-Meta-Tag oder im HTTP-Header zu setzen, denn Du weist nicht, auf welchem Wege die Suchmaschinen doch auf Deine URLs stossen werden.
Sollte es sich um tausende URLs handeln, die auf "noindex" gesetzt werden sollen und Du von Beginn an schon weisst, dass es Probleme mit googles Caffeine geben könnte, da es zu viele URLs sind, dann sollte gleich von Anfang an die richtige Strategie für den Umgang mit solchen URLs und deren Verlinkung gewählt werden. In solch einem Fall kann die einfache Maskierung der betroffenen Links mit einem JavaScript-OnClick-Event, der Einsatz von PRG-Pattern (das maskieren der Links durch ein HTML-Formular) oder eine gezielte Disallow- Anweisung in der robots.txt-Datei schon ausreichen.
Und wie sieht es auf Deinen bestehenden Websites aus? Jetzt ist der richtige Zeitpunkt ein frischen Crawl mit dem Screaming Frog anzustoßen und es herauszufinden!