Zum Hauptinhalt springen

Als Johan und ich am Donnerstagabend über das ein oder andere Probleme eines News Publishers und seiner Sitemaps philosophierten, sind wir auf eine interessante Problematik gestoßen:

Der Publisher, eine regionale Tageszeitung, wurde in der Mitte des 20. Jahrhunderts gegründet und publiziert seine Artikel seit dieser Zeit, in dieser Tageszeitung. Dieses Newsarchiv ist auch online verfügbar.

Jetzt wird es spannend! Nehmen wir z. B. einen Artikel vom 03.03.1968, welches Datum würdest Du der URL in der Sitemap als LastMod geben? Das Datum als der Artikel im original publiziert wurde? Oder das Datum als der Artikel online verfügbar gestellt wurde?

Warum wir uns diese Frage stellen müssen? In der Analyse der Sitemaps unseres Kunden zeigten sich vermehrt Fehler mit ungültigen Datumswerten in der LastMod-Angabe. Als wir uns die Werte anschauten fühlte ich mich sofort wieder in den Informatikkurs "Informatik 1" zurückversetzt. In diesem Kurs ging es vor allem um Speicherverwaltung, unterschiedliche Datentypen und wie der Computer mit diesen unterschiedlichen Datentypen umgeht. So unterscheidet der Computer z.B. zwischen Datentypen für Zeichen und Datentypen für Zahlen. Mit Datentypen für Zahlen kann der Computer unter anderem Rechnen, also Variable A + Variable B = Ergebnis. Dies geht mit Datentypen für Zeichen nicht. Zusätzlich gibt es weitere Untertypen. Je nachdem aus welchen Wertebereichen ich Zahlen speichern muss: Der Datentype "Word" speichert auf einem 32 Bit- System Zahlenwerte zwischen 0 und 232-1. Den Datentype "Integer" kann ich hingegen nutzen, wenn ich auch negative Werte speichern möchte (Wertebereich: -231..231-1).

Was das alles mit unserem Artikel der Tageszeitung vom 03.03.1968 zu tun hat? Dazu muß ich Dir noch erklären, wie der Computer Datumswerte und speziell den 03.03.1968 speichert:

Viele Server im Internet arbeiten mit dem Betriebssystem Linux. Auf diesen Computersystemen werden Datumswerte als so genannter Unix-Timestamp gespeichert. Berechnet wird ein Datum einfach als Anzahl Sekunden seit dem 01.01.1970. Das Publikationsdatum unserer heutigen Newsletterausgabe würde also den Timestamp 1645511400 tragen. Nach dieser Logik ergibt der Timestamp für den 03.03.1968 den Wert -57805200000. Dies ist nach Linux- & Unix-Definition ein gültiger Wert. Jedoch scheint Google für die Verarbeitung des Datenfeldes "LastMod" ein "Word"-Datentype zu nutzen und kann hier keine negativen Werte akzeptiert. Das frühestmögliche Datum für die LastMod-Angabe einer URL kann damit der 01.01.1970 00:00:00 Timestamp 0 sein, bevor Google das Datum als fehlerhaft ausgibt.

Dies stellt Newspublisher mit Archiven und Artikeln, die vor dem 01.01.1970 erschienen sind, vor die Herausforderung, dass diese Publisher ggf. ein zusätzliches Datenfeld benötigen, um ein Publikationsdatum in einer Sitemap bereitstellen können.

Mit dieser These bewaffnet hatte ich dann am selben Abend noch eine Test-Sitemap auf einem privaten Projekt aufgesetzt und diese bei Google und Bing eingereicht. Ich wollte meine These bestätigen. Und siehe da: Bei Google lässt sich das erste valide Datum genau auf den 01.01.1970 legen, wohingegen Bing vorbildlich auch mit älteren Datumswerten vor dem 01.01.1970 umgehen kann.

In meinen Recherchearbeiten zu diesem Artikel bin ich dann wieder an eine Problematik erinnert worden, die mit dem Unix-Timestamp in Verbindung steht. Könnt Ihr Euch noch an das Jahr 1999 erinnern? Das Jahr 2000 stand bevor und die Welt hielt den Atem an, ob unsere Computer dieses Datum überstehen würden oder Raumstationen vom Himmel fallen, wir kein Geld mehr am Geldautomaten bekommen und die Welt untergeht. Alles Fragen, auf die man rückblickend schmunzeln kann.

Aber die Datumsthematik unseres Publishers hat Mal wieder gezeigt: Bei Datumsangaben kann man nie vorsichtig genug sein. Man weiß ja nie.

Das ist ein Artikel aus unserem Newsletter. Wenn Du jeden Dienstag Morgen schlauer werden möchtest, melde jetzt kostenfrei für den SEO-Newsletter an

Kurze, praxisnahe SEO-Tipps – maximal 1× pro Woche. Keine Werbung, kein Spam.

Deine Daten sind bei uns in guten Händen und werden ausschließlich für diesen Newsletter genutzt.