Sei der Erfinder der nächsten robots.txt!

Johan von Hülsen

Geschäftsführender Gesellschafter

Vor dem Hintergrund von KI-Technologien und Generative AI hat Google einen neuen Auftrag für uns: Wir sollen Alternativen zur guten alten robots.txt entwickeln:

Today, we're kicking off a public discussion, inviting members of the web and AI communities to weigh in on approaches to complementary protocols.

Nachdem Google (unter andere Gary Illyes) 2019 ein Update für die Robots.txt angeleiert hat, dass aber aktuell noch kein Standard ist, scheint man hier einen schnelleren Weg zu suchen.

Dass die Veröffentlichung dieses Ansatzes mit der temporären Einschränkung des Crawlings durch open AI zusammenfällt, ist vermutlich nur Zufall.

Hintergrund ist der lauter werdende Ruf nach mehr Kontrolle über die Verwendung von Web-Inhalten für Large Language Models (LLM) und andere AI-Systeme.

Schließlich gibt es relevante Fragen:

Möchte ich, dass mein Paid-Content von einer KI genutzt wird und die Inhalte wiedergegeben werden?
Möchte ich, dass meine teuren Inhalte überhaupt von einer KI kostenlos verwendet werden dürfen?
Möchte ich, dass meine teuren Inhalte überhaupt von einer KI frei verwendet werden dürfen? Das bedeutet für alle Anwendungsfälle, oder nur für spezifische?
Möchte ich meine Inhalte nur für Adhoc-Antworten, aber nicht zur Schulung des Algorithmus zur Verfügung stellen?

Diese Fragen lassen sich möglicherweise auf Ebene der Robots.txt regeln. Möglicherweise aber sind die Angaben an der Stelle aber zu komplex. Oder zu langsam.

Vielleicht ist das eine Einstellung, die jedes Mitglied einer Redaktion für sich entscheiden kann?
Vielleicht ist die Entscheidung abhängig von der Produktgruppe?
Vielleicht ist die Entscheidung abhängig vom Alter der Inhalte?

Möglicherweise gilt die Entscheidung nur für (bestimmte) Bilder, aber nicht für Videos und Text?

Dann wäre eine Regelung über das Meta Robots Tag sinnvoller, da flexibler. Auf der anderen Seite ist es ein signifikanter Unterschied, ob Inhalte nur zur Indexierung für Suchmaschinen bereit gestellt werden, oder auch für das Trainieren von LLMs. Das Meta Robots Tag ist in den letzten Jahren deutlich umfangreicher geworden (wegen der Featured Snippets). Hier noch weitere Ergänzungen vorzunehmen ist möglicherweise nicht unbedingt schlau.

Die LLM-Community und Publisher daher an einen Tisch zu rufen und die wechselseitigen Anforderungen zu evaluieren scheint daher sinnvoll. Ob auf Basis dieser Anforderungen dann das Robots.txt-Protokoll verändert wird, das Meta Robots, oder ob es tatsächlich ein <meta name=\"llm-robots\" content=\"no-learning, citation-needed\" /> geben wird, wird spannend zu beobachten sein.\ Wenn Du Dir auch Gedanken dazu machst oder gemacht hast, dann solltest Du Dich an der Diskussion zum Robots-Standard für LLMs beteiligen.

Johan von Hülsen

Geschäftsführender Gesellschafter